大模型归档 - 第106页共147页

WWW 2025 新大、中科大提出文本无关的多领域图基础模型SAMGPT

2025年2月13日12时作者 PaperWeekly

图神经网络、协同感知
论文题目：
SAMGPT: Text-free Graph Foundati

2025年2月12日23时作者 PaperWeekly

大语言模型（LLMs）的注意力头功能与工作机制引起了广泛关注。《Attention Heads of Large Language Models》综述论文整合了现有研究，提出四阶段认知框架和详细分类，并梳理实验方法与评估基准，为LLM可解释性研究提供了系统性的理论支持与实践指导。

2025年2月12日23时作者 PaperWeekly

的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域

2025年2月12日23时作者 PaperWeekly

文章介绍了字节跳动豆包大模型团队提出的新稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度提升2-6倍，成本降低83%。

2025年2月12日19时作者老刘说NLP

今天是2025年02月12日，星期三。老刘在NLP技术社区分享了关于Deepseek R1模型的习得过程、场景机会及技术风险等内容，并介绍了R1卡顿问题、知识库搭建等实践应用细节。

2025年2月12日19时作者 AI技术研习社

这篇文章介绍了如何通过提示词来指导AI完成任务，包括系统提示词和用户提示词的用途及其扩展用法，鼓励读者动手实践并分享心得。

2025年2月12日19时作者 AI信息Gap

文章介绍了如何使用字节火山引擎版DeepSeek-R1模型，包括本地部署和API服务两种方式，并详细描述了获取API key及调用API的方法。文章还提到了火山引擎的模型广场、在线推理创建接入点等操作步骤。最后给出了一个简单的测试案例验证了模型的能力。

2025年2月12日19时作者 AI信息Gap

苹果与中国电商巨头阿里巴巴合作开发针对中国市场的iPhone人工智能功能，旨在应对严格的监管环境并提升市场份额。双方选择阿里巴巴的Qwen大模型，并采用混合部署方案以确保技术合规和效率。

2025年2月11日23时作者 PaperWeekly

AGI 的重要问题。一些工作
[1, 2]
发现通过引入安全相关的外部监督信号对大模型进行微调可以让