大模型
大语言模型
Cell子刊《Patterns》最新综述:大语言模型Attention Heads的可解释性研究
大语言模型(LLMs)的注意力头功能与工作机制引起了广泛关注。《Attention Heads of Large Language Models》综述论文整合了现有研究,提出四阶段认知框架和详细分类,并梳理实验方法与评估基准,为LLM可解释性研究提供了系统性的理论支持与实践指导。
ICLR 2025 比MoE快6倍,成本暴降83%!字节发布超稀疏架构UltraMem
文章介绍了字节跳动豆包大模型团队提出的新稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度提升2-6倍,成本降低83%。
KG增强Agentic Reasoning进行深度研究的有趣思路:兼看社区R1类推理分享三部曲
今天是2025年02月12日,星期三。老刘在NLP技术社区分享了关于Deepseek R1模型的习得过程、场景机会及技术风险等内容,并介绍了R1卡顿问题、知识库搭建等实践应用细节。
3分钟接入满血版DeepSeek-R1:字节火山引擎手把手教程!免费50万tokens!
文章介绍了如何使用字节火山引擎版DeepSeek-R1模型,包括本地部署和API服务两种方式,并详细描述了获取API key及调用API的方法。文章还提到了火山引擎的模型广场、在线推理创建接入点等操作步骤。最后给出了一个简单的测试案例验证了模型的能力。
突发!苹果AI与阿里Qwen模型达成合作!DeepSeek遭淘汰!
苹果与中国电商巨头阿里巴巴合作开发针对中国市场的iPhone人工智能功能,旨在应对严格的监管环境并提升市场份额。双方选择阿里巴巴的Qwen大模型,并采用混合部署方案以确保技术合规和效率。