大模型
ICLR 2025 比MoE快6倍,成本暴降83%!字节发布超稀疏架构UltraMem
文章介绍了字节跳动豆包大模型团队提出的新稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度提升2-6倍,成本降低83%。
李彦宏:DeepSeek大获成功,但仍需加大AI基建投入
百度CEO李彦宏表示,为了开发更智能的模型需要更多计算资源,但对数据中心和云基础设施的投资仍然非常重要。尽管DeepSeek提高了AI模型效率,成本每年降低90%以上。
小猿全系产品接入DeepSeek,未来两个月内陆续推出调优成果
猿辅导集团旗下的小猿学练机和小猿口算接入DeepSeek推理大模型,并将与自研的猿力大模型融合。目前已有多个教育厂商加入,推动教育AI持续深化。
李彦宏谈DeepSeek:我们到处都能看到创新,因此必须适应这种快速变化|
百度创始人李彦宏在迪拜2025世界政府峰会上谈及DeepSeek热潮的影响,并强调创新的重要性。他表示大模型成本大幅下降,中国公司需营造有利环境促进创新。同时提到百度文心一言成为首个推出类ChatGPT应用的中国上市公司,并认为AI技术进步快但需要谨慎处理事故风险。李彦宏还提到了Robotaxi和智能体的发展趋势及算力投资的重要性。
DeepSeek,又杀疯了!
DeepSeek爆火,高性能低成本让企业接入AI成为必然趋势。大模型工程师等岗位年薪百万,但普通程序员正被AI替换。知乎知学堂推出大模型应用开发工程师速成计划,帮助学员掌握前沿技术、提升竞争力。
AI意识更进一步!谷歌DeepMind等:LLM不仅能感受痛苦,还能趋利避害
谷歌团队和LSE的研究表明,大语言模型在面对选择时能够权衡痛苦与快乐,这可能是实现’有意识AI’的第一步。该研究通过游戏测试发现,LLM能够在不同疼痛程度下做出权衡选择,类似于人类的本能行为。
小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
AIxiv专栏介绍及其最新发布成果FireRedASR模型。该模型在公开测试集中取得卓越性能,相比现有SOTA模型错误率降低8.4%,参数量更小。
SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
研究团队通过对比SFT和RL两种方法发现,长CoT的生成需要大量的计算资源。他们提出了四个关键发现:SFT并非必需但能简化训练并提高效率;推理能力随着训练计算增加而出现,但并非总是如此;可验证奖励函数对增长CoT至关重要;基模型中的错误修正等技能需要通过RL有效地激励。