挑战 next token prediction,Diffusion LLM 够格吗?
本周解读了Diffusion LLM和AI推理成本相关话题。Gemini Diffusion因其扩散架构被社区热议,其生成效率高且并行高效机制让其有潜力成为自回归模型的新挑战者;同时,AI开发者们也关注到基于扩散模型的NLP任务潜力及其与传统建模方式的关系。
本周解读了Diffusion LLM和AI推理成本相关话题。Gemini Diffusion因其扩散架构被社区热议,其生成效率高且并行高效机制让其有潜力成为自回归模型的新挑战者;同时,AI开发者们也关注到基于扩散模型的NLP任务潜力及其与传统建模方式的关系。
AI 智能体的本质被揭开了:它们就是世界模型。DeepMind 研究团队在ICML 2025上发布论文,证明任何能够泛化到广泛目标导向任务的智能体必然已经学到了能够模拟其环境的预测模型。
数学难题在30天内被AlphaEvolve与人类联手三度突破,和差集指数θ从1.173050提升至1.173077。AI提供初始构造,人类进行深度思考和理论升华。展示了未来科学发现中新范式。
无声者的AI翻译工具SignGemma改变了手语识别和翻译技术,使聋人群体能够直接通过手势操控设备,推动了原生手语交互界面、聋人文化数字新大陆以及多元人机交互革命的发展。
DeepMind发布形式化数学猜想库,收录多种形式化的数学猜想。该资源库旨在帮助AI提升数学推理及证明能力,并有望成为自动定理证明或形式化工具的测试基准。
在Google I/O 2025开发者大会上,谷歌发布了先进的AI视频生成模型Veo 3,它能够同时生成带有声音的视频。该模型目前仅限美国Gemini Ultra订阅者和Vertex AI的企业用户使用。
谷歌推出Gemini Diffusion,通过扩散技术将语言模型文本生成速度提升至2000token/秒,甚至超越了较大的模型Gemini 2.0 Flash-Lite。这种技术能够快速迭代并纠正错误,提高生成连贯性和一致性。
AI决策能力不足成为行业关注的问题。谷歌DeepMind与LIT AI实验室的研究通过强化学习微调技术提升了语言模型500%的决策能力。该方法利用思维链作为训练信号,并设计了惩罚-塑造机制,使模型能够在动态环境中做出可持续决策。研究显示单一增加模型规模无法突破执行鸿沟。