量子位
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
研究人员提出了一种‘嫁接’新思路——直接将预训练好的模型作为‘底座’,通过修改组件来研究新架构。这种方法在不增加大量计算资源的情况下提高了文生图模型的生成速度,并且保持了较好的图像质量。
2025必看!大神Karpathy封神演讲:AI创业不造钢铁侠,而是造钢铁侠的战衣
Karpathy在YC AI创业学校活动的演讲中介绍了软件3.0——用自然语言编程大模型的新时代,并分析了大模型的属性和心理特征,提出构建半自主化产品是当前最大的机遇。
前英伟达中国一把手造国产GPU,冲刺IPO了
国产GPU第一股摩尔线程完成上市辅导,创始团队来自英伟达,已累计完成6轮融资超过45亿元。公司以全功能GPU为核心,致力于提供AI计算支持和一站式解决方案。
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
美团与浙江大学联合推出GUIRoboTron-Speech,通过语音指令和截图实现端到端决策的自主GUI智能体,旨在提升用户体验。该系统解决了现有文本依赖问题,利用声纹识别技术准确区分不同用户并执行个性化任务。
AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT
29个顶级大模型在不等式证明任务上的能力被首次系统评估,研究揭示了模型在推理过程中的普遍错误和逻辑漏洞。IneqMath数据集和LLM-as-Judge评估体系帮助发现并补足传统评估的盲点。
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
田渊栋团队利用连续隐向量进行推理,提出两层Transformer可以解决ProsQA问题,准确率达到99%,远超12层离散CoT模型的83%。论文发表于arXiv,该成果不仅应用于科学研究,还激发了作者创作科幻小说的兴趣。