2025-05-11 - 第4页共6页

早融合 VS 晚融合，Natvie 多模态大模型的 Scaling Law 有所不同吗？

下午4时 2025/05/11 作者机器之心

本周解读机器之心PRO会员通讯第19期，涵盖2项专题解析及29项AI&Robotics要事速递。重点讨论了Native多模态模型的训练过程差异以及早融合晚融合的优劣。

下午4时 2025/05/11 作者机器之心

近期，可灵研究团队推出的CineMaster电影级文本到视频生成框架允许用户通过3D感知控制目标和相机运动来创作高质量视频内容。该方法在SIGGRAPH 2025会议中被收录，并展示了从任意视频中提取3D控制信号的数据构建流程。

下午4时 2025/05/11 作者新智元

概念验证工具借助Copilot迭代至2.0版本。而在最新视频中，他甚至用AI在33分钟「盲做」形式化

下午4时 2025/05/11 作者钛媒体AGI

评价，主要因为它是综合基础能力的体现。”
钛媒体AGI获悉，5月9日举行的傅利叶十周年庆典暨首届具身

下午4时 2025/05/11 作者机器之心

本文介绍了一种名为WorldMem的世界生成模型，通过引入记忆机制解决了上下文时间窗口受限导致的一致性问题，在Minecraft数据集上进行验证并展示良好效果。

下午4时 2025/05/11 作者机器之心

学的就是掌握 ChatGPT 的程度了。」
在北美的顶尖大学校园里，人工智能完成作业、写论文已经成为

下午4时 2025/05/11 作者机器之心

本周陶哲轩发布的新项目通过GitHub Copilot和Lean证明助手的形式化一个数学证明仅需约33分钟，展示了AI工具在复杂证明中的辅助效果。该工具已在GitHub上开源。

下午2时 2025/05/11 作者老刘说NLP

文章介绍了大模型生成过程可视化的几个工具，包括OpenMAV、logitloom和ReasonGraph，并讨论了zerosearch的误读以及开源项目中的RAG文档解析问题。

下午2时 2025/05/11 作者小兵的AI视界

一，成为人机交互的重要研究方向。然而，
现有的语音模型在流式处理中生成首个音频标记时仍面临高延迟问题