学术归档 - 第28页共283页

复杂空间指令也能秒懂？RoboRefer 让机器人理解推理空间，开放世界也能精准行动！

2025年7月6日16时作者机器之心

本文提出了一种名为RoboRefer的多模态大模型，能够理解三维空间关系并执行复杂的指令。它在空间指代任务上表现优异，并已应用于多种机器人系统中。

一个气泡水广告，为何几十万人围观？原来整个都是Veo 3生成的

2025年7月6日16时作者机器之心

最近，一个完全由AI制作的广告在社交媒体上爆火。该广告展示了角色一致性等关键特性，并介绍了使用超精细提示保持一致性的方法。

牛津证实CoT不可解释！大家不要再用错了

2025年7月6日14时作者机器学习算法与自然语言处理

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

AI4Research：科学研究中的人工智能综述

2025年7月6日14时作者机器学习算法与自然语言处理

MLNLP社区致力于推动国内外机器学习与自然语言处理领域的学术交流和技术发展。本文提出AI4Research综述工作，涵盖五个方面：科学理解、学术综述、科学发现、学术写作和学术评审。系统性分类方法及新兴研究方向识别，关键应用与丰富资源总结。

更长的推理链反而导致更多幻觉，MLLMs 幻觉解法仅「抄作业」还不够？摘要

2025年7月6日11时作者机器之心

本周会员通讯聚焦MLLMs幻觉问题、AI公司运营等议题。研究发现长推理链下MLLMs产生更多幻觉，不同来源的幻觉表现差异大。多模态模型在视觉编码器设计与训练机制存在失衡现象，导致语言主导现象频发。

想清楚再动手：具身智能也要学会脑补未来和择优执行 RSS 2025

2025年7月5日23时作者机器之心

jcsy。她的研究聚焦于开放世界场景下的物体操控与机器人终身学习。吴怡琳本科毕业于上海交通大学，并于

邱锡鹏团队开源MOSS-TTSD！百万小时音频训练，突破AI播客恐怖谷

2025年7月5日23时作者机器之心

MOSS-TTSD 拥有革命性成果，基于百万小时音频训练的模型能生成高质量对话语音，包括多语言支持和超长语音合成能力。

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚提出代码HLCE终极基准

2025年7月5日16时作者机器之心

本文介绍了华为诺亚实验室发布的’人类最后的编程考试'(HLCE)基准测试，旨在评估当前大语言模型（LLM）在复杂编程任务上的表现。结果显示，即使是顶尖的大模型，在HLCE上也面临巨大挑战，单次尝试成功率仅15.85%或11.4%，与其它基准相比显著降低。研究发现LLM擅长推理但对交互式问题不足，且存在自我认知能力不强的问题。总体而言，尽管在测试时扩展规律上表现良好，LLM仍需进一步优化。

从诡异视频到假论文，AI正把互联网变成巨型「垃圾场」

2025年7月5日16时作者机器之心

AI 生成的诡异视频在社交媒体上大行其道，不仅有色情内容，还有涉及人身伤害、恐怖谷效应等伦理问题。学术领域亦受到冲击，AI 伪造论文导致科学信息虚假。呼吁警惕 AI 技术带来的负面影响，避免互联网变成信息垃圾场。

邱锡鹏老师团队发现SFT与DPO破壁统一：内隐奖励作为桥梁

2025年7月5日14时作者机器学习算法与自然语言处理

本文探讨了SFT与DPO的理论关联及其改进方法，提出小学习率策略与基于f散度的新目标可显著提升LLM性能，揭示隐式奖励在两者优化中的作用，并为未来统一框架提供了基础。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30