复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

本文提出了一种名为RoboRefer的多模态大模型,能够理解三维空间关系并执行复杂的指令。它在空间指代任务上表现优异,并已应用于多种机器人系统中。

AI4Research:科学研究中的人工智能综述

MLNLP社区致力于推动国内外机器学习与自然语言处理领域的学术交流和技术发展。本文提出AI4Research综述工作,涵盖五个方面:科学理解、学术综述、科学发现、学术写作和学术评审。系统性分类方法及新兴研究方向识别,关键应用与丰富资源总结。

更长的推理链反而导致更多幻觉,MLLMs 幻觉解法仅「抄作业」还不够?摘要

本周会员通讯聚焦MLLMs幻觉问题、AI公司运营等议题。研究发现长推理链下MLLMs产生更多幻觉,不同来源的幻觉表现差异大。多模态模型在视觉编码器设计与训练机制存在失衡现象,导致语言主导现象频发。

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

本文介绍了华为诺亚实验室发布的’人类最后的编程考试'(HLCE)基准测试,旨在评估当前大语言模型(LLM)在复杂编程任务上的表现。结果显示,即使是顶尖的大模型,在HLCE上也面临巨大挑战,单次尝试成功率仅15.85%或11.4%,与其它基准相比显著降低。研究发现LLM擅长推理但对交互式问题不足,且存在自我认知能力不强的问题。总体而言,尽管在测试时扩展规律上表现良好,LLM仍需进一步优化。

从诡异视频到假论文,AI正把互联网变成巨型「垃圾场」

AI 生成的诡异视频在社交媒体上大行其道,不仅有色情内容,还有涉及人身伤害、恐怖谷效应等伦理问题。学术领域亦受到冲击,AI 伪造论文导致科学信息虚假。呼吁警惕 AI 技术带来的负面影响,避免互联网变成信息垃圾场。