复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!
本文提出了一种名为RoboRefer的多模态大模型,能够理解三维空间关系并执行复杂的指令。它在空间指代任务上表现优异,并已应用于多种机器人系统中。
本文提出了一种名为RoboRefer的多模态大模型,能够理解三维空间关系并执行复杂的指令。它在空间指代任务上表现优异,并已应用于多种机器人系统中。
MLNLP社区致力于推动国内外机器学习与自然语言处理领域的学术交流和技术发展。本文提出AI4Research综述工作,涵盖五个方面:科学理解、学术综述、科学发现、学术写作和学术评审。系统性分类方法及新兴研究方向识别,关键应用与丰富资源总结。
本周会员通讯聚焦MLLMs幻觉问题、AI公司运营等议题。研究发现长推理链下MLLMs产生更多幻觉,不同来源的幻觉表现差异大。多模态模型在视觉编码器设计与训练机制存在失衡现象,导致语言主导现象频发。
本文介绍了华为诺亚实验室发布的’人类最后的编程考试'(HLCE)基准测试,旨在评估当前大语言模型(LLM)在复杂编程任务上的表现。结果显示,即使是顶尖的大模型,在HLCE上也面临巨大挑战,单次尝试成功率仅15.85%或11.4%,与其它基准相比显著降低。研究发现LLM擅长推理但对交互式问题不足,且存在自我认知能力不强的问题。总体而言,尽管在测试时扩展规律上表现良好,LLM仍需进一步优化。
AI 生成的诡异视频在社交媒体上大行其道,不仅有色情内容,还有涉及人身伤害、恐怖谷效应等伦理问题。学术领域亦受到冲击,AI 伪造论文导致科学信息虚假。呼吁警惕 AI 技术带来的负面影响,避免互联网变成信息垃圾场。
本文探讨了SFT与DPO的理论关联及其改进方法,提出小学习率策略与基于f散度的新目标可显著提升LLM性能,揭示隐式奖励在两者优化中的作用,并为未来统一框架提供了基础。