机器之心
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准
本文介绍了华为诺亚实验室发布的’人类最后的编程考试'(HLCE)基准测试,旨在评估当前大语言模型(LLM)在复杂编程任务上的表现。结果显示,即使是顶尖的大模型,在HLCE上也面临巨大挑战,单次尝试成功率仅15.85%或11.4%,与其它基准相比显著降低。研究发现LLM擅长推理但对交互式问题不足,且存在自我认知能力不强的问题。总体而言,尽管在测试时扩展规律上表现良好,LLM仍需进一步优化。
从诡异视频到假论文,AI正把互联网变成巨型「垃圾场」
AI 生成的诡异视频在社交媒体上大行其道,不仅有色情内容,还有涉及人身伤害、恐怖谷效应等伦理问题。学术领域亦受到冲击,AI 伪造论文导致科学信息虚假。呼吁警惕 AI 技术带来的负面影响,避免互联网变成信息垃圾场。
ICML 2025 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成
上海交通大学联合团队提出MAS-GPT,通过生成式设计范式简化多智能体系统构建,只需一句Query就能生成一套可执行的MAS。MAS-GPT已在多个基准任务上超越现有方法,展示了高效和泛化能力。
刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信
刚泄露的Grok 4和Grok 4 Code基准测试结果显示其在Humanities Last Exam(HLE)上达到惊人的45%,远超OpenAI o3及Claude Opus 4。此外,在研究生级物理和天文学问题上得分高达87-88%。
10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个
一款名为Shortcut的AI工具能够一键分析Excel表格,处理复杂的金融建模任务。它不仅限于基础操作,还具备隐藏功能,如生成尤达图像等。不过,该工具在处理复杂数据和大型PDF时存在局限性。