Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

本文介绍了华为诺亚实验室发布的’人类最后的编程考试'(HLCE)基准测试,旨在评估当前大语言模型(LLM)在复杂编程任务上的表现。结果显示,即使是顶尖的大模型,在HLCE上也面临巨大挑战,单次尝试成功率仅15.85%或11.4%,与其它基准相比显著降低。研究发现LLM擅长推理但对交互式问题不足,且存在自我认知能力不强的问题。总体而言,尽管在测试时扩展规律上表现良好,LLM仍需进一步优化。

从诡异视频到假论文,AI正把互联网变成巨型「垃圾场」

AI 生成的诡异视频在社交媒体上大行其道,不仅有色情内容,还有涉及人身伤害、恐怖谷效应等伦理问题。学术领域亦受到冲击,AI 伪造论文导致科学信息虚假。呼吁警惕 AI 技术带来的负面影响,避免互联网变成信息垃圾场。

训练大模型玩《反恐精英》:自带外挂一枪爆头,堪比职业玩家

专注于AIGC领域,介绍微软、百度文心一言等大语言模型的发展和应用。文章提及动视暴雪、斯坦福大学和英伟达研发的游戏大模型MLMOVE,展示其在《反恐精英:全球攻势》中的表现,并对比传统AI的不足之处。

NLP之文本纠错开源大模型:兼看语音大模型总结

2025年7月5日周六,北京晴天。介绍了中文拼写和语法纠错的大模型及其开源工具,包括14种错误类型支持,并提供了多个版本的训练数据集和代码。同时总结了语音大模型的技术进展,涵盖了50多种语音语言模型的数据集、tokenizer以及主流模型资源。