20家单位参与,《面向人工智能的数据标注合规指南》征集中

阿里开源的Qwen2.5系列训练数据规模达到18万亿token,远超其他模型。然而,这带来幻象问题的风险促使RAG技术及企业专有知识数据的价值提升,强调了数据采集、标注和管理的重要性。政策层面,《关于促进数据标注产业高质量发展的实施意见》发布,进一步推动数据标注产业发展。《标准》旨在解决数据标注中的合规问题,提高行业规范化发展水平。

METR发现 AI 编码的“摩尔定律”?指数级增长或颠覆软件开发

文章概述了AI系统处理编码任务的能力以指数速度增长,METR机构的最新研究显示,在2019到2025年间,AI能完成的任务时长上限几乎每7个月翻一番。未来预测指出,AI可能在几年内就能完成数周乃至一个月的工作。

大模型靠强化学习就能无限变强?清华泼了一盆冷水

清华大学研究指出,强化学习虽能提升大模型在特定任务上的表现,但可能并未拓展其整体推理能力边界。研究通过pass@k评估发现基础模型在高尝试机会下也能追上甚至超越经过强化学习训练的模型。这表明当前RL技术主要提升的是采样效率而非新解法生成。