语言模型归档 - 第2页共8页

刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

2025年6月19日11时作者量子位

OpenAI最新研究发现，训练语言模型时如果在一个领域给出错误答案，它在其他领域的表现也可能变得“恶劣”。通过解剖模型内部机制，研究人员找到了一个被称为‘毒性人格特征’的开关。

2025年6月14日8时作者 NLP工程化

OpenAI联合创始人Ilya精选的AI论文清单包含30篇基础、优化和应用类论文，涵盖RNN/LSTM、CNN、Transformer等技术，内容涉及正则化、生成模型、对齐等多个领域。

2025年6月11日16时作者机器之心

机器学习研究者提出一种名为”强化预训练”的新方法，它将下一个 token 预测任务重构为对 next-token 的推理过程。通过可验证奖励的强化学习，这种方法利用海量无标注文本数据进行通用预训练，显著提升语言建模准确性，并有望推动大模型发展的有效路径。

2025年6月10日16时作者量子位

UC伯克利大学计算机副教授Sergey Levine提出问题：语言模型能从预测下一个词中学习很多，但视频模型却从预测下一帧中学到很少。通过类比柏拉图洞穴的故事，他讨论了AI在认知和学习能力方面存在的缺陷，并认为语言模型可能只是对人类智慧的逆向工程，而非真正的自主探索。

2025年6月8日16时作者机器之心

本文研究了语言模型对强化学习中奖励噪声的鲁棒性，即使翻转大部分奖励也能保持高下游任务表现。作者提出了思考模式奖励机制，并展示了其在数学和AI帮助性回复生成任务中的有效性。

2025年5月28日16时作者 PaperWeekly

来学习。人类的知识传递长期依赖符号语言：从文字、数学公式到编程代码，我们通过符号系统将知识编码、解码

2025年5月20日16时作者新智元

测试案例显示白领将被Ai替代，而制造业等蓝领工作不受影响。未来已来，只是分布得不均匀。
基于AI研究