AI意识更进一步!谷歌DeepMind等:LLM不仅能感受痛苦,还能趋利避害

谷歌团队和LSE的研究表明,大语言模型在面对选择时能够权衡痛苦与快乐,这可能是实现’有意识AI’的第一步。该研究通过游戏测试发现,LLM能够在不同疼痛程度下做出权衡选择,类似于人类的本能行为。

SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

研究团队通过对比SFT和RL两种方法发现,长CoT的生成需要大量的计算资源。他们提出了四个关键发现:SFT并非必需但能简化训练并提高效率;推理能力随着训练计算增加而出现,但并非总是如此;可验证奖励函数对增长CoT至关重要;基模型中的错误修正等技能需要通过RL有效地激励。

冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂

谷歌发布Gemini 2.0系列模型,包括Pro、Flash和Lite版本,可生成代码实现复杂任务,并且性能领先。Gemini 2.0 Pro在编码和复杂指令任务中表现最强,已在Google AI Studio和Vertex AI向开发人员提供试用。