强化学习归档 - 第28页共30页

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

下午12时 2024/12/23 作者机器之心

机器之心报道
作者：蛋酱
这段时间，OpenAI 宣告连续 12 轮轰炸，让 2024 年底的大模型

下午6时 2024/12/19 作者甲子光年

用技术降低具身智能机器人的交付成本。
12月10-11日，由「甲子光年」主办的“万千流变，一如既往”

下午2时 2024/12/19 作者 AI技术研习社

大型语言模型（LLMs）的训练通常分为多个阶段，包括预训练和后续的微调阶段。虽然预训练成本高昂（通常

下午2时 2024/12/19 作者机器之心

大模型公司Anthropic的研究发现，其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。

下午2时 2024/12/17 作者量子位

宇树机器人开源强化学习代码支持MuJoCo仿真，并能迁移到实体机器运行。此项目名为RL GYM，包含详细教程与数据集，还发布了Point-LIO算法的源码。

下午10时 2024/12/16 作者量子位

Kimi新模型k1发布即上线可用，视觉与推理能力出众。基于强化学习，k1能够深入理解图片信息并进行思维链推理，涵盖数学、物理及化学题。数理化实测中表现出色，超越OpenAI等模型。

下午6时 2024/12/16 作者多知

Kimi发布视觉思考模型k1，支持拍照解题并提供全过程解答。该模型在数学、物理等基础科学领域表现优于OpenAI o1、GPT-4等标杆模型。

下午6时 2024/12/16 作者新智元

MAPLE实验室提出通过强化学习优化扩散模型和流匹配模型的多步去噪过程，实现用更少步骤生成高质量图像，并显著减少约50%推理步数。