强化学习归档 - 第44页共46页

揭秘监督微调（SFT）：语言模型性能跃升的秘密武器！

2024年12月19日14时作者 AI技术研习社

大型语言模型（LLMs）的训练通常分为多个阶段，包括预训练和后续的微调阶段。虽然预训练成本高昂（通常

2024年12月19日14时作者机器之心

大模型公司Anthropic的研究发现，其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。

2024年12月17日14时作者量子位

宇树机器人开源强化学习代码支持MuJoCo仿真，并能迁移到实体机器运行。此项目名为RL GYM，包含详细教程与数据集，还发布了Point-LIO算法的源码。

2024年12月16日22时作者量子位

Kimi新模型k1发布即上线可用，视觉与推理能力出众。基于强化学习，k1能够深入理解图片信息并进行思维链推理，涵盖数学、物理及化学题。数理化实测中表现出色，超越OpenAI等模型。

2024年12月16日18时作者多知

Kimi发布视觉思考模型k1，支持拍照解题并提供全过程解答。该模型在数学、物理等基础科学领域表现优于OpenAI o1、GPT-4等标杆模型。

2024年12月16日18时作者新智元

MAPLE实验室提出通过强化学习优化扩散模型和流匹配模型的多步去噪过程，实现用更少步骤生成高质量图像，并显著减少约50%推理步数。

2024年12月16日16时作者机器之心

机器之心报道
编辑：杜伟、小舟
这几天，学术圈的小伙伴肯定都很关注正在加拿大温哥华举办的机器学习顶会

2024年12月16日12时作者钛媒体AGI

12月6日-7日，2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办。2024 T-E

2024年12月15日8时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨吴佳龙
来源丨THUML
编辑丨极市平台
极市导读
本文提出一种