强化学习
Google科学家指出:AI编程范式从“数据”为中心向“模型”为中心转变,智能体和多模态整合是未来关键
在2024极客公园创新大会上,DeepMind资深研究科学家Nenad Tomasev和Kaggle CEO D.Sculley分享了对AI未来发展的看法。他们指出强化学习的关键突破在于通过自我对弈生成数据,而当前面临的主要挑战是提供清晰的奖励信号。此外,AI开发范式正从数据驱动转向模型驱动,智能体和多模态整合将成为重点发展方向。Nenad强调深层推理对于解决复杂任务的重要性,并建议年轻开发者不要等待立即开始工作。
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
大模型公司Anthropic的研究发现,其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。
当 Kimi 戴上眼镜之后
特工少女特工小鹏特工西风:Kimi同学通过强化学习技术提升了k1模型的能力,包括数学、物理和图像理解等方面。她的成绩超越了OpenAI o1、GPT-4o和Claude 3.5 Sonnet等模型,展示了视觉思考版的优势。
宇树机器人强化学习代码全面开源,还有训练到仿真和实操手把手教学
宇树机器人开源强化学习代码支持MuJoCo仿真,并能迁移到实体机器运行。此项目名为RL GYM,包含详细教程与数据集,还发布了Point-LIO算法的源码。
Kimi版o1实装上线,这里是我们的一手测试↑
Kimi新模型k1发布即上线可用,视觉与推理能力出众。基于强化学习,k1能够深入理解图片信息并进行思维链推理,涵盖数学、物理及化学题。数理化实测中表现出色,超越OpenAI等模型。
图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT
MAPLE实验室提出通过强化学习优化扩散模型和流匹配模型的多步去噪过程,实现用更少步骤生成高质量图像,并显著减少约50%推理步数。