强化学习
图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT
MAPLE实验室提出通过强化学习优化扩散模型和流匹配模型的多步去噪过程,实现用更少步骤生成高质量图像,并显著减少约50%推理步数。
波士顿动力机器人创始人Marc Raibert:基于大语言模型的人形机器人任务能力相比人类有差距|2024T-EDGE
12月6日-7日,2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办。2024 T-E
NeurIPS 2024|视频生成模型是世界模型吗?iVideoGPT: 交互式视频GPT,一种可扩展的世界模型
↑ 点击
蓝字
关注极市平台
作者丨吴佳龙
来源丨THUML
编辑丨极市平台
极市导读
本文提出一种
北交开源o1代码版!强化学习+蒙特卡洛树搜索,源代码、精选数据集以及衍生模型通通开源
北京交通大学团队推出O1-CODER模型,专注于编码任务。该模型结合了强化学习与蒙特卡洛树搜索,显著提升了代码生成质量。研究发现,通过生成推理数据并优化策略模型,测试用例生成器的性能得到提升,平均采样通过率达到了89.2%。