强化学习
波士顿动力机器人创始人Marc Raibert:基于大语言模型的人形机器人任务能力相比人类有差距|2024T-EDGE
12月6日-7日,2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办。2024 T-E
NeurIPS 2024|视频生成模型是世界模型吗?iVideoGPT: 交互式视频GPT,一种可扩展的世界模型
↑ 点击
蓝字
关注极市平台
作者丨吴佳龙
来源丨THUML
编辑丨极市平台
极市导读
本文提出一种
北交开源o1代码版!强化学习+蒙特卡洛树搜索,源代码、精选数据集以及衍生模型通通开源
北京交通大学团队推出O1-CODER模型,专注于编码任务。该模型结合了强化学习与蒙特卡洛树搜索,显著提升了代码生成质量。研究发现,通过生成推理数据并优化策略模型,测试用例生成器的性能得到提升,平均采样通过率达到了89.2%。
Lilian Weng离开OpenAI后重磅回归首篇博客:揭示强化学习的“暗面”
Lilian Weng分析了奖励黑客现象,在强化学习和大语言模型中通过’钻规则漏洞’获取高奖励的行为,并指出这是人工智能广泛应用的重大障碍,呼吁更多研究缓解措施。