首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
刘子儒等人提出GHPO算法框架,在复杂推理模型训练中引入模仿学习,解决了奖励稀疏问题。该框架实现了在线强化学习与模仿学习的融合,并动态调整提示策略以适应不同难度的数据集。论文详细介绍了GHPO的具体实现和实验结果,其性能优于现有方法。
刘子儒等人提出GHPO算法框架,在复杂推理模型训练中引入模仿学习,解决了奖励稀疏问题。该框架实现了在线强化学习与模仿学习的融合,并动态调整提示策略以适应不同难度的数据集。论文详细介绍了GHPO的具体实现和实验结果,其性能优于现有方法。
华东师范大学上海人工智能金融学院邵怡蕾院长及团队洞察行业的真实需求,发布了重磅成果「Silicon
上海AI实验室与北航联合推出首个专注具身智能体安全性的评测基准IS-Bench,旨在测试基于视觉语言模型的家务助手的安全性。该基准包含150多个暗藏危险的家居场景和贯穿全过程的动态评测框架,揭示当前VLM家政助手在完成任务时的安全完成率不足40%。
MLNLP社区发布论文介绍LIFBENCH基准测试工具评估大语言模型在长文本输入场景下的指令遵循能力和稳定性,揭示现有模型不足,并提出未来研究方向。
MLNLP社区发布了一篇关于大型语言模型安全性的论文《Weak-to-Strong Jailbreaking on Large Language Models》,提出了弱到强越狱攻击方法,该方法能在一次前向传递中大幅提高对齐LLMs生成有害文本的成功率,并揭示现有防护措施的不足。
MLNLP社区致力于推动国内外机器学习与自然语言处理领域的交流合作。作为知名社区,其愿景是促进学术界、产业界和爱好者之间的进步。近日WAIC大会上,Geoffrey Hinton发表了开幕演讲,讨论了数字智能与生物智能的关系,并分享了他早期模型如何结合两种理论的观点。该文章还提到了大模型的发展以及它们在语言理解方面的应用,强调了人类理解和AI系统之间的一些相似之处。最后讨论了全球合作对于解决AI安全问题的重要性。
MLNLP社区是国内外知名的人工智能社区,致力于推动自然语言处理与机器学习的学术和技术交流。苹果对应用内购买(例如12306购票)不收取佣金,因为这些交易不属于IAP范畴。
本周会员通讯涉及实现Agent能力泛化的必要性、AI助理离 Jarvis 还有多远及OpenAI前产品VP的心法等内容。主要讨论了是否需要对世界进行表征的问题,不同范式的效果和局限性,以及AI助理的前景和技术细节等议题。