偏好优化归档

公开模型一切，优于DeepSeek-R1，英伟达开源Llama-Nemotron家族

2025年5月7日11时作者机器之心

AI 企业竞相追逐的焦点。
但近年来，推理效率已成为模型部署和性能的关键限制因素。
基于此，英伟达

2025年1月26日23时作者 PaperWeekly

LLM 如何在多轮任务中对齐人类偏好？通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO，让

2025年1月22日23时作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨Glan格蓝@知乎 https://zhuanlan.zhihu