多轮对齐归档 - 每时AI

8B模型超越GPT-4o！通义实验室提出多轮对齐SDPO，让LLM更擅长多轮交互

2025年1月26日23时作者 PaperWeekly

LLM 如何在多轮任务中对齐人类偏好？通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO，让