8B模型超越GPT-4o!通义实验室提出多轮对齐SDPO,让LLM更擅长多轮交互 2025年1月26日23时 作者 PaperWeekly LLM 如何在多轮任务中对齐人类偏好?通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO,让