大语言模型的知识蒸馏(KD)应该用Reverse KL? 2024-12-23 作者 PaperWeekly ©PaperWeekly 原创 · 作者 | Taki5 单位 | 香港大学 研究方向 | LLM