卡不够别硬微调!3B草稿写开头,北大团队「弱到强解码」一把带飞大模型对齐 2025年6月30日23时 作者 PaperWeekly 慢…… 别急!这里有一种低资源实现偏好对齐的新方案——弱到强解码( W eak-to- S tron
无需RLHF显著提升GPT-4性能,北大团队提出对齐新范式「残差修正」 NeurIPS 2024 Oral 2025年1月24日23时 作者 PaperWeekly 学习对齐答案和未对齐答案之间的残差,要比直接学习问题到答案之间的映射更容易。 背景 当下大语言模型(