具体例子归档

卡不够别硬微调！3B草稿写开头，北大团队「弱到强解码」一把带飞大模型对齐

2025年6月30日23时作者 PaperWeekly

慢……
别急！这里有一种低资源实现偏好对齐的新方案——弱到强解码（
W
eak-to-
S
tron

2025年1月24日23时作者 PaperWeekly

学习对齐答案和未对齐答案之间的残差，要比直接学习问题到答案之间的映射更容易。
背景
当下大语言模型（