POLAR 归档 - 每时AI

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

2025年7月11日16时作者量子位

已成为AI迈向AGI进程中的关键技术节点。
然而，其中
奖励模型
的设计与训练，始终是制约后训练效果

2025年7月11日16时作者新智元

性地采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注

2025年7月10日16时作者机器之心

望迈向 AGI 的核心方法。然而，奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。
目前，主流的

2025年7月10日8时作者 NLP工程化

POLAR提出创新的奖励模型，通过大规模合成语料预训练生成高效策略区分模型，适用于多种场景并显著降低奖励劫持现象。