Direct Preference Optimization 归档 - 每时AI

LLM自学成才变身「预言家」！预测未来能力大幅提升

2025年2月25日8时作者新智元

！研究人员通过自我博弈和直接偏好优化，让LLM摆脱人工数据依赖，大幅提升预测能力。
最近，有个爆火的