监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力

加拿大滑铁卢大学TIGER Lab华人学者团队提出One-Shot Critique Fine-Tuning (One-Shot CFT) 新方法,通过生成多个不同版本的解答和多个点评者模型进行点评,让目标模型从“批判答案”中学习推理规律。该方法在计算资源消耗、效果稳定性方面表现优异,比传统的监督式微调和强化学习有明显优势。

速递|全球科技四巨头在AI竞赛中,今年预计投入超3440亿美元

微软、亚马逊等科技巨头今年计划支出超过3440亿美元,主要用于AI模型所需的数据中心建设。尽管如此,Meta因在AI上的投资带来股价上涨8%,而亚马逊因云服务销售疲软导致股价下跌。

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

Joseph Suarez 通过对强化学习历史的回顾指出,尽管近年来强化学习相关论文数量增加,但领域并未取得持续性的突破。主要原因是学术界的短视行为和过度优化评价体系导致研究进展缓慢。他提倡从头开始构建新的强化学习基础设施,并强调性能工程的重要性。