大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点 下午4时 2025/06/10 作者 机器之心 怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少?难道是因为大模