强化学习
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
lama 4,这是其 Llama 家族的最新成员。
该系列包括 Llama 4 Scout、Llam
R2前奏?DeepSeek联合清华新论文找到强化学习新方法:27B模型“干翻”671B
DeepSeek与清华大学合作的研究提出了一种通用奖励模型GRM及其改进方法SPCT,通过增加推理计算量实现了有效的推理时扩展,并显著提升了LLM的性能。
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖
谷歌DeepMind的DreamerV3在《我的世界》中无需人类数据自主完成钻石收集任务,标志着AI向通用人工智能(AGI)又迈进了一步。