Llama 4爆料大反转,没在测试集上训练!华人员工实名辟谣,LeCun出面救火
Meta针对Llama 4训练作弊的爆料迅速反击,但模型的实际表现却频频被吐槽。Ahmad Al-Dahle澄清不同平台间质量差异是因为开源行为,Yann LeCun力挺模型。尽管存在争议,Llama 4在某些测试中的表现令人失望。
Meta针对Llama 4训练作弊的爆料迅速反击,但模型的实际表现却频频被吐槽。Ahmad Al-Dahle澄清不同平台间质量差异是因为开源行为,Yann LeCun力挺模型。尽管存在争议,Llama 4在某些测试中的表现令人失望。
Meta发布首个原生多模态Llama 4系列模型,性能超越GPT-4。包含Maverick、Scout和Behemoth三个模型,支持1000万token上下文。不过其开源模式存在争议,包括登录Hugging Face账户限制、严格再分发要求及命名要求等。
Meta 新发布的Llama 4因基准测试成绩亮眼但遭用户质疑,称其实际表现不佳。Meta 因疑似数据污染技术而受到批评。此外,Meta的Llama 4 Maverick模型在多个任务如前端开发、逻辑推理等方面的表现也不尽人意。
今天凌晨
1
点半,Meta生成式AI领导者Ahmad Al-Dahle在社交平台回应了前天开源的Llama 4被质疑的问题。Meta否认在测试集上进行预训练,并表示会修复漏洞提升模型性能。然而,国内媒体以Meta新开源的Llama 4 Maverick代码能力比肩其V3模型为噱头写标题。Meta随后发布声明,澄清质量差异因优化需要时间,并称不会在测试集上预训练。多位网友质疑Llama 4的实际表现低于预期,认为Meta可能在测试中进行了篡改。
Meta 新发布的 LLaMa 4 模型疑似在训练过程中作弊,内部人士爆料团队直接将测试数据集塞进训练数据。AI 界对此事反响强烈,有人质疑 Meta 负责人是否知情,另有声音认为可能只是简单错误所致。
Meta发布的新模型Llama 4引发质疑,代码能力不佳且存在作弊嫌疑。内部员工爆料称在训练过程中曾混入多个基准测试集以获得良好表现。多位AI研究人员指出Llama 4的表现远逊于SOTA模型,网友普遍对其失望。
Meta最新基础模型Llama 4发布后遭遇差评如潮。代码能力受质疑,尤其是经典‘氛围编程’小球测试表现不佳。竞技场排名成绩参差不齐,且存在数据泄露和版权问题的疑虑。
一篇来自‘一亩三分地’论坛的帖子爆料称Meta的新大模型Llama 4训练效果未达开源SOTA基准,公司采取混入测试集数据以满足目标的做法引发争议。此外,TechCrunch质疑Meta在LM Arena排行榜上提交的版本可能与公开版不同,并认为这种行为可能误导开发者。
Meta发布Llama 4系列,强调多模态和超长上下文窗口;OpenAI确认O3和O4-mini即将上线且GPT-5将免费;DeepSeek与清华提出SPCT方法提升推理扩展性能。
Meta 最新开源模型 Llama 4 Scout 达到千万级上下文,拥有 1090 亿参数。其使用 NoPE 架构解决长度泛化问题,并通过优化训练流程和强化学习框架提升性能。