Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

新智元报道

编辑：编辑部 HZj

【新智元导读】Ilya「预训练结束了」言论一出，圈内哗然。谷歌大佬Logan Klipatrick和LeCun站出来反对说：预训练还没结束！Scaling Law真的崩了吗？Epoch AI发布报告称，我们已经进入「小模型」周期，但下一代依然会更大。

最近，Ilya在NeurIPS 2024中宣布：预训练结束了！瞬间一石激起千层浪。

在他看来，数据如同化石燃料般难以再生，因此训练模型需要的海量数据即将枯竭。

作为前OpenAI首席科学家，Ilya的这番话，有可能影响之后数十年的AI发展方向。

不过，预训练真的结束了吗？

最近，几位圈内大佬，就公开站出来质疑和反对Ilya了。

谷歌大佬Logan Kilpatrick是这样内涵Ilya的：认为预训练结束，恐怕是因为你缺乏想象力。

前Meta具身智能团队的高级总监Dhruv Batra也站出来共同表示：Ilya错了！

在他看来，人类的数据还没有用完。

我们只是用完了人类书写的文本而已，但我们拥有的视频数量，依然远超我们的处理能力，目前只是尚未解决视觉领域的预训练问题罢了。

的确，要知道，网络上的文本公共数据，毕竟只是冰山一角而已。

我们除了文本，还能对音频、视频、图像进行预训练，甚至可以把视觉、嗅觉、触觉、平衡和传感器这些人类进化出来的功能赋予机器。

而如果模型真的可以学习的话，那数据或许确实是无所不在。

左右滑动查看

有人则充分放分想象：如果预训练能和生物相连，那它的确永远不会结束。

Scaling Law和预训练到底有没有撞墙？

种种事件表明，我们已经站在了一个发展路线的分水岭。

Ilya、LeCun甚至奥特曼，都已经感觉到：目前的发展路线不能再延续下去了，我们亟需探索新的出路。

早期，Ilya曾是暴力Scaling的早期倡导者之一，认为通过增加数据和算力来「scale up」，能显著改善模型性能。

但现在，Ilya已经承认自己曾经的想法错了，并透露SSI正在研究一种全新的替代方法，来扩展预训练。

相较之下，外媒SemiAnalysis则在一篇关于o1的深度报道中指出——scale的维度远不止预训练，Scaling Law仍将继续下去。

最近，Epoch AI研究员的一篇长文，更是直观地展示了这个「矛盾」的现象。

从2017年Transformer架构诞生到GPT-4发布，SOTA模型的规模一直在变大，但增幅在变小。

从GPT-1到GPT-3，用了2年时间，模型参数量从1.17亿增加到1750亿，增加了1000倍
从GPT-3到GPT-4，用了2年9个月，模型参数量从1750亿增加到1.8万亿，增加了10倍

而到了2023年，这一趋势直接发生了逆转。

据估计，当前SOTA模型的参数可能要比GPT-4的1.8万亿小一个数量级！

GPT-4o大约为2000亿参数
Claude 3.5 Sonnet约为4000亿参数

但有趣的是，下一代模型的规模，可能又会重新超过GPT-4。

当今SOTA模型最大只有约4000亿参数

尽管许多实验室没有公开模型架构，Epoch AI的研究员依然从蛛丝马迹中发现了线索。

首先是开源模型的证据。根据Artificial Analysis的模型质量指数，当前最佳的开源模型是Mistral Large 2和Llama 3.3，分别拥有1230亿和700亿参数。

这些稠密模型，架构与GPT-3相似，但参数更少。它们总体的基准表现超过了GPT-4和Claude 3 Opus，且由于参数更少，它们的推理成本和速度也更优。

对于闭源模型，尽管我们通常无法得知参数详情，但可以根据推理速度和收费推测它们的大小。

仅考虑短上下文请求，OpenAI提供的2024年11月版本GPT-4o，每个用户每秒100-150个输出token，收费每百万输出token 10美元；而GPT-4 Turbo每秒最多大约55个输出token，费用是每百万输出token 30美元。

显然，GPT-4o比GPT-4 Turbo更便宜且更快，因此它的参数可能比GPT-4小得多。

另外，我们还可以使用推理经济学的理论模型，来预测GPT-4在H200上进行推理的成本。

假设使用H200进行推理的机会成本为每小时3美元，下面的图显示了不同价格点下，GPT-4及其假设缩小版的生成速度。

总体来说，为了让模型每秒生成100个以上的token并且能够流畅服务，模型需要比GPT-4小得多。

根据上图，假设OpenAI的价格加成大约是GPU成本的八分之一，GPT-4o的参数量可能在2000亿左右，虽然这个估计可能有2倍的误差。

有证据表明，Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成约60个token，每百万输出token收费15美元。这速度在优化设置下接近原版GPT-4的收支平衡点。

不过，考虑到Anthropic API可能加价不少，Sonnet参数规模仍显著小于GPT-4，估计在4000亿左右。

总体来看，当前前沿模型的参数大多在4000亿左右，像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。

虽然对于闭源模型的参数估计有很大的不确定性，但我们仍然可以推测，从GPT-4和Claude 3 Opus到如今最强的模型，规模缩小的幅度可能接近一个数量级。

为什么会这样？

针对这一现象，Epoch AI认为有四个主要原因：

1. AI需求爆发，模型不得不瘦身

自ChatGPT和GPT-4发布以来，AI产品需求激增，服务商面临的推理请求大大超出预期。

此前，从2020年到2023年3月，模型训练的目标是最小化训练计算量，即在固定的能力水平下，花费尽可能少的计算资源完成训练。Kaplan和Chinchilla的Scaling Law建议，随着训练计算量的增加，模型规模也应扩大。

随着推理成本占据支出的大头，传统法则的适用性受到了挑战。相比scaling模型规模，在更多训练数据（token）上训练较小的模型反而更划算，因为较小的模型在推理阶段的计算需求较低，能够以更低的成本服务用户。

比如，从Llama 2 70B到Llama 3 70B，虽然模型参数规模没有显著增加，但模型的性能却显著提升。

这是因为通过过度训练（在更多数据上训练较小的模型），可以让模型在保持小规模的同时，表现得更强大。

2. 蒸馏，让小模型更能打

实验室还采用了「蒸馏」方法，从而让更小的模型表现得更强大。

蒸馏指的是让小模型模仿已经训练好的大模型的性能。

蒸馏方法有很多种，其中一种简单的方法是使用大模型生成高质量的合成数据集来训练小模型，而更复杂的方法则需要访问大模型的内部信息（如隐藏状态和logprobs）。

Epoch AI认为，GPT-4o和Claude 3.5 Sonnet很可能是从更大的模型蒸馏得到的。

3. Scaling Law的转变

Kaplan Scaling Law（2020）建议，模型的参数量与训练用的token数量（即数据量）应保持较高的比例。简单来说，当你增加训练数据时，应该相应增加模型的规模（参数量）

而Chinchilla Scaling Law（2022）则偏向于更多训练数据和更少的参数。模型不必越来越大，关键在于训练数据的规模和多样性。

这个转变导致了训练方式的改变：模型变得更小，但训练数据更多。

从Kaplan到Chinchilla的转变，并非因为推理需求的增加，而是我们对如何有效scaling预训练的理解发生了变化。

4. 推理更快，模型更小

随着推理方法的改进，模型生成token的效率和低延迟变得更加重要。

过去，判断一个模型「足够快」的标准是看它的生成速度是否接近人类的阅读速度。

然而，当模型在生成每个输出token时需要先推理出多个token时（比如每个输出token对应10个推理token），提升生成效率就变得更关键。

这推动了实验室，像OpenAI，专注于优化推理过程，使得模型在处理复杂推理任务时能够更高效运行，也因此促使它们缩小模型的规模。

5. 用AI喂AI，成本更低

越来越多的实验室开始采用合成数据作为训练数据来源，这也是促使模型变小的原因之一。

合成数据为训练计算scaling提供了一种新的途径，超越了传统的增加模型参数量和训练数据集大小的方法（即，超越预训练计算scaling）。

我们可以生成将来用于训练的token，而不是从互联网上抓取它们，就像AlphaGo通过自我对弈生成训练数据一样。

这样，我们可以保持Chinchilla Scaling Law下计算最优的token与参数比例，但通过生成数据时为每个token投入更多计算，从而增加训练计算量而不增加模型大小。

奥特曼：参数规模竞赛即将终结？

2023年4月，OpenAI发布了当时最强的，同时也是第一款未公开参量的模型GPT-4。

之后不久，CEO奥特曼曾预言了模型参数竞赛的终结：围绕模型参数量的竞赛，就像历史上对更高处理器主频的追求，是一个死胡同。

那么，前沿模型的规模会不会越变越小呢？

简短的答案是——可能不会。但也很难说是否应该期待它们在短期内变得比GPT-4更大。

从Kaplan到Chinchilla的转变是一次性的，因此我们没有理由期待它继续让模型变小。

GPT-4发布后的推理需求增长也可能快于未来推理支出的增长速度。且合成数据和scaling计算并非每个实验室都在采纳——即使有高质量的训练数据，对于非常小的模型而言，能够取得的成就可能非常有限。

此外，硬件的进步可能会促使更大的模型变得更优，因为在相同预算下，大模型通常表现更好。

较小的模型在推理时可能表现更差，尤其在长上下文和复杂任务上。

未来的模型（如GPT-5或Claude 4）可能会恢复或稍微超过GPT-4的规模，之后是否继续缩小规模难以预料。

理论上，当前硬件足以支持比GPT-4大50倍、约100万亿参数的模型，可能以每百万输出token 3000美元、每秒10-20个token的速度提供服务。

但正如Karpathy所说，相比于如今这种只能根据prompt去解决博士级别问题的AI，一个能够真正作为「实习生」入职的AI更为实用。

（文：新智元）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30