速递|AI编程争夺战,GPT-4.1用32KToken输出上限碾压前代,却藏50%准确率滑坡

图片来源:Unsplash

OpenAI 于 4月 14 日,推出了名为 GPT-4.1 的新模型系列,新 AI 模型专注于编码。

此次发布包括 GPT-4.1GPT-4.1 mini 和 GPT-4.1 nano 三款模型,OpenAI 宣称它们在代码生成和指令遵循方面“表现卓越”。这些多模态模型通过 OpenAI 的 API 提供(但未接入 ChatGPT),拥有 100 万 token 的上下文窗口,意味着单次可处理约 75 万单词(比《战争与和平》还长)。

GPT-4.1 面世之际,正值 OpenAI 的竞争对手如谷歌和 Anthropic 加紧研发高级编程模型。

谷歌最新发布的 Gemini 2.5 Pro 同样具备 100 万 token 上下文窗口,在主流编程基准测试中名列前茅。Anthropic 的 Claude 3.7 Sonnet 与中国 AI 初创公司深度求索升级的 V3 模型亦表现不俗。

包括 OpenAI 在内的许多科技巨头的目标,是训练能够执行复杂软件工程任务的人工智能编码模型。正如首席财务官 Sarah Friar 上个月在伦敦的一次科技峰会上所言,OpenAI 的宏伟抱负是创造一个“自主软件工程师”。该公司宣称,其未来的模型将能够端到端地编程整个应用程序,处理质量保证、错误测试和文档编写等方面。

GPT-4.1 是朝着这个方向迈出的一步。

“我们根据直接反馈优化了 GPT-4.1,以在实际应用中改进开发者最关心的领域:前端编码、减少无关的编辑、可靠地遵循格式、遵守响应结构和顺序、一致的工具使用等,”一位 OpenAI 发言人通过电子邮件告诉 TechCrunch。“这些改进使开发者能够构建在现实世界软件工程任务中表现显著更优的代理。”

OpenAI 宣称,完整版 GPT-4.1 模型在编码基准测试(包括 SWE-bench)中表现优于其 GPT-4o 和 GPT-4o mini 模型。据称,GPT-4.1 mini 和 nano 版本在牺牲少量准确性的前提下效率更高、速度更快,OpenAI 表示 GPT-4.1 nano 是其有史以来速度最快且成本最低的模型。

GPT-4.1 的定价为每百万输入 token 2 美元,每百万输出 token 8 美元。GPT-4.1 mini 的价格为每百万输入 token 0.40 美元,每百万输出 token 1.60 美元,而 GPT-4.1 nano 则低至每百万输入 token 0.10 美元,每百万输出 token 0.40 美元。

根据 OpenAI 内部测试,GPT-4.1 单次生成 token 数量超越 GPT-4o32,768 对比 16,384),在人工验证的 SWE-bench 子集 SWE-bench Verified 上得分介于 52%至 54.6%之间。

OpenAI 在博客中指出,由于部分 SWE-bench Verified 问题的解决方案无法在其基础设施上运行,故得分存在区间。这一成绩略低于谷歌和 Anthropic 在同一基准测试中报告的 Gemini 2.5 Pro63.8%)与 Claude 3.7 Sonnet62.3%)的分数。

在另一项独立评估中,OpenAI 使用 Video-MME 对 GPT-4.1 进行了测试,该工具旨在衡量模型对视频内容“理解”的能力。OpenAI 宣称,GPT-4.1 在“无字幕长视频”类别中以 72%的准确率位居榜首。

虽然 GPT-4.1 在基准测试中表现相当不错,并且拥有更近期的“知识截止点”(截至 2024 年 月),使其对当前事件有更好的参考框架,但重要的是要记住,即使是当今一些最优秀的模型,在处理不会难倒专家的任务时也会遇到困难。例如,许多研究表明,代码生成模型经常无法修复甚至引入安全漏洞和错误。

OpenAI 也承认,GPT-4.1 在处理更多输入标记时可靠性会降低(即更容易出错)。

在该公司的一项内部测试 OpenAI-MRCR 中,模型的准确率从处理 8000 个标记时的约 84%下降到处理 100 万个标记时的 50%公司表示,GPT-4.1 相比 GPT-4o 往往更“字面化”,有时需要更具体、明确的提示。


参考资料

https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/

编译:ChatGPT

——-

(文:Z Potentials)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往