全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug

 

作者 | 冬梅
Claude 4 系列模型发布,编码、推理能力更上一步

昨天夜里,在 Anthropic 的首届开发者大会上,Anthropic CEO Dario Amodei 宣布 Claude 4 正式发布。

该系列模型下共有两个型号:Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI 代理设定新的标准。

Dario 表示,Claude Opus 4 是该公司迄今为止最强大的 AI 模型,能够连续“数小时”处理长时间运行的任务。

Dario 示,在客户测试中,Opus 4 可以自主运行 7 个小时,显著扩展了 AI 代理的可能性。该公司还将其新旗舰产品描述为“世界上最好的编码模型”,Anthropic 的基准测试显示,Opus 4 在编码任务和使用网络搜索等“工具”方面的表现优于谷歌的 Gemini 2.5 Pro、OpenAI 的 o3 推理和 GPT-4.1 模型。

Claude Opus 4 也是全球最佳的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均领先。

Claude Opus 4 擅长编码和解决复杂问题,为前沿代理产品提供动力。Cursor 称其为编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。Replit 报告称,其跨多个文件的复杂更改的精度和显著改进。

除了模型方面的改进外,Claude Opus 4 在内存能力方面也显著超越了所有前代型号。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如,Opus 4 在玩宝可梦时能够创建“导航指南”。

Claude Sonnet 4 是一款更经济实惠、更注重效率的型号,更适合执行常规任务,它取代了 2 月份发布的 3.7 Sonnet 型号。Dario 表示,Sonnet 4 提供“卓越的编码和推理能力”,同时提供更精确的响应。他补充说,与 3.7 Sonnet 相比,这两款型号在完成任务时走捷径和钻空子的可能性降低了 65%,而且当开发人员为 Claude 提供本地文件访问权限时,它们能够更好地存储长期任务的关键信息。

Claude Sonnet 4 在 Sonnet 3.7 业界领先的功能基础上进行了显著提升,在 SWE-bench 上实现了 72.7% 的出色编码效率。该模型在内部和外部用例的性能和效率之间取得了平衡,并增强了可控性,从而更好地控制实现。虽然在大多数领域都无法与 Opus 4 匹敌,但它实现了功能和实用性的最佳结合。

GitHub 表示,Claude Sonnet 4 在代理场景中表现出色,并将作为 GitHub Copilot 中新编码代理的基础模型引入。

Manus 强调了其在执行复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 在自主多功能应用程序开发方面表现出色,并显著改进了问题解决和代码库导航能力,将导航错误率从 20% 降至接近零。

Sourcegraph 表示,该模型有望成为软件开发的一大飞跃——能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称其成功率更高,代码编辑更精准,复杂任务的处理也更加细致,使其成为其主要模型的首选。

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深层次推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 套餐包含两种模型和扩展思维,Sonnet 4 也面向免费用户开放。

两种模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 token(输入 / 输出)15~75 美元,Sonnet 4 为 3~15 美元。

模型之外,Claude Code 已发布

除了新模型外,Anthropic 的 Claude Code agentic 命令行工具在 2 月份有限预览后现已正式发布。

Anthropic 表示,在研究预览期间收到大量积极反馈后,Anthropic 正在扩展开发者与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 原生集成,可直接在文件中显示编辑内容,实现无缝的结对编程。

Anthropic 还表示,为了应对来自 OpenAI、谷歌和 Meta 的竞争,该公司正在转型,提供“更频繁的模型更新”。

Anthropic 的其他更新还包括:

  • 使用工具进行扩展思考(测试版)
    :两种模型都可以在扩展思考过程中使用工具(例如网络搜索),从而使 Claude 能够在推理和工具使用之间交替进行以改善响应。
  • 两种模型都可以并行使用工具,更精确地遵循指令
    ,并且当开发人员授予其访问本地文件的权限时,可以显著提高记忆能力,提取和保存关键事实以保持连续性并随着时间的推移建立隐性知识。
  • 新的 API 功能
    :Anthropic 在 Anthropic API 上发布了四项新功能,使开发人员能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、文件 API 以及将提示缓存长达一小时的能力。

Anthropic 上周确认,其第一季度年化营收达到 20 亿美元,较上一季度的 10 亿美元增长了一倍多。该公司营收主管凯特·詹森 (Kate Jensen) 最近接受 CNBC 采访时表示,Anthropic 年度消费超过 10 万美元的客户数量较去年同期增长了八倍。

华尔街继续向 Anthropic 等人工智能初创公司投入资金:该公司上周获得了 25 亿美元的五年期循环信贷额度,以增强其在不断扩大且昂贵的人工智能竞争中的流动性。

网友实测:很强大

Claude 4 的发布在社交平台上引发了诸多关注。有网友第一时间进行了实测,随后表示,

“Claude 4 强大到令人发指!我就输入一句‘给我做个 CRM 仪表盘’的指令,它 30 秒就搞定了,我整个人都惊呆了!!”

另一位第一时间实测了 Claude 4 的网友表示,这编码能力绝对要远远优于 3.5/3.7 版本。

第一次尝试就用 Claude Sonnet 4 一次性通关了一个游戏,而且我还在游戏过程中把客厅吸尘了!没有任何 bug,就这么丝滑。

还有位提前体验了 Claude 4(不确定具体是哪个版本)的用户表示,它的表现让人印象深刻。

“举个有趣的例子,当我输入提示词:把《皮拉内西》这本书做成 p5js 的 3D 空间。帮我实现一下——仅仅这样一句话,没有任何额外提示,它就生成了这个作品(注意那些鸟、水体和光影效果)。”

推理模型成“兵家必争之地”

2025 年,人工智能行业已显著转向推理模型。这些系统在做出反应之前会系统地解决问题,模拟类似人类的思维过程,而不是简单地根据训练数据进行模式匹配。

OpenAI 于去年 12 月凭借其“o”系列开启了这一转变,随后谷歌 Gemini 2.5 Pro 也推出了实验性的“深度思考”功能。DeepSeek 的 R1 模型凭借其卓越的问题解决能力和极具竞争力的价格意外地占领了市场份额。

这一转变标志着人们使用人工智能方式的根本性变革。根据 Poe 的《2025 年春季人工智能模型使用趋势报告》,推理模型的使用量在短短四个月内增长了五倍,占所有人工智能交互的比例从 2% 增长到 10%。用户越来越多地将人工智能视为解决复杂问题的思维伙伴,而非简单的问答系统。

随着新型人工智能模型引起用户兴趣,推理类信息的比例在 2025 年初大幅上升。(图片来源:Poe)

Claude 的新模型的独特之处在于将工具的使用直接融入推理过程。这种同步研究与推理的方法比以往先收集信息再进行分析的系统更贴近人类认知。在推理过程中暂停、查找数据并融入新发现的能力,创造了更自然、更有效的解决问题体验。

Anthropic 的新发布时机凸显了高级人工智能领域竞争的加速。在 OpenAI 推出 GPT-4.1 系列仅五周后,Anthropic 就推出了在关键指标上挑战甚至超越它的模型。谷歌本月初更新了其 Gemini 2.5 系列,而 Meta 最近发布了其 Llama 4 模型,该模型具有多模态功能和 1000 万个 token 上下文窗口。

在这个日益专业化的市场中,每个主要实验室都展现出独特的优势。OpenAI 在通用推理和工具集成方面处于领先地位,谷歌在多模态理解方面表现出色,而 Anthropic 则在持续性能和专业编码应用方面独占鳌头。

这对企业客户而言具有重大的战略意义。如今,企业面临着日益复杂的决策,即针对特定用例部署哪些 AI 系统,没有哪个模型能够在所有指标上占据主导地位。这种碎片化有利于成熟的客户,他们可以利用专业的 AI 优势,同时也挑战了寻求简单统一解决方案的公司。

(文:AI前线)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往