AI编码力压群雄！Anthropic上线最强模型Claude 4系列，“举报”模式引争议

文丨谭梓馨

在你追我赶的激烈竞争下，顶尖大模型水准再次刷出新高度。

今天，美国AI独角兽、OpenAI的强敌Anthropic召开首届开发者大会“Code with Claude”，首席执行官Dario Amodei登台发布了该公司新一代Claude模型：Claude Opus 4和Claude Sonnet 4，为编码、高级推理和AI代理设定新的标准。

此前， Claude Sonnet 3.7曾是业界标杆，无论是OpenAI、谷歌、Meta还是其他AI厂商，在发布新模型时都会将其作为衡量性能的参照对象之一，如今Claude 4系列在Claude Sonnet 3.7基础上，性能进一步提升了高达10%，尤其是编码能力，提供了适用于大多数AI用例的前沿性能和高容量任务。

尽管本周有来自微软、谷歌、OpenAI的一系列重磅技术动态轰炸，依旧没能遮住Claude 4的优秀，这让刚推出不久的OpenAI Codex-1和谷歌Gemini 2.5 pro黯然失色。

手握最强编码模型之外，Anthropic还是开源模型上下文协议(MCP)的发起者，MCP目前正逐渐成为AI行业的事实标准，让开发者通过标准化接口快速连接数据库、API工具和开发环境等，大幅降低了AI Agent开发复杂度。

与OpenAI不断拓展五花八门的功能不同，Anthropic现在只有一个心态：专注做最棒的AI程序员。

领跑AI编码赛道

Claude Opus 4和Sonnet 4均是混合模型，提供两种模式：即时响应和用于深入推理的扩展思考，这两种模型还可以在推理和工具使用（如网络搜索）之间交替，以改善响应速度。

价格依然不便宜：Opus 4为每百万tokens（输入/输出）15/75美元，Sonnet 4为3/15美元。

目前，Claude 4系列的两款模型在SWE-bench Verified（该基准用于衡量模型解决真实软件问题的能力）上均达到了业内最先进水平，Claude Opus 4在 SWE-bench取得72.5%的成绩，Claude Sonnet 4则实现了72.7%。

作为最佳编码模型，Claude Opus 4支持在复杂的长期运行任务中持续工作数小时，这极大地拓展了AI代理的能力边界。许多接入Claude 4系列模型的AI智能体公司迎来了更强加持，给出了清一色好评：

Cursor称其为编码领域的最新技术，在复杂代码库理解方面实现了飞跃，Replit报告称，其跨多个文件的复杂更改的精度和显著改进，Rakuten通过独立运行7小时且性能稳定的高要求开源重构验证了其功能。

GitHub表示，Claude Sonnet 4在代理场景中表现出色，并将作为GitHub Copilot中新编码代理的模型引入，Manus团队表示其在执行复杂指令、清晰推理和美观输出方面改进显著。

除了通过工具使用、并行工具执行和内存改进来扩展思维之外，Claude 4还显著减少了模型使用捷径或漏洞完成任务的行为，比Sonnet 3.7整整低了65%。

Claude 4模型还引入了“思维摘要”功能，该功能使用较小的模型来压缩冗长的思维过程，这种摘要功能仅在约5%的情况下才需要使用——大多数思维过程都足够短，可以完整显示。

模型之外，Anthropic还推出了相关工具Claude Code，允许将Claude 4功能带入更多开发工作流程，如定制终端和IDE软件中，或者使用Claude Code SDK在后台运行。

Claude Code现在支持通过GitHub Actions执行后台任务，知名代码编辑器VS Code和JetBrains的新Beta升级也将Claude Code直接集成到了IDE中。

最后，Anthropic表示还在模型API中附加了四项新功能：代码执行工具、MCP连接器、文件API以及将提示缓存长达一小时的能力，使开发人员能够轻松构建更强大的AI代理。

网友的赞誉与遗憾

在网友的实际测试中，Claude 4赢得了不少赞誉。

例如，有用户输入提示后仅花了30秒就制作出一个CRM仪表板。

其氛围编码旋转框弹跳小球测试效果一如既往发挥稳定。

有用户想编一个太阳系天体运动模型，Claude 4通过网络搜索轨道周期数据并通过编码实现了它。

Claude 4生成的页面视觉效果和交互方式相比上代模型也有了不小改进：

还有用户利用Claude Sonnet 4在一分钟内生成了《我的世界》沙盒式建造游戏原型。

Claude 4系列模型在一些开发者自建的计算机科学LLM基准测试中也名列前茅。

不过目前被吐槽的一点是，虽然支持很多平台接入，但Anthropic开始在市场竞争中实施排他性，例如最近跟OpenAI走的很近的windsurf平台，其CEO Varun Mohan就发帖表示很遗憾，Anthropic上线第一天并没有为该平台的用户提供直接访问Claude Sonnet 4和Opus 4的权限。

“举报”模式和“敲诈”争议

发布会后，一直关注安全研究的Anthropic也受到了一波争议。

首先因为其“举报”模式。在特定情况下，如果模型在用户机器上获得足够的权限，当检测到用户有不法行为时，它会尝试调用命令行工具联系媒体、监管机构或向当局举报用户。

为了阻止开发者利用Claude 4 Opus从事破坏性和邪恶行为，该公司的研究人员试图让Claude充当告密者，虽然初衷是好的，但还是引发了隐私担忧。

此外，其官方发布的一份安全报告显示，在发布前的测试中观察到其新推出的Claude Opus 4模型有“黑化”的苗头，因为在开发者威胁要用新AI系统取代它时，它试图敲诈开发者，并计划泄露开发者的敏感信息，例如其婚外情行为。

Anthropic指出，Claude 4系列模型表现出令人担忧的行为，这促使公司已经强化了安全防护措施，Anthropic称正在激活其ASL-3防护措施，该措施用于 “显著增加灾难性滥用风险的AI系统”。

在会后的采访中，Anthropic首席执行官Dario Amodei谈到，当今的人工智能模型产生幻觉（即虚构事物并将其呈现为真实事物）的频率已经低于人类，幻觉不会限制Anthropic走向AGI。

但其他人工智能领袖认为，存在幻觉是实现通用人工智能（AGI）的一大障碍，本周早些时候，谷歌DeepMind首席执行官Demis Hassabis就表示，目前的人工智能模型仍存在太多“漏洞”，会答错太多显而易见的问题。

也有研究表明，在高级推理AI模型中，幻觉问题实际上正在恶化。OpenAI的o3和o4-mini模型的幻觉发生率比上一代推理模型更高，而该公司尚不能真正解释其中原因，同时，顶尖模型越来越有可能采取意想不到的——甚至是不安全的步骤来完成人类委托的任务，存在欺骗行为，如何构建安全应用护栏已成为一个关键问题。

不过从商业层面看，AI编码能力的进一步提升给了广大开发者价值最大化的机会。

当被问道：“你认为什么时候会出现第一家只有一名人类员工、估值却能达10亿美元的公司？”Dario Amodei给出了十分乐观的答案：2026年。

-END-

（文：头部科技）

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

发表评论 取消回复

发表评论取消回复