SWE-bench Verified 归档 - 第2页共2页

Anthropic 推全球首个混合推理模型Claude 3.7，编程能力大幅增强

2025年2月25日14时作者 AI先锋官

Anthropic发布了新款Claude 3.7和Claude Code，Claude 3.7是首个混合推理模型，可在不同模型间选择答案，并展示思考过程。它在多个基准测试中表现优异，在SWE-bench Verified 和 TAU-bench 中表现出色，在零售和航空场景下的表现也优于其他模型。Anthropic还推出了代理编码工具Claude Code，能帮助用户完成代码任务。

没有预热，只有实力：Claude 3.7 Sonnet不声不响，惊艳全场！

2025年2月25日14时作者 AI信息Gap

Anthropic发布新模型Claude 3.7 Sonnet，这是一个混合推理模型，提供即时回答和深入思考两种模式。Claude 3.7 Sonnet在编程测试中表现出色，并且推出了辅助编程工具Claude Code。

Claude 3.7 Sonnet发布：别提什么AGI，我Anthropic要赚企业客户的钱！

2025年2月25日12时作者硅星人Pro

Anthropic发布了其新模型Claude 3.7 Sonnet，这是一个混合推理模型，具备标准思考和扩展思考模式。它在多个测试中表现出色，并改进了代理训练能力。虽然Claude 3.7 Sonnet在一些指标上不如其他顶级推理模型，但Anthropic强调其在解决GitHub上的实际软件问题方面表现出色，并推出了智能编码工具Claude Code。

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

2025年2月25日8时作者 AI寒武纪

Anthropic发布Claude 3.7 Sonnet和Claude Code，后者专注于代码能力。Sonnet具备混合推理功能，支持快速响应和深入思考，并提供精细的控制权来调整模型思考时间和输出长度。Claude Code作为智能体编码命令行工具，能显著提升编程效率。此外，Anthropic还展示了Claude 3.7 Sonnet在多个基准测试中的卓越表现，确认其为当前最强大的AI模型之一。

o3斩获IOI金牌冲榜全球TOP 18，自学碾压顶尖程序员！48页技术报告公布

2025年2月13日16时作者新智元

18顶尖程序员之列！OpenAI团队48页新作揭秘原理：强化学习+Scaling测试时计算，让o3逐

开源版o1！中国大模型让国外陷入疯狂，成本猛降90%

2025年1月21日8时作者 AIGC开放社区

DeepSeek最新开源的R1模型在多项测试中表现优异，性能超越OpenAI o1模型。价格低廉（仅0.14美元/百万tokens输出），推理效率高，可与GPT-4竞争。

通义灵码SWE-GPT：从静态代码建模迈向软件开发过程长链推理

2024年11月20日19时作者每时AI

解决真实GitHub issue能力进
化，通义灵码团队最新论文《
An Open Developm

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31