SWE-bench Verified 归档

媲美Claude 4，支持100万上下文！阿里开源超强代码AI Agent模型

2025年7月25日8时作者 AIGC开放社区

阿里巴巴开源超强AI Agent模型Qwen3-Coder，在OpenAI基准测试中得分69.6%，参数量4800亿。它在代码领域表现突出，并且支持256K上下文窗口和大规模强化学习，还提供命令行工具方便使用。

2025年6月18日8时作者 NLP工程化

Kimi-Dev 是一款强大的开源编程LLM，性能超越其他开源模型，在SWE-bench Verified上达到60.4%；支持本地部署和Hugging Face使用，并通过大规模强化学习优化解决方案的准确性和鲁棒性。

2025年6月17日11时作者量子位

Kimi发布开源代码模型Kimi-Dev，在SWE-bench Verified上取得60.4%成绩，参数量只有72B。该模型采用BugFixer和TestWriter两种角色的结合进行训练，目前权重和代码均已发布。

2025年5月23日23时作者头部科技

美国AI公司Anthropic发布新一代编码模型Claude Opus 4和Sonnet 4，性能提升高达10%，在SWE-bench上达到业内最先进水平。模型支持多种模式并能通过扩展接口连接到数据库、API等工具，引发了开发者们的广泛好评。

2025年5月22日16时作者量子位

Mistral发布开源编程模型Devstral，在软件工程任务上超过DeepSeek全家桶和Qwen3 235B。参数仅24B，可在单卡RTX4090甚至32G内存的Mac上运行。

2025年3月4日12时作者机器之心

Anthropic 宣布完成35亿美元E轮融资，投后估值达615亿美元。该资金将用于开发下一代AI系统、增强计算能力及深化研究。