编程基准测试归档

月之暗面又开源了！登顶全球第一，还超了新版DeepSeek-R1

2025年6月17日16时作者智东西

Kimi-Dev-72B是首个在SWE-bench Verified编程基准测试中取得全球最高开源模型成绩的代码大模型，参数量仅为72B。通过大规模强化学习优化，Kimi-Dev-72B不仅能在错误修复和单元测试方面表现出色，还支持自我博弈机制以同时担任BugFixer和TestWriter的角色。

新版Gemini 2.5所有榜一，谷歌无敌了！一个月全面击败o3，编程反超Claude 4

2025年6月6日11时作者新智元

谷歌发布了Gemini 2.5 Pro，仅用一个月就碾压了旧版。新版模型在数学、编程和推理方面表现卓越，稳居所有榜单第一。它引入了‘思考预算’功能，并提升了代码生成的质量。

豆包1.5深度思考模型发布：暴砍参数量，能看图思考，数学编程超DeepSeek-R1

2025年4月17日16时作者智东西

字节跳动发布豆包1.5·深度思考模型，采用MoE架构，参数量为200B，激活参数仅20B，在多项基准测试中达到或接近全球第一梯队水平，具备‘边想边搜’、视觉理解等实用能力。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28