AIME 2025 归档 - 每时AI

实测炸裂！DeepSeek-R1-0528火力全开，国产AI首次正面刚Claude 4！

2025年5月30日14时作者 AI技术研习社

DeepSeek-R1-0528模型在复杂推理任务中的表现大幅提升，准确率从70%提升至87.5%，代码生成能力增强，整体性能接近OpenAI大模型。新版模型代码生成效率高、交互体验好、长文本处理能力强。

UC伯克利：让推理模型少思考，准确率反而更高了！

2025年4月17日23时作者量子位

UC伯克利研究发现，强制要求模型跳过思考过程仍能保持或提高推理能力。使用DeepSeek-R1模型，在定理证明任务中仅需30%的Token就能达到与完整思考相同的准确率。

AI能自主出“竞赛题”了！港大&蚂蚁让大模型学会生成难题，水平已接近AIME

2025年3月14日16时作者量子位

港大和蚂蚁的研究人员提出PromptCoT方法，利用思维链生成高质量问题数据，提高了模型训练的效果。他们基于Llama3.1-8B训练了一个问题生成模型，并用合成的问题数据训练了DeepSeek-R1-Distill-Qwen-7B模型，使其在MATH-500、AIME 2024以及AIME 2025上的表现优于大模型。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28