数学能力归档

Kimi K2 不仅抢了开源第一，还抢了自家论文署名：我「夸」我自己

2025年7月22日23时作者 APPSO

源模型
，发布后迅速引爆了圈内讨论。
它不仅在各种评估基准上表现亮眼，也收获了国内外开发者社区的普遍

2025年7月17日8时作者开源星探

otAI/Kimi-K2
这波操作属实NB
Kimi-K2是月之暗面开源的最新
1万亿（1000B）

2025年6月29日16时作者 Z Potentials

Meta正招聘来自OpenAI的人工智能研究员，包括赵盛佳、余嘉辉等多名核心研究人员。这些加入者在多款OpenAI模型中扮演重要角色，如o1-mini和o3-mini。Meta还聘请了OpenAI的特拉皮特·班萨尔，并考虑提供数百万美元薪酬方案吸引高级人才。

2025年5月30日16时作者开源星探

几经波折测试后发现，新版DeepSeek R1在代码能力上大幅提升接近Claude4水平，而写作和数学能力提升有限。升级后的新版本代码和审美增强明显。

2025年4月9日16时作者新智元

型竟被抢先开源！UC伯克利和Together AI联合推出的DeepCoder-14B-Previe

2025年3月6日14时作者 AI技术研习社

Claude 3.7 Sonnet是Anthropic最新推出的AI模型，主打‘会思考’。它在软件工程、推理和数学方面表现更出色，并引入了Extended Thinking功能让思考过程可视化。

2025年2月20日16时作者 AI前线

马斯克的AI公司xAI宣布Grok 3模型免费开放使用，直至服务器崩溃。X功能最全套餐目前价格为每月40美元或每年395美元。用户称Grok 3比ChatGPT好但不如Claude。xAI希望通过提供完整的SOTA模型吸引用户。

2025年1月31日16时作者新智元

斯坦福研究发现，即使在数学竞赛中表现出色的大模型o1-preview，在题目稍作修改后准确率也会大幅下降30%。这揭示了AI模型在应对变体题时的局限性。

2024年12月25日14时作者 Hugging Face

自动评估基准通常通过数据集和评估指标来测试模型的表现。文章介绍了基础概念、设计评估任务、选择合适的评估指标等方法，并指出了其优势与劣势，包括一致性、成本效益、易于理解以及高质量测试集的特性，但同时也提到复杂任务难以保证效果和数据污染的问题。

2024年12月16日22时作者量子位

Kimi新模型k1发布即上线可用，视觉与推理能力出众。基于强化学习，k1能够深入理解图片信息并进行思维链推理，涵盖数学、物理及化学题。数理化实测中表现出色，超越OpenAI等模型。