Claude Opus 归档

闹玩呢！首届大模型对抗赛，DeepSeek、Kimi第一轮被淘汰了

2025年8月8日19时作者机器学习算法与自然语言处理

谷歌发起首届大模型国际象棋对抗赛，Gemini 2.5 Pro等模型获胜晋级半决赛，比赛旨在检验 LLM 在动态环境下的表现。

刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

2025年6月17日11时作者机器之心

DeepSeek 更新其R1推理模型至0528版本，提升性能并参加LMArena大模型公共基准测试平台的排行榜，DeepSeek-R1（0528）在文本、编程、数学等多个领域排名领先。

Claude与人类共著论文，苹果再遭打脸！实验黑幕曝光

2025年6月16日16时作者新智元

苹果论文被反击，OpenPhilanthropy研究人员揭露大模型在汉诺塔实验、自动评估框架等方面存在缺陷，指出部分测试用例无解却让模型‘背锅’的华点。

炸裂！Claude以第一作者写论文反驳苹果「推理模型根本没有推理能力」：苹果有三大错误

2025年6月14日23时作者 AI寒武纪

苹果发表《The Illusion of Thinking》论文指责大语言模型缺乏推理能力。Claude Opus反驳指出问题源于实验设计局限性而非AI本质缺陷，指出了论文中的三大关键问题，并提出新的评估方法来区分’推理能力’与’简单打字输出’。

AI编码力压群雄！Anthropic上线最强模型Claude 4系列，“举报”模式引争议

2025年5月23日23时作者头部科技

美国AI公司Anthropic发布新一代编码模型Claude Opus 4和Sonnet 4，性能提升高达10%，在SWE-bench上达到业内最先进水平。模型支持多种模式并能通过扩展接口连接到数据库、API等工具，引发了开发者们的广泛好评。

Anthropic发布Claude 4：工程师级AI，而不是更聪明的搜索框或对话机器人

2025年5月23日14时作者 AI先锋官

Anthropic联合创始人Dario Amodei在Code with Claude开发者大会上表示，Claude正式进入全链条开发力和标准构建的全新竞争时代。旗舰模型Claude Opus 4延续了推理、代码能力方向，并且表现出色。新功能如‘思维摘要’与‘扩展思维’模式提升用户满意度。API定价及安全级别显著提升，为更多行业提供可靠支持。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31