AI寒武纪，作者每时AI - 第15页共33页

AI复现顶尖AI论文？OpenAI最新测评：Claude 3.5得分第一

2025年4月3日16时作者 AI寒武纪

PaperBench测试了多款AI模型复现ICML 2024顶会论文的能力。结果显示，Claude 3.5 Sonnet表现最好，平均得分为21.0%。研究发现当前AI在长期规划、持续调试和策略执行方面存在问题。PaperBench为评估AI科研能力提供了量化标准，有助于加速科学发现并推动开放协作。

历史首次！GPT-4.5通过标准图灵测试，靠的竟是”装人设”？

2025年4月2日23时作者 AI寒武纪

UC San Diego团队通过实验验证GPT-4.5不仅通过了图灵测试，其表现甚至超过真人。胜率高达73%，远高于对照组人类对手的50%。研究发现人设提示是关键因素。

AI视频生成一夜被颠覆：Runway重磅发布Gen-4，保真度、动态性、一致性全面升级

2025年4月1日8时作者 AI寒武纪

Runway公司发布了新一代视频生成模型Gen-4，解决了场景一致性问题并增强了保真度、动态运动捕捉和可控性。Gen-4的核心优势包括高动态与真实感、高度一致性及精准理解与执行能力。

OpenAI官宣重磅开源！最强开源大模型要来了？奥特曼透露过去1小时新增100万用户

2025年4月1日8时作者 AI寒武纪

AI宣布将发布
开源大模型
（open-weight），这是自GPT-2后首次开源
2️⃣ 新模型主

全球增速第三，双核驱动：可能是全网最好的AI搜索，极致的DeepSeek V3最新版体验

2025年3月31日16时作者 AI寒武纪

文章介绍，虽然是一次小更新，但超出想象，实测就前端能力来说超过R1，与Claude 3.7相比也毫不

产出速度太猛了！阿里又上线了QVQ-Max 视觉推理，还能看手相

2025年3月28日23时作者 AI寒武纪

阿里通义千问上线QVQ-Max视觉推理模型，用户可上传图片或视频进行多任务处理。

阿里Qwen版高级语音模式和实时视频聊天模式来了：每天10次试用

2025年3月27日8时作者 AI寒武纪

阿里发布Qwen2.5-Omni-7B模型，支持实时语音和视频聊天，并开源其技术报告。该模型采用’思考者-说话者’架构实现跨模态处理能力，性能达到同类最佳水平，在多个垂直领域表现出色。

突发！OpenAI官宣支持Anthropic推出的大模型上下文协议MCP

2025年3月27日8时作者 AI寒武纪

OpenAI正式支持MCP，使其成为AI应用集成领域的重要标准。

突发！ChatGPT原生图像生成正式上线，网友：截胡谷歌Gemini 2.5发布

2025年3月26日16时作者 AI寒武纪

OpenAI正式推出GPT-4o原生图像生成功能，Sam Altman认为这代表了赋予用户创作自由度的新高度。亮点包括上下文理解、复杂指令执行、文本与图像融合及聊天式交互能力。该功能已向ChatGPT和Sora的Plus、Pro、Team用户以及免费用户提供，并计划扩展至企业版、教育版和开发者API使用。

谷歌深夜炸场：Gemini 2.5 震撼发布！号称世界最强“思考型”AI，各种测试大幅领先

2025年3月26日16时作者 AI寒武纪

谷歌发布Gemini 2.5 Pro实验版，通过显著增强的基础模型和改进的后训练技术，在多个主流基准测试中实现了大幅领先，尤其在推理和代码能力上表现惊人。

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31