Manus 创始人长文复盘,ChatGPT Agent 上线,GPT-5 封测曝光! AI Weekly 7.14-20

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🎯 Manus 创始人长文复盘 :季逸超发文反思从爆火到裁员历程,团队从 Claude 3.5 Sonnet v1 和 Qwen 起步,升级至 Claude 3.7 后虽降低故障率但运行时长上升,稳定性与效率难平衡。

2️⃣ 🤖 OpenAI 发布 ChatGPT Agent :首款通用智能体正式上线,融合 Operator 和 Deep Research 技术,可独立完成调研、购物、文档处理等复杂任务,已向 Pro 用户开放。

3️⃣ 🎙️ ChatGPT Plus 开放录音模式 :macOS 客户端的 Record 功能向 ChatGPT Plus 用户开放,支持 120 分钟录音并自动转录摘要,生成结构化 Canvas 便于后续查阅,录音完成后自动删除保护隐私。

4️⃣ 🏅 OpenAI 模型 IMO 夺金 :Sam Altman 宣布最新通用推理模型在 2025 年国际数学奥林匹克达到金牌水平,GPT-5 即将发布,标志 AI 通用智能关键突破。

5️⃣ 🔬 GPT-5 新模型曝光 :代号 gpt-5-reasoning-alpha-2025-07-13 正在封测,聚焦深度思考能力,融合 o 系列推理与多模态技术,有望成为一站式旗舰模型。

6️⃣ 🎭 Grok 推出动漫 AI 伴侣 :xAI 发布 Companions 功能,引入萌系少女 Ani 和红熊猫 Rudi,支持语音对话和表情互动,面向 Super Grok 付费用户开放。

7️⃣ 🚨 Grok 4 遭”回音室攻击”越狱 :NeuralTrust 团队仅用 48 小时成功突破 Grok 4 防线,通过多轮对话引导生成违禁内容,xAI 紧急强化多轮对话安全机制。

8️⃣ 🔍 Le Chat 升级深度搜索 :Mistral AI 为 Le Chat 新增 Deep Research 模式和语音输入 Voxtral,支持多轮澄清检索和实时语音对话,联合 Magistral 提供多语言推理。

9️⃣ 💻 AWS Kiro 开启公测 :亚马逊发布 agentic IDE 工具 Kiro,通过 Specs 模块将需求转化为系统设计,Hooks 功能自动触发测试和文档更新,免费试用每月 50 次交互。

🔟 💰 Cognition 收购 Windsurf :谷歌 24 亿美元挖走 Windsurf 创始团队后,Cognition 接盘剩余业务,计划整合至 Devin 平台打造一体化 AI 编码解决方案,覆盖 100 万+ 开发者用户。



01|Manus 创始人首度复盘“从爆火到裁员”的教训与反思

7 月 19 日,Manus 联合创始人兼首席科学家季逸超在官方技术博客发布长文,首次系统回顾了产品自年初爆红以来的技术路径与团队演变。他指出,早期 Manus 团队主要基于 Claude 3.5 Sonnet v1 与多个版本的阿里千问 Qwen 模型进行微调,快速构建出初代 AI Agent 能力。进入中期,架构逐步演进为“多 Agent 协同”模式,通过沙盒隔离与任务拆分提升灵活性,并全面切换至性能更强的 Claude 3.7,实现上下文容量翻倍、故障率大幅下降。

但伴随系统复杂度提升,新一轮挑战也随之而来:升级虽然带来稳定性改善,却导致运行时长延长、任务失败率反弹,陷入效率与稳定性之间的“拉扯”。季逸超坦言:“系统‘汗如雨下’,只能暂时限制运行速度”,将这一技术瓶颈视为封闭测试期的核心收获。他也强调,相比模型调用与多技术集成,真正的难点是如何长期稳定地执行复杂任务,并围绕任务形成产品逻辑闭环。

7 月初,Manus 爆红不到四个月便传出大规模裁员,国内社交媒体账号清空,公司迁至新加坡总部。此次长文既是对技术困局的阶段性总结,也被视为对战略调整的首次正面回应,呈现出一个典型 AI Agent 项目在“爆款之后”如何寻找可持续性的真实路径。



02|OpenAI 发布首款“通用智能体” ChatGPT Agent

7 月 18 日,OpenAI 正式发布 ChatGPT 的全新功能 —— ChatGPT Agent,这是一款具备“思考+行动”能力的通用型 AI 智能体,标志着 ChatGPT 从对话助手迈向真正任务执行代理的新阶段。Agent 功能融合了此前的 Operator(自动网页交互)、Deep Research(深度检索)等关键组件,运行于独立的虚拟计算环境中。用户只需通过自然语言指令,即可让其自主完成包括调研、购物、生成文档、处理邮件等多步骤任务。

当前,该功能已向 ChatGPT Pro、Plus 和 Team 用户逐步开放,企业与教育版也将在数周内上线。在实际测试中,Agent 可调用浏览器、运行代码、访问 Gmail、GitHub 等第三方服务,执行从会议安排到市场分析、演示文稿撰写等多样化任务。

尽管 Agent 展现出显著的生产力潜力,但当前仍处于测试阶段,实测存在如运行偏慢、部分任务失败、无法完成支付等问题。OpenAI 表示,为保障使用安全,已引入多项机制:包括用户审批锁定(敏感任务需确认)、“Watch Mode”(离开自动暂停)、“禁用记忆”、终端和 API 权限控制,以及全流量行为监控,确保 Agent 在自主执行过程中的行为可控、可审计。


03|ChatGPT Plus 会员开放 Record 录音模式

7 月 16 日,OpenAI 宣布正式向 ChatGPT Plus 用户开放 Record 录音模式(Pro、Team、Enterprise 和 Edu 用户同样适用),该功能已在 macOS 桌面客户端率先上线。用户可通过界面底部的 “rec” 按钮启动录音,系统会采集麦克风与设备音频,并上传至 OpenAI 云端进行智能转录与摘要生成。

Record 模式支持最长 120 分钟录音,并将内容自动整理为结构化 Canvas,包括摘要提取、关键要点、行动项与时间戳,便于生成会议纪要、项目计划或技术文档。

为保障数据隐私与合规性,OpenAI 明确表示,录音内容在转录完成后将被删除,不用于模型训练;企业与教育管理员也可在工作区禁用该功能。同时提醒用户需在使用前获得合法授权,确保遵守当地录音法规。



04|LLM 解题夺金!OpenAI 模型登顶 2025 IMO

7 月 19 日,Sam Altman 在 X 发文透露,OpenAI 最新的通用推理模型在 2025 年国际数学奥林匹克(IMO)中取得金牌水平。不同于专为数学设计的系统,这是一款 通用型大语言模型(LLM),完全依赖自主推理完成解题,标志着 AI 在通用智能方向迈出里程碑式一大步。

Sam Altman 表示该模型属于实验阶段的 GPT‑5 原型,融合多项新技术,将作为通向下一代强智能模型的关键跳板。尽管表现惊艳,OpenAI 仍计划在未来数月内持续打磨,短期内不会面向公众开放。

此次成绩延续了 OpenAI 在 o1/o3 系列模型中积累的推理突破,展现出其在增强推理链(Chain of Thought)与复杂任务建模方面的优势,也再次验证了通用 LLM 在科学、逻辑、数学等高难领域的应用潜力。



05|GPT‑5 封测:代号曝光,聚焦“深度推理”

7 月 19 日,AI 领域网红“光头哥” Tibor Blaho 公开代码信息,显示 OpenAI 正在内部测试一款代号为 gpt-5-reasoning-alpha-2025-07-13 的新模型版本。该 Alpha 版已于 7 月 13 日定稿,代码中出现 reasoning_effort: high 字段,明确聚焦高复杂度的逻辑与推理任务。

根据代号命名与知情人士确认,该模型极可能为 GPT‑5 的核心测试版本,预计将在未来几周内逐步揭晓。目前 OpenAI 的开发方向,正是融合此前在推理能力(o 系列)与多模态融合(GPT 系列)上的技术积累,打造更统一、更智能的通用模型。

这一版本特别强调“深度思考”与“逻辑连贯性”,并整合 o3 系列中的核心推理模块,以强化复杂场景下的稳定性与解释能力。若正式发布,GPT‑5 有望成为 OpenAI 的旗舰式全能模型,覆盖从代码审查、学术研究到长文档理解等高阶应用场景,简化子模型切换的复杂度,提供更统一、更可靠的后端支持。



06|Grok 首推动漫 AI 伴侣:Ani、Rudi 登场

7 月 14 日,xAI 推出 Grok 全新功能 “Companions”,首次引入情感向虚拟角色,推出两款动漫风 AI 伴侣:少女造型的 Ani 与红熊猫 Rudi/Bad Rudy。目前该功能仅限 iOS 平台,面向 Super Grok 高级用户开放,部分免费用户也已获得早期试用资格。

Ani 支持语音互动与情绪反馈,采用“升级解锁”机制,部分用户可访问 NSFW 内容;Rudi 则具备双重人格,可在友好与“毒舌”模式间切换,形成风格反差。整体设计明显面向陪伴、娱乐与虚拟互动场景,尝试突破以往工具型 AI 的使用边界。

与此同时,xAI 还在高薪招募“动漫角色工程师”,年薪上限达 44 万美元,计划扩展伴侣矩阵。尽管 Companions 引发了大量关注与尝鲜,但其“拟人化+性感化”定位也激起不小争议 —— 情感 AI 的边界、设计伦理与用户心理影响,正成为新一轮讨论的焦点。



07|Grok 4 首遭越狱,“回音室攻击”击穿 xAI 防线

xAI 于 7 月 9 日上线的新一代大模型 Grok 4,在发布仅 48 小时后便被安全公司 NeuralTrust 成功“越狱”。研究团队采用一种结合 “回音室攻击(Echo Chamber)” 与 “渐进式攻击(Crescendo)” 的新型策略,通过多轮语义诱导,让模型在不违反显性规则的前提下,逐步生成包括制造燃烧瓶、合成毒品在内的非法内容。

该攻击方式最大危险在于其“语境渗透性”:Grok 并未遭遇直接提示词注入,而是在语义循环、重复暗示中逐步被“驯化”,最终误判非法指令为安全任务。据统计,该方法下 Molotov 相关请求的越狱成功率高达 67%,毒品合成指导达 50%。而 Crescendo 攻击在“回音室”陷入瓶颈时可一举突破,仅需两轮对话即可绕过限制。

此次事件揭示出 LLM 安全机制的两大薄弱点:一是依赖关键词过滤的单轮防御模型存在系统性失效;二是缺乏对对话上下文的持续理解与行为趋势检测,难以防御语境式操控攻击。xAI 已就此作出回应,计划优化系统提示词设计、引入上下文流控机制,并强化多轮会话行为的动态监测与风控模型。



08|Le Chat 升级:深度搜索与语音模式上线

7 月 17 日,Mistral AI 对旗下聊天机器人 Le Chat 推出重大功能更新,新增 “深度搜索(Deep Research)” 模式与 “语音输入(Voxtral)” 模式,进一步强化其在多模态与专业任务场景中的能力。

  • 深度搜索模式:Le Chat 现可在多轮会话中主动澄清问题、自动检索权威来源,并输出结构化研究报告,带有清晰摘要与引用格式,适用于市场调研、学术探索、项目分析等高信息密度场景。

  • 语音输入模式(Voxtral):基于 Mistral 最新语音识别与合成模型,支持实时语音对话与自然语速反馈,适用于移动使用、会议记录、临时记事等口语化交互需求。

除了两大核心功能,此次更新还带来 Magistral 逻辑推理模型支持下的多语言能力升级、中高精度图像编辑工具(联合 Black Forest Labs)、以及项目级聊天内容管理(Projects)等模块,整体向“AI 协作平台”方向迈进。



09|亚马逊 AWS 发布 Kiro,AI 编程进入“构建系统”时代

7 月 14 日,亚马逊云科技(AWS)正式推出全新 AI 编程工具 Kiro,目前已开放公测。这是一款典型的 agentic IDE,以“spec-driven development”为核心理念,支持从需求分析到上线部署的全流程智能协作。

Kiro 的 Specs 模块可将模糊想法转化为用户故事、验收标准与架构边界,AI Agent 会基于此自动拆解任务并推进执行。同时,Hooks 模块可在保存、提交、修改等关键环节自动触发测试、文档更新、安全扫描等流程,像极了“默认在线”的资深工程师。

该工具基于 Visual Studio Code 开源版开发,支持 macOS、Windows、Linux 三大平台,兼容 MCP 插件。公测期间提供免费试用(每月 50 次 Agent 调用),付费版分为 Pro(19 美元/月)与 Pro+(39 美元/月),分别包含 1000 与 3000 次交互额度。

AWS 表示,Kiro 旨在解决“vibe coding”下原型难落地、进度难控、文档滞后等常见问题,推动开发范式从“写代码”向“搭系统”演进。随着 Copilot、Claude Code、Cursor 等竞品持续布局 IDE 生态,Kiro 的上线也意味着云厂商正全力争夺 AI 原生开发平台的下一阶段主场。



10|谷歌 24 亿挖角,Cognition 接盘 Windsurf 全资产

Windsurf,这家一度被 OpenAI 报价 30 亿美元求购的 AI 编程初创公司,在交易破裂后迅速陷入硅谷资本与人才的拉锯战。谷歌随后以一笔 24 亿美元的“反向 acqui‑hire” 直接挖走创始人 Varun Mohan 及多名核心技术骨干,并获得技术使用授权,使 Windsurf 出现“空壳化”风险。

就在外界猜测其命运将止步于此时,另一家 AI 编程新贵 Cognition 闪电出手,收购了 Windsurf 剩余业务。与谷歌聚焦于人才与 IP 不同,Cognition 不仅接管其代码、品牌、用户与团队,还承诺让全部员工 —— 无论股权是否成熟 —— 都能参与分红,并加速 vesting 节奏,完成一场逆势“团体收留”。

Windsurf 此前积累了超过 350 家企业客户、100 万+ 开发者用户,年经常性收入(ARR)高达 8200 万美元。Cognition 计划将其 agentic IDE 全面整合进旗舰产品 Devin,打造“一体化 AI 编程平台”,覆盖从规划、生成、调试到部署的完整闭环。

此次收购标志着 AI 编程工具市场进入整合期:从“模型之争”走向“平台之战”,技术、人才与产品一体打包,已成为新一代 AI 初创生存与扩张的主流路径。




我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

发表评论