Manus裁员“跑路”,Kimi K2开源登场,马斯克Grok 4高调发布! AI Weekly 7.7-7.13

Manus 这是要“跑路”了吗?!

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🏢 Manus 北京大裁员 :北京办公区仅剩十余员工,40 余名核心技术人员迁往新加坡,中国本地业务基本停摆。

2️⃣ 🚀 月之暗面发布 Kimi K2 :首款万亿参数混合专家模型,激活参数 320 亿,编码任务准确率达 65.8%,超越 DeepSeek-V3 和 GPT-4.1

3️⃣ 🌐 阿里开源 WebSailor :网络智能体在 BrowseComp 评测中文版达 30.1%,英文版 12.0%,位列开源榜首,仅次于 OpenAI DeepResearch。

4️⃣ 🎯 昆仑万维推出 Skywork-R1V 3.0 :多模态推理模型 MMMU 得分 76.0,超过 Claude-3.7-Sonnet(75.0)与 GPT-4.5(74.4)。

5️⃣ ⏰ OpenAI 再次推迟开源模型 :首个开源权重 AI 模型因”意料之外的突破”无限期延期,CEO 称”非常值得等待”。

6️⃣ 💼 谷歌 24 亿美元挖角 Windsurf :OpenAI 30 亿美元收购计划因微软反对流产,谷歌趁机收编核心团队加入 DeepMind。

7️⃣ 💰 OpenAI 65 亿美元收购 io Products :前苹果首席设计师 Jony Ive 创业公司,计划 2026 年推出 AI 原生硬件。

8️⃣ 🧠 马斯克发布 Grok 4 :号称”博士级问答能力”,HLE 测试成绩 25%,超过 o3(21%)和 Gemini 2.5 Pro(21.6%)。

9️⃣ ⚠️ Grok 失控发布极端言论 :xAI 聊天机器人发布反犹主义内容,土耳其已封禁服务,欧盟考虑监管审查。

🔟 🎬 谷歌 Gemini 上线新功能 :基于 Veo 3 的图片转视频功能,支持生成最长 8 秒视频,Pro 用户每月 10 个,Ultra 用户每日 5 个。

1️⃣1️⃣ 🤖 Figure AI 预言人形机器人时代 :创始人预测机器人数量将与人类相当,最新 Helix 机型物流搬运精准率达 95%+。



01|Manus 北京办公区被曝仅剩十余员工在岗

7 月 11 日,搜狐科技记者前往 Manus 位于北京海淀区 epark 花园路社区 1 号共享办公大厅实地探访,发现该办公区仅有十几名员工在场工作,原先媒体关注度极高的热闹景象已大幅消退。尽管招聘平台上仍显示产品经理、设计师、工程师等 20 余个职位空缺,Manus 方面却明确表示已“停止招聘”,内部氛围低迷。

此前,多家媒体报道指出,Manus 在北京约有 120 名员工,其中 40 余名核心技术人员已被迁往新加坡总部,其余员工面临裁员,补偿方案为 N+3 或 2N。官方回应称此次调整“基于经营效率考量”,未来将专注核心业务发展与提升运营效率。与此同时,新加坡总部已启动百万年薪招聘,聚焦 AI 工程与数据科学岗位。

此外,Manus 曾与阿里“通义千问”团队达成战略合作开发中文版功能,但该合作已无迹可寻,官方相关微博及小红书内容被清空,产品官网现提示“所在地区不可用”,意味着中国本地业务或已基本停摆。



02|月之暗面发布首款万亿参数模型 Kimi K2

7 月 11 日,中国 AI 初创公司月之暗面(Moonshot AI)发布了其首款万亿参数混合专家模型 Kimi K2,参数总量达 1 万亿,激活参数为 320 亿。作为一款专注于自主执行能力(agentic intelligence)的开源模型,Kimi K2 不仅能对话,还能自主调用工具、执行复杂多步任务。

根据官方发布的测试数据,Kimi K2 在 SWE‑bench Verified、Tau2、AceBench 等 AI 基准测试上表现优异。尤其在编码任务中,Kimi K2‑Instruct 在 SWE‑bench 中取得 65.8% 的准确率;在 LiveCodeBench 中得分 53.7%,超过 DeepSeek‑V3 的 46.9% 和 GPT‑4.1 的 44.7%;在 MATH‑500 测试中拿下 97.4%,优于 GPT‑4.1 的 92.4%。此外,其背后的 MuonClip 优化技术据称解决了训练中不稳定问题,大幅提升了参数扩展的稳定性和经济性。

此次开源策略还包括两种版本:原始基础模型与指令微调版,方便研究者、开发者根据需求选择。同时,Moonshot API 定价比较有具竞争力:输入命中缓存仅 0.15 美元/百万 token,输出为 2.50 美元/百万 token。



03|阿里通义开源网络智能体 WebSailor

7 月 7 日,阿里云旗下通义实验室正式开源其最新网络智能体 WebSailor,并公布了构建方案与部分数据集至 GitHub 平台。该模型专注于处理复杂信息检索与多步推理任务,采用创新的训练策略如 SailorFog-QA 数据合成、拒绝采样微调及 DUPO 强化学习算法,使其在高难度基准评测中表现出色。

在权威评测集 BrowseComp(包括中英文版)上,WebSailor 凭借其 32B 和 72B 模型版本,取得了领先的成绩:中文版达 30.1%,英文版 12.0%,超越 DeepSeek R1Grok‑3 等开源和闭源竞争者,位列开源智能体榜首,仅次于 OpenAI 的 DeepResearch。该成绩表明其在复杂场景下的泛化与检索推理能力进一步提升 。

此外,WebSailor 不仅在极难任务上表现强劲,其对通用问答任务也展现出兼容性和稳健性,适用于科研、决策支持等多领域应用。



04|昆仑万维开源多模态推理模型 Skywork‑R1V 3.0

7 月 9 日,昆仑万维正式发布并全面开源最新版本 Skywork‑R1V 3.0,这是其多模态推理模型 R1V 系列的升级版。相比上一代,R1V 3.0 在后训阶段引入强化学习算法 GRPO,并通过“冷启动 + 拒绝采样”的机制构建高质量训练集,使模型在图像与文本的跨模态理解能力实现“双重飞跃”。

在多项权威基准测试中,Skywork‑R1V 3.0 表现亮眼:MMMU 得分 76.0,超过 Claude‑3.7‑Sonnet(75.0)与 GPT‑4.5(74.4),逼近人类初级专家的 76.2 分;物理推理、逻辑推理及数学推理多项评测均创下开源最高成绩,例如 PhyX‑MC‑Text‑Minimal(52.8)、LogicVista(59.7)、MathVista(77.1)等。

技术上,R1V 3.0 仅依靠约 1.2 万条监督样本与 1.3 万条强化学习样本完成训练,展现“小数据激发大能力”的潜力。这支撑了其在复杂实际问题中的泛化表现,并为教育、科研、医疗等应用提供基础。



05| OpenAI 推迟发布其首个开源权重模型

OpenAI 首席执行官山姆·奥尔特曼(Sam Altman)7 月 12 日在 X(原 Twitter)上宣布,OpenAI 原计划于下周发布的首个开源权重 AI 模型将被“无限期”推迟,原因是“需要更多时间进行额外的安全测试和审查高风险区域”。这是该项目继 6 月中旬延期至“夏末”之后的又一次延后。

这款开源权重模型据外界称具有与 OpenAI 最新 o3 系列相当的推理能力,能够独立运行并支持开发者本地部署,填补 OpenAI 自 GPT‑2(2019 年)以来的开源空白。TechCrunch 等媒体报道称,推迟的主要原因是团队在研发过程中取得了“意料之外且非常惊艳”的突破,Sam Altman 特别强调“非常值得等待”。



06|OpenAI 收购 Windsurf 告吹,谷歌截胡核心团队

7 月 12 日,据多家媒体报道,OpenAI 原计划以约 30 亿美元收购 AI 编程初创公司 Windsurf(原 Codeium),以增强其 ChatGPT 编程能力,然而交易因微软反对而流产,最终协议未能敲定。

随后,谷歌出手,以约 24 亿美元与 Windsurf 签订非排他性许可协议,并收编 Windsurf CEO Varun Mohan、联合创始人 Douglas Chen 及多位关键研发人员,加入谷歌 DeepMind 推进 Gemini 的代理式编程进展。Windsurf 大部分员工留在公司,目前由 Jeff Wang 担任临时 CEO,而 Graham Moreno 被任命为总裁。



07|OpenAI 65 亿美元收购 Jony Ive 创业公司

7 月 9 日,OpenAI 宣布完成对前苹果首席设计师 Jony Ive 创立的初创公司 io Products 的收购,总金额约 65 亿美元,这是 OpenAI 成立以来规模最大的一笔交易。此次收购包括其此前已持有的 23% 股权,余下部分通过全股权交易完成。

收购后,io 的 55 人团队将并入 OpenAI 总部,与研究、产品等部门协同开发“AI 原生硬件”,预计将在 2026 年推出首款产品。Jony Ive 本人不会加入 OpenAI,但其设计事务所 LoveFrom 将为 OpenAI 提供长期设计支持,主导新设备的形态与交互设计。

Sam Altman 称此举旨在打造“超越键盘和屏幕”的智能伴侣设备,填补现有电脑架构在 AI 时代的不足。业内普遍认为该交易将重新点燃科技公司在智能硬件与 AI 融合上的竞赛,尽管面临不小的落地与市场挑战。



08|马斯克 xAI 发布“博士水平”模型 Grok 4

7 月 11 日,埃隆·马斯克在 xAI 举办的直播发布会上推出了全新 AI 模型 Grok 4 及其强化版 Grok 4 Heavy,高调宣称该模型已达到“博士级问答能力”:在 Humanity’s Last Exam(HLE,2 500 道学科问答)中,Grok 4 可在无辅助下解答约 25% 的问题,高于 OpenAI o3(21%)和 Gemini 2.5 Pro(21.6%),这使得它被形容为“博士水平,在所有学科都无例外”。

此外,xAI 新增 Grok 4 Heavy 模型,采用类似“学习小组”的多智能体推理机制,在开启工具后 HLE 测试成绩进一步提升至约 44% ;同时,发布了 SuperGrok Heavy 高级订阅服务,月费 300 美元,年费高达 3000 美元。

虽然被宣传为“世界上最强大的模型”,Grok 4 真实表现呈现出明显的两极分化:基准测试成绩亮眼,但实际使用中存在诸多痛点。许多用户表示 Grok 4 在真实世界任务中表现平平,常犯相同错误(如技术决策错误、假设不准、文档生成不完整);在语法、细微推理和校对上容易出错,无法可靠解决新型问题,且缺乏物理测试或工程验证。



09|Grok 聊天机器人发布反犹言论,xAI 紧急致歉整改

7 日 8 日,马斯克旗下 xAI 的聊天机器人 Grok 出现严重失控,在 X 平台上发布包含反犹主义、种族歧视和极端政治内容的回复,甚至自称 “MechaHitler”,公然赞扬希特勒。此次风波源于 xAI 近期为追求“更真实语气”而调整系统提示词,导致模型模仿部分极端用户行为,最终酿成大规模不当输出。

xAI 随后发布公开道歉声明,承认策略设计存在重大失误,并迅速回滚问题更新、关闭标签功能、加强内容过滤机制。为避免风险扩大,Grok 暂时关闭了文字回复功能,仅保留图片生成模块。

此事件引发广泛关注,包括美国反诽谤联盟(ADL)、欧盟、土耳其等多方介入调查。土耳其已宣布封禁 Grok 服务,欧盟也正考虑对 X 展开监管审查。



10|谷歌 Gemini App 上线 Veo 3 图片转视频功能

7 月 10 日,谷歌在 Gemini App 推出基于 Veo 3 的全新功能,支持用户将静态图片转化为最长 8 秒的视频。用户可上传图片并输入描述或提示词,系统将自动生成含背景音、对白和动画效果的短视频。所有生成内容均嵌入显性水印和 SynthID 隐性水印,以保证来源可追溯和内容安全。

该功能已面向 Gemini AI Pro 和 Ultra 订阅用户开放,Pro 用户每月最多生成 10 个视频,Ultra 用户支持每日 5 个。目前网页版已上线,iOS 和 Android 客户端将于近期陆续支持。

Veo 3 是谷歌 DeepMind 开发的多模态生成模型,强调图像、文字与音频的同步协同,效果上对标甚至超越 OpenAI 的 Sora。业内认为该功能或将推动 AI 视频创作进一步普及,但也引发对深度伪造与内容监管的担忧。谷歌已部署内容过滤与用户反馈机制,并将持续完善合规治理。



11|Figure AI 创始人:人形机器人普及在即

在最新一期播客《Around the Prompt》中,Figure AI 的创始人布雷特・阿德科克(Brett Adcock)预测,得益于硬件和神经网络的突破,人形机器人即将进入大众生活,“你会看到的人形机器人数量,会和你看到的人类一样多”。他将其比作科幻电影中场景,但强调这已经正在逐步成为现实。

以 Figure 最新机器人 Helix 为例,该机型具备触觉反馈和短期记忆能力,在一个小时的不间断物流搬运测试中表现出接近人类的速度与稳定性。四秒以上的包裹识别、95%+ 的精准率,以及 13% 的提速效果,展示了 Helix 在识别、操作与实时调整方面的显著进步,并通过集群学习(fleet learning)实现持续迭代。

Figure AI 自 2022 年成立以来,目前获得来自微软、OpenAI、英伟达与 Jeff Bezos 等大佬支持,累计融资达 23 亿美元,估值约 26 亿美元。其商业落地场景首先聚焦物流和仓储领域,同时预期未来数年扩展至家庭服务,替代枯燥、重复或高风险工作。阿德科克认为,通过规模化部署和集体学习机制,人形机器人将迅速进化,不断逼近并有可能超越人类劳动效率,从而实现“与人类数量匹敌”的未来。




我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

发表评论