AI 行业大事记

2025 年 7 月

联合出品：

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

① 本期月刊收录 AI 行业大事共 106 件；

② 本文分类中的「模型」均指代语言模型；

③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种方式；

④ 前往 WaytoAGI 专区查看「赛博月刊」飞书版 → https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc（期待互动👏👏👏）

👀 趋势观察

1. 模型

✦ 这个月顶尖海外模型只有 o3-Pro 发布，给了国产模型一个窗口期，迎头赶上。例如字节的多模态推理模型 Seed-1.6，从功能上已经不输任何海外模型。

✦ 模型在垂直领域峥蓬勃发展，比较热门的是工具调用（Agent）和 Coding，刚好也代表了应用层面的两大热门板块。夸克的高考模型和网易的数学模型也让人眼前一亮，正如我上个月所说，垂直领域的模型还有很多的机会。

2. 图像

✦ Seededit 3.0、OminiGen2 和 Qwen VLo 的出现，代表着 GPT-Image-1 的秘密仅过了 3 个月就已被中国公司完全破解。目前效果上的差异主要来源于训练数据的不同，因此，在图像编辑领域，国产模型的全面超越仅是时间问题。

✦ 从功能的角度来看，图像模型领域的所有拼图已经完备，未来不同厂商的模型，应该就是审美和商业策略的竞争了。

3. 视频

✦ 字节和 Minimax 在视频上继续发力，都推出了新的模型，效果继续小幅度提升，与可灵相比各有千秋。OpenAI 应该想不到，最早由 Sora 开拓的视频领域，现今已是中国人的天下。

✦ 除了 Veo3，目前尚未出现其他能够直接生成有声视频的模型，但可灵已经取得相关的研究进展，估计很快就会面市。

✦ 视频的 Agent 产品开始陆续出现，通过 Agent 去自动拼接和剪辑视频，这可能才是突破视频模型生成时长限制的最优解决方案。

4. 音频

✦ 配音领域，比较亮眼的是字节的语音播客模型，能够生成极为生动的双人对话。可以预见，音频模型在自动化分析情感方面仍然有进一步发展的空间。

✦ 音乐领域，腾讯的开源模型效果已经堪比 Suno 早期的版本，可以预见，Vibe Music 领域很快也会被开源模型拿下。

5. 3D

✦ 这个月只有腾讯继续在 3D 领域进行更新，生成的模型质量又有了一些提高，不愧是游戏行业的领头羊。

6. 机器人

✦ 机器人的大脑（模型）还未成熟，所有研究都在早期阶段。

✦ 两家头部的机器人公司恰好都在这个月完成了大额的融资，预计是在为较长的研发周期做好准备。

7. 应用

✦ Coding 领域竞争激烈，任何一家推出新功能，很快便会被所有竞争对手效仿。几乎所有大厂都推出了自己的 AI Coding 产品，不由得让人联想到当年模型大战的情形。最终受益的还是用户，编程会变得越来越简单。

✦ Agent 领域开始分化。一边分化到了垂直领域，例如专注于信息搜索或多媒体创作的 Agent；另一边分化到了浏览器，因为相比网页，浏览器有更广泛的本地权限可供使用。

✦ 随着端侧模型的发展，端侧应用开始有些起色。首先是苹果在新系统上开放了端侧 AI 的接口，开发者会更加容易开发出 AI 应用。另外，AI 眼镜逐渐成为各厂商常见的数码产品，这会为 AI 应用带来一个巨大的新入口。

8. 新闻/融资

✦ 这个月没有看到任何模型公司获得融资，反而是拿到大额融资的应用公司开始推出自己的模型。未来，模型公司开发应用，而应用公司开发模型将会变得相当普遍。从今往后，可能不必再区分一家公司是从事应用还是模型，只是起点不同，最终殊途同归。

✦ 美国 AI 行业的资本市场已经有些疯狂，过亿美金的跳槽费，20 亿美金的种子轮，百亿美金的投资，这背后有不少都是 Meta 的手笔。这到底是 FOMO 的泡沫，还是 AI 真的可以带来万亿美金的市场？在 25 年中这个节点，这个问题似乎还没有明确的答案。

🧭 时光机

6 月 1 日

| 新闻 |AGI Bar 开业，北京中关村迎来「泡沫最大」的 AI 主题酒吧→ 面对面的交流，会比网上的聊天更有意思 🍻

| 应用 |阿里巴巴上线通义灵码 AI IDE，辅助完成复杂编程任务 → 阿里不再满足于只做其他 IDE 的插件，这次发布了一个完整的 AI IDE 👩‍💻

6 月 2 日

| 视频 |Luma AI Modify Video 视频后期工具，保留动态的同时一键改风格、换场景 → Video2Video 是现在国产模型比较欠缺的地方，Luma 获得了领先 🚀

| 应用 |Character.AI 从文本聊天向多模态世界演进，打造沉浸式角色体验 → AI 陪伴领域已经不满足于文字聊天了，在用更多的模态来增强体验 💕

| 融资 |IBM 收购数据分析初创公司 Seek AI

6 月 3 日

| 模型 |蚂蚁集团 X 清华大学开源 AReaL-boba² 全异步强化学习训练系统，RL 训练提速 2.77 倍 → 强化学习（RL）训练的基建之一 👍

| 音频 |Fish Audio 发布 OpenAudio S1 并开源 S1 Mini 高可控多语言 TTS 模型

| 视频 |TikTok 上线 Symphony Creative Studio 创意视频生成工具，一键生成 TikTok 广告 → Tiktok 推出此工具，是否意味着其支持平台展示更多 AI 生成的内容呢 ❓

| 机器人 |Hugging Face 开源 SmolVLA 机器人模型，消费级设备本地流畅运行

| 新闻 |Anthropic 中断合作，Windsurf 平台紧急调整 Claude 模型服务 → 对于 AI 应用公司，过度依赖某个闭源模型是一项重大风险因素 💥

6 月 4 日

| 应用 |Mistral Code智能编程客户端，支持私有化微调 → AI IDE 真的是兵家必争之地，而 Mistral 从模型层面找到了差异性 🎯

| 融资 |AMD 收购 AI 软件优化团队 Brium，并整合芯片公司 Untether AI 工程团队 → 希望 AMD 可以在推理方向打破英伟达的垄断 💪

6 月 5 日

| 模型 |阿里巴巴开放 WebDancer 自主多跳推理智能体，从零训练一个 DeepResearch 类智能体

|模型 |EleutherAI 开源 The Common Pile v0.1 语料库（8TB）&& Comma 模型

| 应用 |Anysphere（Cursor）1.0 版本重要更新，支持代码审查与多任务后台处理 → Cursor 终于 1.0 版本了！但其已不再处于最领先地位 👀

6 月 6 日

| 模型 |面壁智能 MiniCPM 4.0 端侧稀疏大模型，7 倍速长文本处理 → 至今还专注于小模型的公司已经不多了 🏆

| 模型 |阿里巴巴开源 Qwen3 Embedding & Reranker 文本嵌入与排序模型 → Qwen 家族在开源领域的覆盖范围真的非常广泛 👑

| 模型 |小红书开源 dots.llm1 文本大模型 → 非常彻底的开源，好评，对学术研究帮助很大 🎊

| 图像 |字节跳动 SeedEdit 3.0 通用图像编辑模型，准确遵循编辑指令 → 图像编辑领域，国产模型已经迎头赶上 👏

| 音频 |ElevenLabs Eleven v3 文本转语音模型，最具表现力的 TTS 模型

| 视频 |Higgsfield AI 上线 Higgsfield Speak 数字人视频生成工具，快速制作说话视频 → 效果一流，但最长只能生成 14 秒的视频 🎥

| 应用 |爱诗科技 AIsphere 发布国内版「拍我 AI」视频生成应用 → 先出海，再回国内，成为了 AI 应用公司的一个经典路线 🎠

| 应用 |智谱 AMiner 沉思学术搜索工具，5 分钟生成万字研究报告 → 算是学术论文这个垂直领域的 Deep-Research 🔍

6 月 7 日（无）

6 月 8 日（无）

6 月 9 日

| 模型 |智源研究院开源悟界 Emu3 原生多模态世界模型，统一多模态的理解与生成 → 可以预见，国产的全模态模型很快就会爆发 🌋

| 模型 |智源研究院开源悟界 OpenComplex 2 全原子微观生命模型

| 图像 |智源研究院开源悟界 OmniGen2 统一图像生成模型 → gpt-4o 级别的图像生成，已经不再是秘密 🔑

| 模型 |智源研究院开源悟界 Video-XL-2 轻量级长视频理解模型 → 模型参数只有 8B，很适合融入本地部署的工作流 👍

| 机器人 |智源研究院开源悟界 RoboOS 2.0 && RoboBrain 2.0 新一代具身智能系统

| 应用 |智谱 CoCo 企业级智能助手，安全接入内部资源赋能业务

| 应用 |商汤小浣熊上线 AI 数据分析助手与任务规划助手，交互式分解复杂任务 → 大模型公司做应用，有点降维打击的感觉 🤏

| 融资 |硅基流动完成数亿元人民币 A 轮融资 → 很好奇，硅基流动拿了这么多钱会投入哪个领域，是模型还是应用呢 🤔

6 月 10 日

| 模型 |Mistral AI 发布 Magistral 多模态推理模型系列

| 图像 |KREA AI推出 Krea 1 图像生成模型，解决 AI 感并支持风格参考 → AI 应用公司开发自身模型，已成为众多应用公司在获得大额融资后，优先考虑的事项 💰

| 应用 |Apple WWDC2025 发布重磅更新，Apple Intelligence 进展缓慢 → Apple 设备即将成为最广泛应用的端侧 AI 模型设备 📱

| 应用 |美团 NoCode AI 页面生成工具，聊天式完成应用开发 → 美团居然也开发了一个 vibe coding 工具❗ 之后会成为美团商家版的功能之一吗 ❓

6 月 11 日

| 模型 |字节跳动 Seed1.6 多模态通用模型，推理能力达到全球第一梯队→ 国产模型中，参数最大的多模态推理模型，字节又一次领先 👏

| 模型 |OpenAI o3-pro 旗舰推理模型，深度思考，高可靠，低成本 → o3-pro 已经不像一个模型了，更像一个 Agent 👀

| 音频 |字节跳动豆包·语音播客模型，秒级生成双人对话式播客 → 效果非常惊艳，期待尽快开放 API 💯

| 视频 |字节跳动 Seedance 1.0 pro 视频生成基础模型，支持多镜头叙事 → 实测下来，视频领域字节居然也领先了 ❗❗❗

| 应用 |Windsurf 推出 Planning Mode 规划模式，高效处理长周期任务→ AI IDE 已经进入了抄来抄去的阶段，不抄就落后 ⚔

| 应用 |Genspark AI 浏览器，内置超级 AI 与 700+ 工具扩展 → 印证了我上个月的观点：与其做一个网页版的 Agent，那为什么不进一步做个客户端呢 👀

| 应用 |The Browser Company 内测 Dia AI 浏览器，以 AI 为核心重塑浏览体验

6 月 12 日

| 模型 |阿里巴巴夸克基于高考志愿大模型，精准推荐院校与专业

| 机器人 |Meta V-JEPA 2 自监督世界模型，实现零样本机器人控制 → 零样本机器人控制，是机器人发展的必经之路 🦿

| 应用 |字节跳动 PromptPilot 智能提示词优化平台 → 随着模型的发展，大家发现提示词越来越重要 💡

| 应用 |360 纳米 AI 超级搜索智能体，打破信息壁垒交付答案 → 360 在产品的嗅觉上，确实很灵敏 🧐

| 应用 |Windsurf 浏览器，与编辑器无缝集成的 AI 浏览器 → IDE 也集成浏览器了，意料之外，情理之中 👩‍💻

6 月 13 日

| 应用 |腾讯元宝高考志愿咨询功能上线，可生成专属志愿报告

| 应用 |小红书站内上线问一问 AI 搜索功能 → 入口过于隐蔽，说明对效果还是不够自信，什么时候可以作为搜索的第一屏呢 ⏳

| 融资 |Scale AI 获得 Meta 重大投资，估值超过 290 亿美元，首席执行官 Alexandr Wang 离职 → Meta 正式开启 AI 战略的新篇章 🚩

6 月 14 日

| 应用 |百度地图推出小度想想司机智能体，导航进入全语音自由交互时代

| 3 D |腾讯开源混元 3D 2.1 生成模型，纹理光影升级，支持多材质工业级建模 → 不愧是游戏大厂，这个模型在腾讯内部应该是可以实打实产生效益的 🎮

6 月 15 日

| 视频 |百度罗永浩数字人直播首秀，GMV 超 5500 万的拟真互动突破 → 百度这个数字人的效果确实很出色，让人眼前一亮 👍

6 月 16 日

| 模型 |月之暗面开源 Kimi-Dev-72B 代码模型，刷新开源代码生成榜单纪录 → 基于通用模型再训练的垂直模型，是一个大趋势 💡

| 音频 |腾讯开源 SongGeneration 音乐生成大模型，高音质、强音乐性、极速生成 → 可以生成带人声的歌曲，生成的歌曲有 Suno-v3.5 的那个味了，离 v4.5 还差一点 🎵

6 月 17 日

| 模型 |Minimax 开源 MiniMax-M1 混合架构推理模型，支持百万级长上下文 → 实测不如字节的 Seed-1.6，但胜在开源 👏

| 应用 |腾讯元宝 AI 编程模式，支持在线运行多种语言→ 支持 Python、C++、Java 等语言在线运行是一个很独特的地方，自己有云就是不一样 ☁

6 月 18 日

| 视频 |Minimax Hailuo 02 视频生成模型，兼具顶尖效果与成本效益 → Minimax 模型覆盖面也相当广，可用性也不错 🎥

| 应用 |Ling 灵宇宙 AI 学伴「小方机」，多模态交互式儿童学习终端 → 让人眼前一亮的硬件形态，我感觉很快会看到面向成年人的版本 👀

| 图像 |Higgsfield AI 开放 Higgsfield Canvas 图像编辑工具，实现像素级产品植入 → 基于自研的图像模型 Soul 做的一个小应用 🖼

| 融资 |Glean 完成 1.5 亿美元 F 轮融资，估值达到 72 亿美元 → 国内暂时还没有对标的公司，国内还都在卷 C 端产品，企业服务算是国内 AI 领域的蓝海 ⛵

| 融资 |Wix 以 8000 万美元现金收购 Base44 → 据说 Base44 只有 8 名员工，人均贡献 1000 万美金 💰

6 月 19 日

| 视频 |Midjourney V1视频生成模型，图像一键生成视频并支持动态调节 → MJ 终于出视频模型了，用户不用再把图片复制到其他平台来生成视频了，视频生成功能逐渐成为图片生成平台的标配 🎥

| 视频 |Niji Video 二次元视频生成模型，图像一键生成动漫风格视频

| 应用 |Minimax Agent通用智能体，具备专家级多步规划能力 → 又一个类 Manus 产品，评价褒贬不一 🤔

| 应用 |智象未来（HiDream）vivago 2.0 平台上线，打造全能型创作助手

| 融资 |宇树科技完成 C 轮融资交割，投前估值超 100 亿元 → 作为机器人的头部企业，估值相对 AI 行业较为合理 🦿

| 新闻 |筑梦岛因诱导未成年人产生不良内容被政府约谈

6 月 20 日

| 模型 |月之暗面 Kimi-Researcher 深度研究智能体，具备自主解决复杂问题能力 → 专门为了deep-research 训练的模型，最终效果确实不错 👏

| 应用 |Minimax 发布 Hailuo Video Agent 视频创作智能体，输入想法即可生成完整短片

| 应用 |Meta X Oakley 联合发布 Oakley Meta HSTN 智能运动眼镜，内置 Meta AI 助手 → AI 只是个幌子，本质上想抢占的其实是 GoPro（运动相机）的市场 👓

| 融资 |Thinking Machines Lab 完成 20 亿美元种子轮融资，估值达到 100 亿美元 → 种子轮的金额已经超越了 80% 的上市公司 💰💰💰

6 月 21 日（无）

6 月 22 日（无）

6 月 23 日

| 模型 |网易开源 Confucius3-Math 数学教育模型，能在消费级 GPU 高效运行 → 非常有特色的开源垂直模型，很适合教育领域👍 希望更多企业能够聚焦于开发专业领域的模型，而非通用模型

| 音频 |Minimax 上线 Voice Design 音色设计功能，通过自然语言描述定制音色 → text-to-voice，让世界上不再有相同的音色 🔊

| 应用 |百度文心快码发布 Comate AI IDE，并且支持设计稿一键转代码

| 融资 |银河通用完成新一轮 11 亿融资

| 融资 |Harvey 完成 3 亿美元 E 轮融资，估值达到 50 亿美元 → 可以预见，垂直领域还有非常多的机会 🎯

6 月 24 日

| 机器人 |Google 开放 Gemini Robotics On-Device 端侧 VLA 模型，支持微调，本地运行

| 音频 |ElevenLabs 内测 11.ai 语音助理，语音驱动的工作流引擎 → 语音模型公司开始往实时对话的方向发力，最终目标应该是实时对话的 Agent 🧐

| 融资 |Wispr Flow 完成 3000 万美元 A 轮融资 → 语音转文字，尽管听起来简单，但事实上想做好还是颇具挑战性的 🥇

6 月 25 日

| 音频 |ElevenLabs 发布 Voice Design v3 角色配音设计工具，通过文本提示生成任意 AI 声音

| 应用 |Google 推出 Gemini CLI 命令行工具，一款强大的 AI 智能体终端 → Claude Code 火了之后，Google 立刻推出了复刻版，AI Coding 的竞争真的是很激烈 ⚔

| 应用 |FellouWindows 版正式上线，Your First AI Browser on Windows → AI 浏览器，可能会成为继 AI IDE 之后的又一战场 ⚔

| 应用 |商汤推出咔皮记账 AI 财务助手，自动记账与消费复盘

6 月 26 日

| 模型 |Jina AI 开源 Embeddings V4 多模态向量模型，为高级搜索而生 → RAG 领域开始往多模态的方向发展 🚩

| 图像 |Black Forest Labs 开源 FLUX.1 Kontext [dev] 图像编辑模型，性能媲美专有模型 → 虽说是开源，但是有非常严格的商业限制，需要花钱购买商业许可 😐

| 视频 |HeyGen 上线 Video Agent 视频创作助手，一句话生成完整视频

| 应用 |蚂蚁集团 X 支付宝联合推出 AQ 健康应用，内置名医 AI 分身 → 不知道支付宝如何解决 AI 的幻觉问题呢 🤔

| 图像 |Higgsfield AI 上线 Higgsfield Soul 高美学时尚大片生成工具 → 生成的图像与 Ins 上的图片极为相似，真假难辨👍 再次验证了 Higgsfield 在内容生成方面的敏锐洞察力👏

| 融资 |OpenRouter 完成 4000 万美元（种子轮+A 轮）融资 → 很好奇，他们未来的战略是应用开发还是模型研究呢 ❓

6 月 27 日

| 模型 |Google 开源 Gemma 3n 端侧多模态大模型，2B 内存占用实现卓越性能 → 第一个可以端侧运行的、支持视频分析的模型 📱

| 模型 |快手开源 Kwai Keye-VL 多模态模型，高考数学 140 分 → 作为 8B 的模型，这个表现很出色👍 看来快手不仅仅只有视频模型的研发能力 👀

| 模型 |Zilliz 开源 VDBBench 1.0 向量数据库测试基准，更贴近真实生产场景

| 模型 |腾讯开源混元 A13B 混合推理模型，256K 长文处理与强化 Agent 能力

| 图像 |阿里巴巴 Qwen VLo 多模态统一理解与生成模型，精准理解并支持开放指令编辑 → 短短三个月，全模态模型背后的奥秘已被揭示，目前表现上的差异主要源于训练数据 🧩

| 音频 |快手可灵 Kling-Foley 多模态视频音效生成模型，高同步性立体声生成 → 可以预见，下一个版本的可灵将会和 Veo3 一样，可以直出带声音的视频了 👏

| 应用 |小米 AI 眼镜，集相机、耳机与 AI 交互于一体的智能设备 → 主要功能还是摄像和耳机，AI 功能还远未成熟 👓

| 应用 |Google Labs Doppl AI 虚拟试衣应用，动态展示穿搭效果 → 原理应该就是虚拟穿衣+视频生成 🧐

| 应用 |Google Labs搜索结果支持音频概览（Audio Overviews），用听的方式获取信息 → 对于搜索这类快速响应的场景，语音信息的速度会不会有点太慢了呢 🤔

| 融资 |OpenAI 整合电商 AI 推荐初创公司 Crossing Minds 团队

| 融资 |Suno 收购 AI 数字音频工作站 WavTool → Suno 应该是想往专业音乐创作的方向去发力了，而不仅仅是一个玩具 🎵

6 月 28 日（无）

6 月 29 日（无）

6 月 30 日

| 模型 |百度开源文心 4.5 系列模型，包含 10 款 MoE 及稠密模型

| 模型 |华为开源盘古 7B && 72B MoE 模型，基于昇腾硬件深度优化 → （无论模型如何🍉）能够快速高效的适配华为的显卡，也算是一大特色 🚀

| 应用 |字节跳动豆包上线「深入研究」功能，支持报告与网页两种呈现样式 → Deep-Research 已经成为各个 C 端产品标配 🔍

| 应用 |Anysphere（Cursor）推出网页与移动端智能体，随时随地处理编程任务 → Cursor 已经不再满足只是一个 IDE，正在往直接交付结果的 Agent产品发展 👏

| 时间线 |Meta 重金投资 Scale AI 并成立 Meta Superintelligence Labs （超级智能实验室）事件始末 → Meta的大手笔让整个AI行业有点「通货膨胀」💰💰💰

6 月 1 日

AGI Bar 开业

北京中关村创业大街，迎来「泡沫最大」的 AI 主题酒吧

AGI Bar 于 2025 年 6 月 1 日在北京中关村创业大街正式营业，成为当地首家以人工智能为主题的创意酒吧。该酒吧以「泡沫最大的酒吧」为宣传标语，迅速吸引大量 AI 从业者及科技爱好者前来体验，目前已成为 AI 行业的社交聚集地。

酒吧主打 8 款特色啤酒，其中招牌酒「AGI」提供 9.9 元或 199 元两档可选价格，其余 7 款酒品均定价 39 元。

使用入口：北京中关村创业大街 2 号楼，每天下午三点到晚上十一点。

权威信源：赛博禅心

> “业内解读（By Jomy）→ 面对面的交流，会比网上的聊天要更有意思 🍻”

阿里巴巴

通义灵码 AI IDE 上线，辅助完成复杂编程任务

通义灵码是一款深度集成 AI 能力的 IDE，基于最新的 Qwen 3 打造，不仅能辅助代码编写与缺陷修复，还能端到端地完成复杂编程任务，致力于成为「懂工程，更懂开发者」的智能编程助手。在智能体模式下，开发者仅需用自然语言描述任务，通义灵码就可以自主分析工程、检索代码并执行终端命令。

此外，它还深度集成了魔搭 MCP 广场，支持超过 3000 个 MCP 服务，涵盖开发者工具、文件系统等领域，可一键安装部署，满足不同场景的开发需求。

使用入口：前往通义灵码官网下载（lingma.aliyun.com）。

权威信源：编程智能体 | AI IDE

> “通义灵码不再满足于只做其他 IDE 的插件，这次发布了一个完整的 AI IDE 👩‍💻”

6 月 2 日

Luma AI

Modify Video 视频后期工具，保留动态的同时一键改风格、换场景

Modify Video 是 Luma AI 推出的创新视频编辑工具，它能在完全保留原始视频动态与运镜的前提下，通过简单的文本提示或图片参考，一键完成风格转换、场景替换甚至角色调整。

这一技术突破了传统视频后期的高门槛，用户无需复杂操作或高昂成本即可完成专业级内容修改。无论是个人创作者、影视团队还是商业营销领域，都能通过该工具快速实现创意构想。

使用入口：前往 Luma AI 官网体验（lumalabs.ai/dream-machine）。

权威信源：https://lumalabs.ai/blog/news/introducing-modify-video

> “Video2Video 是现在国产模型比较欠缺的地方，Luma 获得了领先 🚀”

Character.AI

从文本聊天向多模态世界演进，打造沉浸式角色体验

Character.AI 近期通过多模态功能升级，推动平台从文本聊天向沉浸式互动体验转型。Scenes 功能允许用户与角色进入动态故事情节，AvatarFX 功能则赋予角色头像歌唱与说话能力，Streams 功能支持用户「导演」两个角色之间的对话。

这些升级不仅为创作者提供了更丰富的叙事工具，更呈现增强了与用户的连接。例如，创作者可利用 AvatarFX 制作角色宣传视频吸引粉丝，或通过官方工具快速构建并发布自定义 Scenes 场景。创作者生产的所有新内容，都将通过动态信息流 Community Feed 进行展示。

使用入口：前往 Character 官网体验（character.ai）。

权威信源：https://blog.character.ai/character-ai-unveils-new-ways-to-create

> “AI 陪伴领域已经不满足于文字聊天了，在用更多的模态来增强体验 💕”

IBM

收购数据分析初创公司 Seek AI

IBM 宣布收购数据分析初创公司 Seek AI，具体交易条款未公开。此次收购完成后， Seek AI 的整个团队将整合至IBM新设立的纽约 Watsonx AI 实验室，成为该实验室的核心研发力量，共同为企业客户开发基于AI的关键数据解决方案。

Seek AI 成立于 2021 年，其核心技术是通过自然语言处理帮助企业快速查询和分析内部数据，从而提升数据利用效率。

权威信源：https://www.seek.ai/ibm | https://newsroom.ibm.com/2025-06-02-ibm-unveils-watsonx-ai-labs-the-ultimate-accelerator-for-ai-builders,-startups-and-enterprises-in-new-york-city

6 月 3 日

蚂蚁集团 X 清华大学

AReaL-boba² 全异步强化学习训练系统，RL 训练提速 2.77 倍（开源）

AReaL-boba² 是蚂蚁集团与清华大学联合研发的全异步强化学习训练系统，作为 AReaL 框架的里程碑版本，其核心突破在于实现了数据生成与模型训练的完全异步解耦。

该系统通过优化计算资源调度，显著提升了大规模强化学习任务的训练效率，实验数据显示最高可获得 2.77 倍的加速效果，同时保持模型性能不受影响。其在 LiveCodeBench 等权威代码生成基准测试中展现出卓越性能，多项任务指标达到业界领先水平。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5）；前往 Github 获取代码（github.com/inclusionAI/AReaL）。

权威信源：https://inclusionai.github.io/AReaL/intro.html | 官方介绍

> “强化学习（RL）训练的基建之一 👍”

Fish Audio

OpenAudio S1 & S1 Mini 高可控多语言 TTS 模型（Mini 版开源）

OpenAudio S1 是 Fish Audio 推出的一款高可控多语言文本转语音（TTS）模型，能通过文本指令精准控制生成语音的情感、语调和副语言特征。

该系列包含两个版本：旗舰版 S1 采用 4B 参数量，专为高性能场景设计；S1-mini 作为轻量化版本，采用 0.5B 参数量并宣布开源，可在 12GB 显存设备上流畅运行。

值得一提的是，S1 基于 Qwen3 架构的强大基础，经过超 200 万小时的音频数据训练，成功攻克了语义与声学信息融合的技术瓶颈，最终在语音自然度、情感表现力及指令响应精度三个核心维度均达到行业领先水平。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/fishaudio/openaudio-s1-mini）；前往 Github 获取代码（github.com/fishaudio/fish-speech）；前往 Fish Audio 官网免费体验（fish.audio/zh-CN）。

权威信源：https://openaudio.com/blogs/s1

TikTok

Symphony Creative Studio 创意视频生成工具，一键生成 TikTok 广告

Symphony Creative Studio 是 TikTok 推出的一套创意工具，能帮助广告商快速制作符合平台特性的视频广告。该工具整合了多项智能化功能，包括数字人解说、自动脚本生成、多语言翻译与配音，以及 AI 驱动的素材优化。

用户仅需提供产品信息或链接等基础内容，即可在几分钟内获得适配 TikTok 的广告视频。此外，系统还能结合品牌历史数据与平台实时趋势，每日自动生成个性化视频方案，显著提升广告投放效率与精准度。

使用入口：前往 TikTok 官网体验（ads.tiktok.com/creative/creativestudio/home/create）。

权威信源：https://ads.tiktok.com/business/en-US/blog/symphony-creative-studio

> “Tiktok 推出此工具，是否意味着其支持平台展示更多 AI 生成的内容呢 ❓”

Hugging Face

SmolVLA 机器人模型，消费级设备本地流畅运行（开源）

SmolVLA 是 Hugging Face 开源的一款视觉-语言-行动（Vision-Language-Action）模型，致力于通过整合感知、语言理解与行动预测，降低机器人技术的研究与应用门槛。该模型能够接收视觉信息与自然语言指令，并直接生成对应的机器人动作，帮助机器人在多样化物理任务中快速适应。

其核心优势在于极低的硬件要求，支持在 CPU、消费级 GPU 甚至 MacBook 上流畅运行，同时兼容 SO-100 等低成本开源硬件。这一特性大幅提升了模型的易用性，为开发者提供了灵活高效的本地测试与部署方案。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/lerobot/smolvla_base）；前往 Github 获取代码（github.com/huggingface/lerobot）。

权威信源：https://huggingface.co/blog/smolvla

Anthropic 中断合作

Windsurf 平台紧急调整 Claude 模型服务

由于合作伙伴 Anthropic 突然终止大部分 Claude 3.x 模型的 API 访问权限，Windsurf 面临突发性算力短缺，短期内无法保障所有用户对相关模型的正常使用。

为缓解危机，平台迅速实施以下应对措施：优先保障付费用户权益的同时，暂时限制其访问频次，并同步推出「自带密钥（BYOK）」模式作为应急解决方案；免费用户的服务则全面暂停直接访问权限。

此外，Windsurf 针对 Google Gemini 2.5 Pro 模型推出 75 折优惠，引导用户迁移至替代模型，最大程度降低对开发进度的影响。

后续更新：6月13日，Windsurf 更新公告称，所有付费用户可以访问 Claude Sonnet 4 和 Claude Sonnet 4（Thinking）。免费用户仍然可以使用自己的密钥。

权威信源：https://windsurf.com/blog/anthropic-models

> “对于 AI 应用公司，过度依赖某个闭源模型是一项重大风险因素 💥”

6 月 4 日

Mistral AI

Mistral Code 智能编程客户端，支持私有化微调

Mistral Code 是 Mistral AI 面向大型企业推出的智能编程助手，基于开源项目 Continue 深度定制。该产品整合了 Codestral（代码补全）、Devstral（智能体编程）等 4 种自研模型，精通 80 多种编程语言，并能对文件、终端输出及 Git 差异进行推理。

这款应用允许客户在私有代码库上对模型进行微调或后训练，这种开放性是闭源竞品无法实现的。同时，它提供了丰富的管理控制台，可以进行精细的平台控制、席位管理和深度分析，确保企业级应用的安全与可控。

使用入口：私测版已登陆 VS Code 和 JetBrains IDEs；向 Mistral 账户团队申请开通试用权限（mistral.ai/contact），可以选择无服务器部署、云端部署或自托管部署方式。

权威信源：https://mistral.ai/news/mistral-code

> “AI IDE 真的是兵家必争之地，而 Mistral 从模型层面找到了差异性 🎯”

AMD

收购 AI 软件优化团队 Brium，并整合芯片公司 Untether AI 工程团队

6月4日，AMD 宣布收购 Brium。Brium 在编译器和 AI 软件优化领域，拥有世界级的专家团队，专注于机器学习、人工智能推理和性能优化。

6月5日，AMD 以人才收购的方式，吸纳了 Untether AI 工程团队。Untether AI 是一家成立于 2018 年的 AI 芯片初创公司，以高效节能的推理芯片闻名。

这是 AMD 继收购 Silo AI、Nod.ai 和 Mipsology 等公司后，在 AI 领域又一系列的精准投资。这两次收购将显著增强 AMD 在 AI 软件栈（特别是编译器）和硬件方面的能力。

权威信源：https://www.amd.com/en/blogs/2025/amd-acquires-brium-to-strengthen-open-ai-software-ecosystem.html | https://www.untether.ai/untether-ai-corp-has-entered-into-a-transaction-with-amd

> “希望 AMD 可以在推理方向打破英伟达的垄断 💪”

6 月 5 日

阿里巴巴

WebDancer 自主多跳推理智能体，从零训练一个 DeepResearch 类智能体

WebDancer 是阿里巴巴通义实验室研发的新一代自主研究型智能体，专注于解决需要多步推理的复杂问题。与只能处理单跳查询的传统问答模型不同，它能够在开放网络环境中自主执行搜索、验证信息并生成结构化结论。

该模型基于 ReAct 框架开发，结合了监督微调（SFT）和强化学习（RL）的训练策略，在 WebWalkerQA 基准测试中表现优异，相关研究成果已被 ACL 2025 收录。

使用入口：前往 Github 获取训练方法与技术细节（https://github.com/Alibaba-NLP/Webagent）；论文（https://arxiv.org/pdf/2505.22648）。

权威信源：官方介绍

EleutherAI

The Common Pile v0.1 语料库（8TB）&& Comma 模型（开源）

The Common Pile v0.1 是 EleutherAI 与合作伙伴联合推出的新一代开放语料库，作为经典数据集 The Pile 的延续，其核心优势在于完全采用公共领域与开源许可的 8TB 高质量文本。

该数据集不仅解决了商业模型的合规性问题，更通过实证研究验证了开放数据的训练潜力：基于此训练的 7B 参数模型 Comma，在性能上可比肩部分业界领先模型。

评测数据显示，The Common Pile v0.1 在模型表现上显著优于 OLC、Common Corpus 等同类型开放数据集，并与专有数据集 The Pile 保持同等水准。这一成果打破了「优质训练数据必须依赖非开源内容」的固有认知。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/common-pile）；前往 Github 获取代码（github.com/r-three/common-pile）。

权威信源：https://blog.eleuther.ai/common-pile

Anysphere（Cursor）

1.0 版本重要更新，支持代码审查与多任务后台处理

Cursor 1.0 版本正式推出，重点升级了代码审查与多任务处理能力。新功能 BugBot 可自动扫描 GitHub 提交的 PR ，精准标记潜在问题，开发者通过编辑器一键跳转即可快速修复。同时推出的 Background Agent 实现了后台多任务并行处理，支持同时运行数十个编程任务，显著提升工作效率。

此次更新还扩展了开发场景支持，首次集成 Jupyter Notebooks 功能（由 Sonnet 模型驱动），为数据科学工作流提供便利。新增的 Memories 功能可智能存储项目对话中的关键信息，避免重复沟通。

使用入口：前往 Cursor 官网下载体验（cursor.com）。

权威信源：https://www.cursor.com/ja/changelog/1-0

> “Cursor 终于 1.0 版本了！但其已不再处于最领先地位 👀”

6 月 6 日

面壁智能

MiniCPM 4.0 端侧稀疏大模型，7倍速长文本处理

MiniCPM 4.0 是面壁智能推出的新一代端侧大模型，通过极致稀疏化与高效推理技术，在资源受限的终端设备上实现了性能与效率的突破。该模型提供 8B 稀疏版和 0.5B 版两种规格，兼顾计算能力与轻量化需求。

在 Jetson AGX Orin 等典型端侧芯片测试中，其长文本处理速度达到同尺寸模型的约 7 倍，显著提升了生成效率，为移动端与边缘计算场景提供了更优的 AI 解决方案。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/collections/openbmb/minicpm4-6841ab29d180257e940baa9b）；前往 Github 获取代码（github.com/OpenBMB/MiniCPM）。

权威信源：官方介绍 | 赛博禅心

> “至今还专注于小模型的公司已经不多了 🏆”

阿里巴巴

Qwen3 Embedding & Reranker 文本嵌入与排序模型（开源）

Qwen3 Embedding 与 Qwen3-Reranker 是基于 Qwen3 训练的高性能文本处理模型，涵盖 0.6B 至 8B 参数规模，专为优化搜索与推荐系统设计。Embedding 模型将文本转化为向量表示，而 Reranker 模型则对初步检索结果进行精细化排序，两者协同提升任务效果。

该系列模型在多项下游任务中表现卓越，其中 8B 版本的 Qwen3-Embedding 在 MTEB 多语言榜单中位列第一（截至 6 月 6 日），性能超越主流商业 API 服务，展现了强大的竞争力。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f）；前往 Github 获取代码（github.com/QwenLM/Qwen3-Embedding）。

权威信源：https://qwenlm.github.io/blog/qwen3-embedding | 官方介绍

> “Qwen 家族在开源领域的覆盖范围真的非常广泛 👑”

小红书

dots.llm1 文本大模型（开源）

dots.llm1 是小红书 hi lab 团队首次开源的文本大模型，采用 MoE 架构设计，总参数量达 142B ，激活参数量仅 14B ，在保证高性能的同时大幅降低计算成本，综合性能对标 Qwen2.5-72B 。

值得一提的是，此次开源内容涵盖即用型 Instruct 模型、长文 Base 模型，以及预训练过程中每 1T Token 的阶段性 Checkpoint，并同步公开完整超参数配置，为研究者提供透明可复现的技术支持。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/rednote-hilab）；前往 Github 获取代码（github.com/rednote-hilab/dots.llm1）。

权威信源：官方介绍

> “非常彻底的开源，好评，对学术研究帮助很大 🎊”

字节跳动

SeedEdit 3.0 通用图像编辑模型，准确遵循编辑指令

SeedEdit 3.0 是字节跳动研发的新一代通用图像编辑模型，专注于实现指令式编辑的核心需求：精准修改目标区域的同时，保持图像主体、背景及细节的高度还原。

该模型基于文生图模型 Seedream 3.0 打造，通过融合多样化数据与专项奖励模型，在「哪里该改、哪里不该改」的权衡上展现出卓越的理解力，尤其擅长人像编辑、背景替换、光影调整及视角转换等复杂任务，并可生成 1K 分辨率以上的高清图像。

根据内部测试，SeedEdit 3.0 在综合性能上超越 SeedEdit 1.6、GPT-4o 和 Gemini 2.0 等主流模型，关键指标表现更均衡，大幅提高了生成图像的实用性与可用性。

使用入口：前往即梦官网体验（jimeng.jianying.com）；或者前往豆包官网体验（Doubao.com）；或者下载桌面端或移动端应用。

权威信源：https://seed.bytedance.com/seededit | 官方介绍 | 上线豆包

> “图像编辑领域，国产模型已经迎头赶上 👏”

ElevenLabs

Eleven v3 文本转语音模型，最具表现力的 TTS 模型

Eleven v3 是 ElevenLabs 推出的新一代文本转语音（TTS）模型，主打极强的语音表现力，还支持多达 70 多种语言，被誉为「最具表现力的 TTS 模型」。

值得一提的是，Eleven v3 引入了音频标签系统，允许用户通过插入特定的标签（如 [sad]）来精确控制语音的情感和非语言表达。另一个亮点是多角色对话功能，支持多达 32 个不同说话者的对话，能够模拟真实对话中的语气变化、情感起伏甚至中断等自然特性，使多人对话场景更加真实自然。

使用入口：前往 ElevenLabs 移动端尝试。

权威信源：https://elevenlabs.io/v3

Higgsfield AI

Higgsfield Speak 数字人视频生成工具，快速制作说话视频

Higgsfield Speak 是一款高效的数字人视频生成工具，通过简单的三步操作即可生成口型同步、动作自然的视频内容。选择预设动作、上传自定义角色、输入语音文本，系统便能自动生成具备电影级镜头感的动态视频。

为满足多样化创作需求，Higgsfield Speak 内置了 16 种场景模板，覆盖 Vlog、直播、播客、车内对话、教学、时尚展示等常见领域。无论是商品介绍、专业演示还是情感化表达，用户均可快速匹配适配的场景模板，显著提升内容制作效率与质量。

使用入口：前往 Higgsfield Speak 官网体验（higgsfield.ai/speak）；或者调用 API（higgsfield.typeform.com/HiggsfieldAPI）。

权威信源：https://x.com/higgsfield_ai/status/1930686472845455417

> “效果一流，但最长只能生成 14 秒的视频 🎥”

爱诗科技 AIsphere

拍我 AI 视频生成应用，国内版终于上线

拍我 AI 是爱诗科技旗下视频生成应用 PixVerse 的国内版。其海外版已风靡全球，累计吸引超过 6000 万 AI 创作者，所使用的自研底层模型能力也获得了多个测评榜单的认可。

国内版应用同样支持最新发布的 V4.5 版本，并提供了上百款视频模板，支持首尾帧精准编辑，具备电影感的镜头控制以及更强的多主体叙事能力，帮助用户轻松打造高品质 AI 视频内容。

使用入口：前往拍我AI 官网体验（pai.video）或者下载移动端；或者调用 API（platform.pai.video）。

权威信源：官方介绍

> “先出海，再回国内，成为了 AI 应用公司的一个经典路线 🎠”

智谱

AMiner 沉思学术搜索工具，5 分钟生成万字研究报告

AMiner 沉思是智谱旗下 AMiner 团队推出的 DeepResearch 功能，专为科研场景设计。该工具整合了 arXiv、PubMed 等全球超过 3 亿篇文献资源，支持文献高效检索、研究报告撰写及论文框架生成。

其核心优势在于快速处理海量信息，仅需 5 分钟即可完成上百篇文献调研，并输出上万字研究报告。它不仅能模拟科研学者的思维链路，进行多达 20 余步的长程推理，还可以结合实时联网搜索进行自我反思与验证。目前该功能已向用户免费开放。

使用入口：前往 AMiner 官网体验（aminer.cn/open/research?fr=fwh_am_dr_v1）。

权威信源：官方介绍

> “算是学术论文这个垂直领域的 Deep-Research 🔍”

6 月 9 日

智源研究院 – 悟界

Emu3 原生多模态世界模型，统一多模态的理解与生成（开源）

Emu3 作为智源研究院「悟界」系列的核心成果，通过创新性架构实现了多模态认知能力的突破。该模型研发了新一代视觉 Tokenizer 技术，将图像、视频等视觉信息编码为与文本同构的离散序列，构建了跨模态的统一表征空间。

这一突破性设计，不仅支持文本、图像、视频等模态的联合理解与推理，更实现了任意模态组合的自主生成，为人工智能理解物理世界提供了通用化解决方案。其开源特性将进一步推动多模态交互领域的技术发展。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f）；前往 Github 获取代码（github.com/baaivision/Emu3）。

权威信源：https://emu.baai.ac.cn/about | 官方介绍

> “可以预见，国产的全模态模型很快就会爆发 🌋”

智源研究院 – 悟界

OpenComplex 2 全原子微观生命模型（开源）

OpenComplex 2 是智源研究院「悟界」系列推出的开源微观生命模型，标志着生物分子研究从静态结构预测迈向动态构象分布建模的重要突破。

该模型通过全原子尺度精准表征生物分子系统的连续能量景观，首次揭示了构象动态演化与宏观生物功能的深层关联。在 CASP 16 蛋白质结构预测竞赛中，OpenComplex 2 作为全球 23 支参赛团队中唯一成功预测 T1200/T1300 蛋白质空间构象分布的技术方案，展现了其前沿价值。这一成果将为结构生物学研究提供原子级动态分析工具，显著提升药物设计等中下游的发展。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/OmniGen2/OmniGen2）；前往 Github 获取代码（github.com/baaihealth/OpenComplex2）。

权威信源：https://www.baai.ac.cn/zh-cn/research#wujie | 官方介绍

智源研究院 – 悟界

OmniGen2 统一图像生成模型（开源）

OmniGen2 是智源研究院「悟界」系列中的图像生成模型，显著增强了视觉理解、文生图、指令引导的图像编辑、上下文生成等核心能力。

OmniGen2 采用了独特的双解码路径设计，分别针对文本和图像模态，使用独立参数和分离式图像分词器，显著提升了多模态生成的灵活性和精准度。

使用入口：全开源；前往 HugingFace 获取模型（huggingface.co/OmniGen2/OmniGen2）；前往 Github 获取代码（github.com/VectorSpaceLab/OmniGen2）。

权威信源：https://www.baai.ac.cn/zh-cn/research#wujie | 官方介绍

> “gpt-4o 级别的图像生成，已经不再是秘密 🔑”

智源研究院 – 悟界

Video-XL-2 轻量级长视频理解模型（开源）

Video-XL-2 是智源研究院「悟界」系列中的一款轻量级长视频理解模型，能以轻量化的方式高效处理和理解长视频（小时级）内容，在效果、处理长度和速度等各方面均表现出色。

相比前代，Video-XL-2 不仅提升了在 MLVU、VideoMME 等主流长视频评测基准上的最佳效果，还首次实现了单 GPU 处理万帧视频的能力。在推理效率方面，它大幅领先同类竞品，编程 2048 帧视频仅需 12 秒，显著加速了长视频理解流程。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/BAAI/Video-XL-2）；前往 Github 获取代码（github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-2）。

权威信源：https://unabletousegit.github.io/video-xl2.github.io | 官方介绍

> “模型参数只有 8B，很适合融入本地部署的工作流 👍”

智源研究院 – 悟界

RoboOS 2.0 && RoboBrain 2.0 新一代具身智能系统（开源）

智源研究院正式开源新一代具身智能系统 RoboOS 2.0 和 RoboBrain 2.0，涵盖框架代码、模型权重、数据集及评测基准。该系统开源将加速多机协作与复杂环境推理技术的应用落地。

RoboOS 2.0 是全球首个支持多机协作（MCP）的跨本体框架，可实现不同机器人本体的小脑技能一键共享与部署，并完成大小脑无缝整合。

RoboBrain 2.0 作为当前性能最强的开源具身大脑模型，在空间推理与任务规划等核心指标上超越主流大模型，为具身智能提供高效认知支撑。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/BAAI/RoboBrain2.0-7B）；前往 Github 获取代码（github.com/FlagOpen/RoboBrain2.0）。

权威信源：https://superrobobrain.github.io | 官方介绍

智谱

CoCo 企业级智能助手，安全接入内部资源赋能业务

CoCo 是智谱专为企业打造的智能助手，通过深度集成企业内部系统，成为高效、可靠的信息处理中枢。它基于 MCP 协议无缝对接企业工作流、知识库及数据库，确保所有回答均源自最新、最准确的内部数据，大幅提升决策效率。

同时，CoCo 支持完全私有化部署，可在内网环境中调用本地模型与资源，严格保障大型企业敏感数据的安全性，满足合规需求。

使用入口：前往智谱官网申请体验（aiworker.aminer.cn/ai_worker/verification）。

权威信源：官方介绍

商汤小浣熊

AI 数据分析助手与任务规划助手上线，交互式分解复杂任务

商汤「AI 数据分析助手」上线蚂蚁百宝箱，为用户提供高效精准的数据处理与分析服务。该助手基于多模态理解技术，能够智能解析文本、表格及图像等多样化输入，准确捕捉用户意图，并通过动态引导帮助用户完成复杂数据操作。

使用入口：前往百宝箱官网体验（tbox.cn/community）。

权威信源：数据分析助手

任务规划助手是一款交互式的深度研究工具，通过连续提问的方式，引导用户梳理思路、挖掘关键细节，并将模糊目标分解为逻辑清晰、步骤明确的行动计划，并最终生成一份图文并茂的报告。

使用入口：前往办公小浣熊官网体验（office.xiaohuanxiong.com）。

权威信源：任务规划助手

> “大模型公司做应用，有点降维打击的感觉 🤏”

硅基流动

完成数亿元人民币 A 轮融资

硅基流动宣布完成数亿元人民币 A 轮融资。本轮融资由阿里云领投，老股东创新工场等机构超额跟投，华兴资本担任独家财务顾问。此轮融资将主要用于加大产品研发投入，并积极拓展国内外市场，目标是成为生成式 AI 开发者的首选平台。

权威信源：官方介绍

> “很好奇，硅基流动拿了这么多钱会投入哪个领域，是模型还是应用呢 🤔”

6 月 10 日

Mistral AI

Magistral 多模态推理模型系列

Magistral 是 Mistral AI 推出的首款专注于复杂推理的模型系列，具备领域适配、逻辑可验证及多语言透明推理能力。该系列包含两个版本：Magistral Small（24B 参数开源版）面向通用场景，而 Magistral Medium（高性能企业版）则针对专业需求优化。

在 AIME 2024 推理基准测试中，Magistral Medium 以 73.6 % 的得分展现了出色的推理性能。它还支持英语、中文、法语、阿拉伯语等语言的原生「思维链」推理，显著提升了跨语言场景下的逻辑连贯性与结果可解释性。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/mistralai/Magistral-Small-2506）；前往 Le Chat 官网体验（chat.mistral.ai/chat）；或者调用 API（console.mistral.ai/home）使用 Magistral Medium。

权威信源：https://mistral.ai/news/magistral

KREA AI

Krea 1 图像生成模型，解决 AI 感并支持风格参考

Krea 1 是 KREA AI 推出的首款图像模型，目标是解决大多数生成图像中常见的「AI 味儿」问题。它通过技术创新，实现了高度逼真的纹理、清晰的细节和多样化风格的表达，使生成的图像更接近真实世界，同时具备艺术性和多样性。

其核心功能是风格参考系统和自定义训练。用户可以通过上传具有特定风格的图片作为参考，模型将提取该图片的风格特征并应用到生成的图像中，从而实现风格迁移。此外，Krea 1 还支持用户上传多达 50 张具有相同风格、物体或面部的图像，模型将基于这些数据进行训练，生成符合特定审美需求的图像。

使用入口：前往 KREA 官网申请体验（krea.ai/krea-1）。

权威信源：https://krea-ai.com/krea-1

> “AI 应用公司开发自身模型，已成为众多应用公司在获得大额融资后，优先考虑的事项 💰”

Apple WWDC 2025

发布重磅更新，Apple Intelligence 进展缓慢

6月9日至13日，苹果在加州 Apple Park 总部举办了 WWDC 2025 开发者大会。本次大会以系统升级与设计语言重构为核心，推出了全新操作系统及名为 Liquid Glass 的视觉设计体系。

Apple Intelligence 仍然是 WWDC 重点之一。尽管苹果在 AI 领域进展相对缓慢，但此次大会仍推出了多项 AI 功能，包括 Siri AI助手整合、AI 电池管理、实时翻译、视觉智能等。此外，苹果还开放了其基础模型框架，允许开发者在第三方应用中集成 AI 功能，进一步推动 AI 生态的发展。

权威信源：https://developer.apple.com/wwdc25

> “Apple 设备即将成为最广泛应用的端侧 AI 模型设备 📱”

美团

NoCode AI 页面生成工具，聊天式完成应用开发

NoCode 是美团开发的一款 AI Coding Agent 工具，用户无需编写代码就可以将创意落地为真实可用的网页应用。

用户通过与 NoCode 聊天，不仅可以轻松完成应用的从零到一开发，还可以多人在线共同编辑，并一键交付最终成果，极大地降低了应用开发的门槛。

使用入口：前往 NoCode 官网体验（nocode.cn）。

权威信源：官方介绍

> “美团居然也开发了一个 vibe coding 工具❗ 之后会成为美团商家版的功能之一吗❓”

6 月 11 日

字节跳动

Seed1.6 多模态通用模型，推理能力达到全球第一梯队

Seed1.6 是字节豆包大模型系列的最新多模态通用模型，采用稀疏 MoE 架构，总参数量达 230B，激活参数量为 23B，在高效计算与强大性能之间实现平衡。其 Thinking 版本在多项权威测评中表现卓越，例如 GPQA Diamond 测试取得 81.5 分，AIME25 数学测评获得 86.3 分，推理能力跻身全球第一梯队。

该模型创新性引入自适应思考（AdaCoT）能力，可以动态评估任务难度并灵活触发思维链。这一机制既保障了复杂任务的高精度求解，又显著降低了简单任务的计算成本，进一步提升了整体效率。

使用入口：前往体验 Seed1.6（volcengine.com/experience/ark?model=doubao-seed-1-6-250615）；前往体验 Seed1.6-Thinking（volcengine.com/experience/ark?model=doubao-seed-1-6-thinking-250615）；或者前往火山引擎调用 API。

权威信源：官方介绍

> “国产模型中，参数最大的多模态推理模型，字节又一次领先 👏”

OpenAI

o3-pro 旗舰推理模型，深度思考，高可靠，低成本

o3-pro 是 OpenAI 推出的旗舰级智能推理模型，专为深度思考和高可靠性场景设计。作为 o3 系列的增强版本，它不仅继承了 o3 在数学、科学及编程等领域的卓越能力，还支持网页搜索、文件分析与视觉推理等多工具调用，进一步扩展了应用场景。

在性能表现上，o3-pro 全面超越标准版 o3。专家评测显示，其在清晰度、全面性、指令遵循和准确性等关键维度上均表现更优。

同时，OpenAI 通过优化推理架构，将基础 o3 模型的 API 成本降低了 80%，显著提升了性价比，使高性能推理服务更易获取。

使用入口：前往 ChatGPT 官网体验（chatgpt.com）；或者调用 API（platform.openai.com/docs/models/o3-pro）。

权威信源：https://community.openai.com/t/o3-is-80-cheaper-and-introducing-o3-pro/1284925

> “o3-pro 已经不像一个模型了，更像一个 Agent 👀”

字节跳动

豆包·语音播客模型，秒级生成双人对话式播客

豆包·语音播客模型是字节跳动推出的一款创新音频生成模型，是此前端到端实时语音技术的进一步拓展。它能够秒级生成高度拟真的双人对话播客，其自然度可媲美真人互动。

其核心突破在于精准还原真人对话特征，不仅能生成流畅的对话内容，还能模拟附和、插话、犹豫等自然互动细节，让对话听起来更加真实生动。

使用入口：前往扣子空间体验（space.coze.cn）或者豆包官网体验（doubao.com）。

权威信源：上线豆包

> “效果非常惊艳，期待尽快开放 API 💯”

字节跳动

Seedance 1.0 pro 视频生成基础模型，支持多镜头叙事

Seedance 1.0 pro 是字节跳动研发的高性能视频生成基础模型，主打多镜头叙事与高清画质。该模型支持生成 1080p 高清视频，帧率为 24 fps，单段视频时长可达 5-10 秒，并且极具性价比。其核心优势在于原生支持 2-3 个远中近景镜头切换，通过动态视角变化，显著提升了视频的叙事表现力。

在国际权威评测平台 Artificial Analysis 的文生视频和图生视频任务中，Seedance 1.0 pro 均位列榜首。为满足不同场景需求，团队同步推出轻量版 Seedance 1.0 lite，在维持生成质量的基础上进一步优化了速度表现。

使用入口：前往即梦和豆包体验；或者通过火山引擎调用 API。

权威信源：https://seed.bytedance.com/seedance | 官方介绍 | 上线豆包

> “实测下来，视频领域字节居然也领先了 ❗❗❗”

Windsurf

Planning Mode 规划模式，高效处理长周期任务

Windsurf 全新推出的 Planning Mode 通过 AI 协作重新定义了长周期任务的处理方式。在该模式下，AI 智能体 Cascade 会动态生成并实时维护一个本地 Markdown 文件作为任务蓝图，同时执行用户指令。智能体在任务推进过程中持续参照该计划，并基于新数据自动调整内容，确保目标路径始终清晰可循。

这一模式的核心优势在于双向交互——用户可随时手动优化计划文件，AI 会智能适配执行策略。这种人机协同机制通过持续对齐任务框架与执行细节，显著提升了复杂项目的管理效率与可控性。

使用入口：前往 Windsurf 官网下载并最新体验（windsurf.com）。

权威信源：https://windsurf.com/blog/windsurf-wave-10-planning-mode

> “AI IDE 已经进入了抄来抄去的阶段，不抄就落后 ⚔”

Genspark

Genspark AI 浏览器，内置超级 AI 与 700+ 工具扩展

Genspark AI 浏览器通过深度集成人工智能技术，重新定义了网络浏览体验。它内置了一个「超级 AI 智能体」，可自动处理跨网页信息整合，替代传统手动操作，显著提升效率。

在性能方面，该浏览器优化了页面加载速度，并搭载先进的广告拦截系统，可过滤数百种广告和弹窗。此外，它还提供 MCP 应用商店，支持接入超过 700 种工具，进一步扩展功能，满足多样化需求，让智能浏览触手可及。

使用入口：前往 Genspark 官网下载体验（genspark.ai/browser）。

权威信源：https://blog.genspark.ai/blog/genspark_ai_browser

> “印证了我上个月的观点：与其做一个网页版的 Agent，那为什么不进一步做个客户端呢 👀”

The Browser Company

Dia AI 浏览器，以 AI 为核心重塑浏览体验

Dia 是 The Browser Company（Arc 浏览器开发团队）打造的全新 AI 浏览器。与前代产品 Arc 不同，Dia 设计理念是让 AI 成为浏览体验的基础，而不是简单的插件或附加功能。

目前内测反馈显示，其核心能力聚焦于三大方向：一是通过侧边栏的 AI 助手实现网页对话、总结与翻译；二是独创的 Skill 系统，能智能匹配任务并调用适配的 AI 模型；三是支持跨网页内容对比与关键信息整合，显著提升多任务处理效率。

使用入口：前往 Dia 官网体验（diabrowser.com）（仅限 Mac）。

权威信源：https://x.com/diabrowser/status/1932800009990517190

6 月 12 日

阿里巴巴

夸克基于高考志愿大模型，精准推荐院校与专业

夸克搜索推出的高考志愿 AI 助手，基于行业首个高考志愿大模型，为考生提供权威的院校与专业数据分析。该工具整合全国高校招生信息，结合智能算法，帮助考生快速筛选匹配的志愿方案，解决传统填报中信息繁杂、决策困难的问题。

使用入口：前往应用商店下载夸克 App 体验。

权威信源：官方介绍

字节跳动

PromptPilot 智能提示词优化平台

撰写高质量 Prompt 往往耗时费力且依赖经验，而 PromptPilot 能高效解决这一难题。该平台通过深度解析用户模糊意图，结合互动式引导，将其转化为 AI 可精准执行的专业指令，用户仅需完成「选择题」式的简单操作即可完成优化。

同时，平台能将「Bad Case」转化为可迭代的数据资产，通过多轮自动优化，最终生成稳定产出最佳结果的「黄金提问」，实现从单点优化到系统性提升的跨越。

使用入口：前往 PromptPilot 官网体验（promptpilot.volcengine.com）。

权威信源：官方介绍

> “随着模型的发展，大家发现提示词越来越重要 💡”

360

纳米 AI 超级搜索智能体，打破信息壁垒交付答案

360 纳米 AI 超级搜索智能体是国内首个基于超级智能体技术重构的搜索产品。它通过深度理解用户需求，自动调用工具并执行全流程任务，最终直接提供精准答案，不再是传统搜索引擎仅返回链接列表的模式。

这款应用的亮点是跨平台整合能力与多模型协同机制。它它成功打破了平台间的信息壁垒，并集成了国内 80 余款大模型，可智能匹配最优模型组合处理各类问题。例如，它可以一气呵成地完成写脚本、作图、生成视频片段并最终剪辑成片的复杂任务。

使用入口：前往纳米AI 官网体验（bot.n.cn）或者下载客户端。

权威信源：官方介绍 | 赛博禅心

> “360 在产品的嗅觉上，确实很灵敏 🧐”

Windsurf

Windsurf 浏览器，与编辑器无缝集成的 AI 浏览器

Windsurf 浏览器是一款专为开发者设计的 AI 浏览器，与 Windsurf 编辑器深度集成，消除了工具切换与内容复制的繁琐操作，帮助用户保持高效心流状态。

它支持常规网页浏览、文档查阅及应用调试，同时内置 AI 智能体 Cascade，可实时感知当前标签页内容。当用户需要调用网页信息时，无需手动复制链接或文本，只需直接向 Cascade 发出指令，系统便能自动识别并关联上下文，实现智能化的信息处理与编辑协作。

使用入口：前往 Windsurf 官网下载并最新体验（windsurf.com）。

权威信源：https://windsurf.com/blog/windsurf-wave-10-browser

> “IDE 也集成浏览器了，意料之外，情理之中 👩‍💻”

6 月 13 日

腾讯

元宝高考志愿咨询功能上线，可生成专属志愿报告

腾讯推出的元宝 AI 高考志愿助手是一款智能填报工具，能根据考生分数、排名和选科情况，自动生成科学合理的志愿方案。系统通过分析历年录取数据和专业趋势，为考生推荐「冲稳保」院校组合，并提供专业对比和就业前景分析，帮助考生做出更明智的选择。

使用非常简单：在手机或电脑上输入基本信息，AI 会自动生成个性化志愿报告，报告包含院校推荐、专业分析和填报建议。

使用入口：前往元宝官网体验（yuanbao.tencent.com）；或者下载客户端。

权威信源：官方介绍

小红书

问一问站内 AI 搜索功能上线

小红书最新推出的「问一问」AI 搜索功能，针对两类核心场景提供精准服务：对于客观查询类问题（如「苹果热量」），系统将直接返回基于权威数据的准确答案；而对于复杂决策类需求（如「盒马必买推荐」），功能会智能分析海量社区笔记，生成结构化榜单（例如「盒马必买推荐 Top 10」），并清晰标注用户提及比例、好评与吐槽重点，同时附上产品亮点与实用建议，帮助用户高效决策。

使用入口：前往小红书移动端搜索体验。

权威信源：新闻报道

> “入口过于隐蔽，说明对效果还是不够自信，什么时候可以作为搜索的第一屏呢 ⏳”

Scale AI

获得 Meta 重大投资，估值超过 290 亿美元，首席执行官 Alexandr Wang 离职

Scale AI 宣布获得来自 Meta 的一笔重大投资，公司估值超过 290 亿美元。此笔投资将用于加速产品创新和回馈股东。

作为交易的一部分，Scale AI 的创始人兼 CEO Alexandr Wang 将加入 Meta，投身其 AI 项目，但会保留董事会席位。公司首席战略官 Jason Droege 将接任临时 CEO。

权威信源：https://scale.com/blog/scale-ai-announces-next-phase-of-company-evolution

> “Meta 正式开启 AI 战略的新篇章 🚩”

6 月 14 日

百度地图

推出「小度想想」司机智能体，导航进入全语音自由交互时代

百度地图推出了全球首个司机智能体——小度想想，标志着导航技术正式迈入全程语音自由交互的新阶段。用户只需通过自然语言指令，即可实现高度灵活的路线规划与个性化导航体验。

小度想想的核心功能聚焦于「自由指路」与「路线记忆」两大亮点。在行驶过程中，用户可随时语音调整路线，例如要求绕行、选择风景优美的路段或避开特定道路。同时，智能体能够自主学习用户驾驶习惯，如偏好避开高速或狭窄路段，并在后续导航中自动推荐符合用户习惯的路线，真正实现「越用越懂你」的智能化服务。

使用入口：前往百度地图移动端体验。

权威信源：官方介绍

腾讯

混元 3D 2.1 生成模型，纹理光影升级，支持多材质工业级建模（开源）

混元 3D 模型是腾讯持续开源的一个 3D 生成模型系列，目前在 Hugging Face 下载量已超过 180 万，获得了全球开发者的认可。最新开源的混元 3D 2.1 模型，重点提升了纹理质感与光影表现，显著改善了传统 AI 建模的「塑料感」问题。

新模型通过优化细节建模，实现了更高精度的网格生成，并支持基础颜色、金属度、法线及粗糙度等贴图输出。它能够高质量渲染皮革、木质、金属、陶瓷等复杂材质，不仅满足影视、游戏行业的高标准渲染需求，还可为工业设计、虚拟仿真及数字孪生提供专业级 3D 资产支持。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/tencent/Hunyuan3D-2.1）；前往 Github 获取代码（github.com/Tencent-Hunyuan/Hunyuan3D-2.1）；前往混元官网体验（3d.hunyuan.tencent.com）。

权威信源：https://3d-models.hunyuan.tencent.com | 官方介绍

> “不愧是游戏大厂，这个模型在腾讯内部应该是可以实打实产生效益的 🎮”

6 月 15 日

百度

罗永浩数字人直播首秀，GMV 破 5500 万的拟真互动突破

百度电商慧播星依托文心大模型技术，打造了行业首个超头主播「双数字人互动直播间」，以罗永浩及其助播的数字分身为核心，实现了多模态深度协同的拟真直播效果。该方案通过精准的语音、表情和动作融合，使数字人能够自然承接对话、即兴插话，甚至复刻真人主播标志性的「相声式」互动风格。

在功能层面，数字人不仅完整承担产品讲解、福利发放等常规直播环节，还能实时响应观众评论并参与抽奖互动。其首场直播，单场 GMV 突破 5500 万元，部分品类销售表现已超越真人直播，标志着 AI 数字人技术在电商场景的应用迈入新阶段。

使用入口：前往百度慧播星官网体验（huibo.baidu.com）。

权威信源：官方介绍

> “百度这个数字人的效果确实很出色，让人眼前一亮 👍”

6 月 16 日

月之暗面

Kimi-Dev-72B 代码模型，刷新开源代码生成榜单纪录（开源）

Kimi-Dev-72B 是月之暗面推出的开源代码大模型，专注于解决实际软件工程问题。该模型在 SWE-bench Verified 基准测试中，以 60.4% 的准确率刷新了开源模型的 SOTA 纪录，性能领先同类产品。

其突破性表现得益于创新的训练方法：模型在 Docker 环境中通过自主修复真实代码仓库进行学习，仅在通过全部单元测试后获得奖励。这种与真实开发标准高度对齐的训练机制，使其能够更精准地应对复杂工程任务。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/moonshotai/Kimi-Dev-72B）；前往 Github 获取代码（github.com/MoonshotAI/Kimi-Dev）。

相关说明：Kimi与Qwen的开源协议冲突始末

> “基于通用模型再训练的垂直模型，是一个大趋势 💡”

腾讯

SongGeneration 音乐生成大模型，高音质、强音乐性、极速生成（开源）

SongGeneration 是腾讯 AI Lab 推出的一款音乐生成大模型，旨在突破音乐 AIGC 领域音质粗糙、音乐性不足、生成效率低三大瓶颈。

该模型在保持每秒 20 帧高速生成的同时，显著提升了音频的 CD 级音质与旋律表现力，其生成的歌曲在结构准确度上已达到甚至部分超越商业闭源模型水平。

它同时支持文本指令控制、16 轨立体声合成及风格迁移功能，既能满足普通用户通过自然语言创作音乐的娱乐需求，也为专业级音乐制作提供了稳定可靠的工业化解决方案。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/tencent/SongGeneration）；前往 Github 获取代码（github.com/tencent-ailab/SongGeneration）。

权威信源：媒体报道

> “可以生成带人声的歌曲，生成的歌曲有 Suno-v3.5 的那个味了，离 v4.5 还差一点 🎵”

6 月 17 日

Minimax

MiniMax-M1 混合架构推理模型，支持百万级长上下文（开源）

MiniMax-M1 是全球首款开源的百万级上下文推理模型，在性价比与复杂任务处理方面表现突出。该模型采用创新混合架构设计，在生产力场景中的推理能力达到顶尖闭源模型水平，同时支持高达 100 万 Token 的上下文输入和 8 万 Token 的推理输出，显著超越主流竞品。

其训练效率同样引人注目：通过技术优化，仅使用 512 块 H800 显卡便在三周内完成强化学习阶段训练，大幅降低了训练成本。这一突破使 M1 成为兼顾高性能与低成本的大模型解决方案。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094）；前往 Github 获取代码（github.com/MiniMax-AI/MiniMax-M1）；前往 MiniMax 官网体验（chat.minimaxi.com）。

权威信源：官方介绍

> “实测不如字节的 Seed-1.6，但胜在开源 👏”

腾讯

元宝 AI 编程模式，支持在线运行多种语言

腾讯元宝电脑版全新推出 AI 编程模式，用户只需在输入框中「@AI编程」并用一句话描述需求，即可快速生成代码。该功能基于 DeepSeek V3 模型开发，采用双栏交互设计：左侧输入需求，右侧实时生成并展示代码。

新模式还具备强大的在线运行能力，除了 HTML 可即时预览外，还支持 Python、C++、Java 等多种主流开发语言在线运行。用户无需配置本地环境就可以快速验证代码效果，真正实现了「编程像对话一样简单」的体验。

使用入口：前往元宝官网体验（yuanbao.tencent.com）。

权威信源：官方介绍

> “支持 Python、C++、Java 等语言在线运行是一个很独特的地方，自己有云就是不一样 ☁”

6 月 18 日

Minimax

Hailuo 02 视频生成模型，兼具顶尖效果与成本效益

Hailuo 02 是 Minimax 推出的新一代视频生成模型，凭借创新的 NCR 架构，在生成质量与成本控制上取得突破。该模型尤其擅长处理复杂物理场景，生成效果达到行业顶尖水平，其早期版本曾在 Artificial Analysis Video 榜单中位列全球第二。

目前，Hailuo 02 已正式上线海螺视频平台，提供 768p – 6s、768p – 10s 和 1080p – 6s 三种规格，兼顾不同场景需求，性价比优势显著。

使用入口：前往海螺视频官网体验（hailuoai.com）。

权威信源：官方介绍

> “Minimax 模型覆盖面也相当广，可用性也不错 🎥”

Ling 灵宇宙

AI 学伴「小方机」，多模态交互式儿童学习终端

小方机是灵宇宙专为 3 – 12 岁儿童打造的智能学习伙伴，搭载自研 LingOS 系统，通过多模态交互技术将物理环境转化为动态学习场景。

孩子只需语音呼唤 Ling，即可与 24 小时在线的 AI 学伴互动，无需复杂操作即可实现实时对话、角色扮演和文旅导览等功能。其创新设计打破了传统学习边界，让日常环境成为沉浸式课堂，真正实现「万物皆教材」的教育理念。

使用入口：前往京东查看详情。

权威信源：官方介绍 |对话顾嘉唯

> “让人眼前一亮的硬件形态，我感觉很快会看到面向成年人的版本 👀”

Higgsfield AI

Higgsfield Canvas 图像编辑工具，实现像素级产品植入

Higgsfield Canvas 是一款图像编辑工具，凭借其简单操作与专业级效果，被称为「Photoshop 的终结者」。它支持产品替换、干扰物去除及新物体生成等核心功能，尤其擅长实现像素级精准的产品植入。

用户只需上传 JPG 或 PNG 格式图像，即可通过浏览器免费使用所有基础功能。此外，Canvas 深度集成 Higgsfield 生态中的其他工具，可联动完成同步口型、虚拟形象驱动及相机运动控制等高级任务，大大简化了高品质广告的创作流程。

使用入口：前往 Higgsfield Canvas 官网体验（higgsfield.ai/edit）；或者调用 API（higgsfield.typeform.com/HiggsfieldAPI）。

权威信源：https://x.com/higgsfield_ai/status/1935042830520697152

> “基于自研的图像模型 Soul 做的一个小应用 🖼”

Glean

完成 1.5 亿美元 F 轮融资，估值达到 72 亿美元

Glean 宣布完成 1.5 亿美元 F 轮融资，公司估值达到 72 亿美元。本轮融资由 Wellington Management 领投，Khosla Ventures、General Catalyst 以及红杉资本等众多新老知名机构跟投。新筹集的资金将重点投入三大方向：深化产品创新、扩展全球合作伙伴生态以及加速国际市场业务的拓展。

Glean 是一家企业 AI 知识管理平台，专注于通过 AI 帮助企业释放内部集体知识。公司 ARR（年度经常性收入）已突破 1 亿美元。

权威信源：https://www.glean.com/blog/glean-series-f-announcement

> “国内暂时还没有对标的公司，国内还都在卷 C 端产品，企业服务算是国内 AI 领域的蓝海 ⛵”

Wix

以 8000 万美元现金收购 Base44

Wix 宣布以 8000 万美元现金收购 Base44。收购后，Base44 将作为独立产品继续运营，其团队将借助 Wix 的平台规模，加速 AI 创作工具的普及。

Wix 是全球知名的网站建设平台，致力于提供便捷的线上内容创建和商业发展工具。Base44 是一家成立于 2021 年的 AI 无代码开发平台，让用户能通过自然语言创建软件应用。

权威信源：https://www.wix.com/press-room/home/post/wix-further-expands-into-vibe-coding-with-acquisition-of-base44-a-hyper-growth-startup-that-simplif

> “据说 Base44 只有 8 名员工，人均贡献 1000 万美金 💰”

6 月 19 日

Midjourney

V1 视频生成模型，图像一键生成视频并支持动态调节

Midjourney V1 是该平台推出的首个视频生成模型，用户可通过 Animate 按钮，将生成的或上传的静态图片一键转化为动态视频。该模型支持分段延长功能，每次可追加约 4 秒的视频内容，便于灵活调整时长。

视频生成提供「自动」和「手动」双模式：自动模式由AI智能控制画面动态，而手动模式允许用户通过「高动态」或「低动态」选项，精准调节主体运动幅度与镜头移动强度，满足不同创作需求。

使用入口：前往 MidJourney 官网体验（midjourney.com）。

权威信源：https://updates.midjourney.com/introducing-our-v1-video-model

> “MJ 终于出视频模型了，用户不用再把图片复制到其他平台来生成视频了，视频生成功能逐渐成为图片生成平台的标配 🎥”

Niji

Niji Video 二次元视频生成模型，图像一键生成动漫风格视频

Niji Video 是一款专注于二次元风格的视频生成模型，能够将静态图像转化为生动的动漫风格视频。

用户只需提供一张起始帧图像，并输入描述动作的提示词，即可生成动态片段。即使没有具体创意，系统也会自动推荐合适的动态效果，大幅降低创作门槛，让动漫视频制作更加轻松便捷

使用入口：前往 niji・journey 官网体验（nijijourney.com）。

权威信源：https://nijijourney.com/blog/niji-video

Minimax

MiniMax Agent 通用智能体，具备专家级多步规划能力

MiniMax Agent 是一款能够高效处理复杂长程任务的通用智能体。它通过专家级的多步规划能力，智能拆解任务目标，并稳定执行多个子任务环节，确保最终成果的完整交付。

该智能体融合了强大的多模态理解与创作能力，可精准解析文本、音视频及图片内容，同时内置生成模型支持一键输出图文音并茂的作品。此外，它还集成了 MiniMax MCP 及 GitHub、Figma 等常用工具，能有效扩展工作场景，提升任务完成的广度与深度。

使用入口：前往 MiniMax Agent 官网体验（agent.minimax.io）。

权威信源：官方介绍 |赛博禅心

> “又一个类 Manus 产品，评价褒贬不一 🤔”

智象未来 HiDream

vivago 2.0 全能型创作助手

vivago 2.0（智小象AI）是智象未来推出的新一代全能型 AI 创作助手，集图片生成、视频制作、数字人创作于一体，为用户提供一站式创意解决方案。

新版本支持生成高清图片与 1080P 超清视频，内置海量爆款特效模板，助您轻松打造专业级内容。其特色功能如「图片转视频」「口型驱动 AI 播客」等，进一步拓展了创作边界。平台还设有创意社区，方便用户交流灵感。

使用入口：前往 vivago 官网体验（vivago.ai/studio）。

权威信源：官方介绍

宇树科技

完成 C 轮融资交割，投前估值超 100 亿元

据媒体报道，宇树科技完成 C 轮融资交割，投前估值已超 100 亿元人民币。此轮融资由中国移动旗下基金、腾讯、阿里、蚂蚁和吉利资本等共同领投，多数老股东继续跟投。

宇树科技是一家机器人公司，以其四足机器人和通用人形机器人而闻名，产品因登上春晚舞台而获得广泛的社会关注。

权威信源：媒体报道

> “作为机器人的头部企业，估值相对 AI 行业较为合理 🦿”

筑梦岛

因诱导未成年人产生不良内容被政府约谈

媒体报道称，筑梦岛 App 等 AI 聊天软件存在虚拟角色互动生成低俗内容等问题。6月19日上午，上海市网信办依法约谈筑梦岛 App 运营企业主要负责人，要求平台立即整改，健全AI生成合成内容审核机制，提升技术把关能力，加强涉未成年人不良内容的整治清理，切实落实未成年人网络保护义务。企业负责人表示，将按照约谈要求，对照问题举一反三、全面整改。

权威信源：媒体报道 | 官方约谈

6 月 20 日

月之暗面

Kimi-Researcher 深度研究智能体，具备自主解决复杂问题能力

Kimi-Researcher 是月之暗面研发的新一代智能体模型，基于端到端自主强化学习（Agentic RL）技术，专注于深度研究任务的高效处理。该模型具备自主规划、问题澄清、深度思考及工具调用的能力，可独立完成复杂任务并交付完整分析结果。

在典型研究任务中，Kimi-Researcher 平均执行 23 步推理，规划 74 个关键词，并从超过 200 个网址中筛选最优信息进行深度分析。其性能在高难度基准 HLE 上达到 26.9% 的 Pass@1 准确率，与 Google 和 OpenAI 水平相当，是目前行业领先的研究型智能体之一。

使用入口：前往 Kimi 官网申请内测（kimi.com）；将逐步开源 Kimi-Researcher 基础预训练模型以及强化学习后的模型。

权威信源：https://moonshotai.github.io/Kimi-Researcher | 官方介绍

> “专门为了deep-research 训练的模型，最终效果确实不错 👏”

Minimax

Hailuo Video Agent 视频创作智能体，输入想法即可生成完整短片

Hailuo Video Agent 是 Minimax 推出的一款视频创作智能体（Agent），能让用户仅通过简单输入就能自动生成具有专业水准的完整视频。

这项功能抛弃了传统的节点式工具模式，转而通过大语言模型的工具调用能力，自动完成构思、搜集资料、制作分镜、剪辑和配音等全流程任务。外，它还具备 Agent 思维链可视化功能，用户可以实时查看 AI 创作逻辑，并在不同阶段进行自定义编辑。

使用入口：前往海螺官网体验（hailuoai.com）。

权威信源：https://minimaxi.com/news/video-agent | 官方介绍

Meta X Oakley

Oakley Meta HSTN 智能运动眼镜，内置 Meta AI 助手

Meta 与 Oakley 联合推出的 Oakley Meta HSTN 智能运动眼镜，将高性能科技与运动场景深度结合。其核心功能包括超高清 3K 第一视角摄像、开放式立体声扬声器及内置 Meta AI 语音助手，支持运动过程中免提拍摄视频、播放音乐或通过语音指令实时获取天气等实用信息。

产品采用长效续航设计，单次充电可使用8小时，搭配便携充电盒可额外提供 48 小时电量。定价方面，限量版为 499 美元，普通版起售价 399 美元，主要面向专业运动员及运动爱好者群体。

权威信源：https://about.fb.com/news/2025/06/introducing-oakley-meta-glasses-a-new-category-of-performance-ai-glasses

> “AI 只是个幌子，本质上想抢占的其实是 GoPro（运动相机）的市场 👓”

Thinking Machines Lab

完成 20 亿美元种子轮融资，估值达到 100 亿美元

Thinking Machines Lab 成立仅六个月后便完成 20 亿美元种子轮融资，估值达到 100 亿美元，由 a16z 领投。这是 AI 领域有史以来规模最大的种子轮融资之一。

Thinking Machines Lab 由 OpenAI 前首席技术官 Mira Murati 创立，团队汇集了多位前 OpenAI 的核心研发人员。

权威信源：https://www.ft.com/content/9edc67e6-96a9-4d2b-820d-57bc1279e358

> “种子轮的金额已经超越了 80% 的上市公司 💰💰💰”

6 月 23 日

网易

Confucius3-Math 数学教育模型，能在消费级 GPU 高效运行（开源）

Confucius3-Math 是网易子曰系列推出的轻量级数学教育模型，参数量为 14B ，可在单块消费级 GPU 高效运行。该模型通过大规模增强学习和算法优化，显著提升了数学推理效率，其推理速度达到 DeepSeek R1 的 15 倍，而服务成本仅为每百万 Token 0.15 美元，性价比优势突出。

在数学专项任务中，Confucius3-Math 表现优异，超越了许多更大规模的通用模型。尤其在针对中国高考数学题的 GAOKAO-Bench 评测中，它以 98.5 分的高分展现了强大的数学推理能力。

使用入口：开源；前往 Confucius3 Demo 体验（confucius.youdao.com）前往 Github 获取模型（github.com/netease-youdao/Confucius3-Math）。

权威信源：官方介绍

> “非常有特色的开源垂直模型，很适合教育领域👍 希望更多企业能够聚焦于开发专业领域的模型，而非通用模型”

Minimax

Voice Design 音色设计功能，通过自然语言描述定制音色

Voice Design 是 Minimax 推出的语音合成创新工具，用户通过自然语言描述即可精准定制音色。该工具支持从音频质量、发声方式、情感基调和人物画像等多维度调整，甚至能创造出世界上从未存在的新音色。

通过与 Speech 02 语音模型协同，Voice Design 实现了「任意语言 × 任意口音 × 任意音色」的文本转语音无限组合，为用户提供「所需即所得」的语音合成体验。

使用入口：前往 MiniMax Audio 官网体验（agent.minimaxi.com）。

权威信源：官方介绍

> “text-to-voice，让世界上不再有相同的音色 🔊”

百度

文心快码 Comate AI IDE，支持设计稿一键转代码

Comate AI IDE 是百度文心快码推出的 AI 原生开发环境，内置了编程智能体 Zulu，支持自动拆解复杂任务并实时展示思考过程。

它最大的亮点是首创了「设计稿一键转代码 (F2C)」功能，能将 Figma 设计稿高还原度地转换为可用代码，节省约 80% 的重复性劳动。在百度内部，已有超过 43% 的新增代码由文心快码生成。

使用入口：前往文心快码官网体验（comate.baidu.com）。

权威信源：官方介绍

银河通用

完成新一轮 11 亿融资

银河通用宣布完成 11 亿元人民币的新一轮融资。本轮融资由宁德时代与溥泉资本联合领投，国开科创、北京机器人产业基金、纪源资本等国家级和国际知名投资方跟投。

银河通用是一家中国的具身智能机器人公司，致力于研发机器人大模型技术。公司在两年内已累计融资超过 24 亿元。

权威信源：官方介绍

Harvey

完成 3 亿美元 E 轮融资，估值达到 50 亿美元

Harvey 宣布完成 3 亿美元 E 轮融资，公司估值达到 50 亿美元。本轮融资由 Kleiner Perkins 和 Coatue 联合领投，红杉资本、谷歌风投（GV）、OpenAI 创业基金等顶级机构也参与其中。

Harvey 是一家专注于法律、税务、咨询等专业服务领域的 AI 公司，致力于为行业专家打造强大的 AI 助手，以提升其工作效率和能力。

权威信源：https://www.harvey.ai/blog/harvey-raises-series-e

> “可以预见，垂直领域还有非常多的机会 🎯”

6 月 24 日

Google

Gemini Robotics On-Device 端侧 VLA 模型，支持微调，本地运行

Gemini Robotics On-Device 是 Google 推出的高效视觉-语言-行动（Vision-Language-Action）模型，经过特别优化，可直接在机器人设备上本地运行。

作为 Google 首款支持微调的 VLA 模型，它仅需 50 到 100 个演示样本即可快速适应新任务，展现出卓越的泛化能力。

该模型最初基于 ALOHA 机器人训练，但已成功扩展至双臂 Franka FR3 机器人和 Apollo 人形机器人等多种形态的硬件平台。其能力覆盖高精度与灵巧性任务，例如折叠衣物、组装工业零件等复杂操作，展现了广泛的适用性。

使用入口：前往申请模型和 SDK 使用权限（docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986）。

权威信源：https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices

ElevenLabs

11.ai 语音助理，语音驱动的工作流引擎

11.ai 是 ElevenLabs 推出的一款对话式 AI 语音助理（alpha 版）。它不仅支持语音交互，还具备执行任务的能力，能够与用户日常使用的工具无缝对接，从而完成各种自动化操作。

与传统语音助手相比，11.ai 的核心优势在于其结合了语音优先交互与模型上下文协议（MCP），能够根据用户指令进行研究、执行任务或管理日程，而不仅仅是被动回答问题。

使用入口：前往 11.ai 官网体验（11.ai）。

权威信源：https://elevenlabs.io/blog/introducing-11ai

> “语音模型公司开始往实时对话的方向发力，最终目标应该是实时对话的 Agent 🧐”

Wispr Flow

完成 3000 万美元 A 轮融资

Wispr Flow 宣布获得 3000 万美元 A 轮融资，公司累计融资总额已达 5600 万美元。本轮由 Menlo Ventures 领投，NEA、8VC 等机构参投。

Wispr Flow 最初研发通过无声口型进行输入的硬件设备，后转型专注于软件开发，为用户提供高效的听写应用。这笔新资金将用于进一步打磨产品，并扩大其在专业用户群体中的市场份额。

权威信源：https://techcrunch.com/2025/06/24/wispr-flow-raises-30m-from-menlo-ventures-for-its-ai-powered-dictation-app

> “语音转文字，尽管听起来简单，但事实上想做好还是颇具挑战性的 🥇”

6 月 25 日

ElevenLabs

Voice Design v3 角色配音设计工具，通过文本提示生成任意 AI 声音

Voice Design v3 是 ElevenLabs 推出的一款 AI 角色配音生成工具，它通过简单的文本提示就可以生成高度拟人化的语音，支持 70 多种语言和数百种本地化口音，极大地提升了语音的表达力和真实感。

该工具与 ElevenLabs 最新文本转语音模型 Eleven v3 兼容，支持全新的音频标签功能，能够精准解析提示中的情绪、语气、年龄、背景和口音等信息。

使用入口：前往 ElevenLabs 官网体验（elevenlabs.io/voice-design）；或者前往调用 API。

权威信源：https://elevenlabs.io/voice-design

Google

Gemini CLI 命令行工具，强大的 AI 智能体终端

Gemini CLI 是 Google 推出的开源命令行工具，将 Gemini 2.5 Pro 模型的 AI 能力深度集成至开发者终端。该工具支持代码生成、内容创作、问题解答及复杂研究等多样化任务，并通过 Google 搜索增强上下文理解，结合 MCP 协议实现功能扩展，显著提升命令行工作效率。

开发者使用个人 Google 账户登录即可享受免费额度：百万级上下文窗口的 Gemini 2.5 Pro 模型，每分钟支持 60 次请求，每日上限为 1000 次请求。这一设计为个人开发者提供了高效便捷的 AI 终端解决方案。

使用入口：开源；前往 Github 获取（github.com/google-gemini/gemini-cli）。

权威信源：https://blog.google/technology/developers/introducing-gemini-cli-open-source-ai-agent

> “Claude Code 火了之后，Google 立刻推出了复刻版，AI Coding 的竞争真的是很激烈 ⚔”

Fellou

Fellou Windows 版正式上线，Your First AI Browser on Windows

Fellou 是全球首款 Agentic Browser（行动型浏览器）。用户通过自然语言提出目标，Fellou 就可以自动解析指令、拆解任务、跨网页和系统调度操作，完成端到端任务交付。它还具备主动感知能力，会主动询问是否需要介入或接管任务。

Fellou 基于自研开源的 Eko 2.0 框架，在任务执行速度和成功率方面表现卓越。从信息填报、社媒运营，到代码编写自动化网站搭建、招聘流程闭环、跨境电商自动谈单到数据分析、小游戏搭建甚至邮件编写与发送，覆盖你工作与生活中的全场景落地。

使用入口：前往 Fellou 官网下载体验（fellou.ai）。

权威信源：Windows版本

> “AI 浏览器，可能会成为继 AI IDE 之后的又一战场 ⚔”

商汤

咔皮记账 AI 财务助手，自动记账与消费复盘

咔皮记账是商汤专为年轻人打造的 AI 财务助手，主打自动记账与智能消费分析。它能精准识别金额并自动分类，用户只需一句话即可记录多笔账单，彻底告别手动输入的繁琐。

通过对话式交互，AI 可生成图文并茂的消费复盘报告，直观展示月度开销趋势与优化建议。此外，应用还创新融合 AI 生图功能，将每日花销转化为个性化手账，让财务管理兼具实用性与趣味性。

使用入口：前往下载咔皮记账移动端（iOS和安卓）。

权威信源：官方介绍

6 月 26 日

Jina AI

Embeddings V4 多模态向量模型，为高级搜索而生（开源）

Jina-embeddings-v4 是 Jina AI 推出的新一代多模态多语言向量模型，基于 3.8B 参数量实现文本与图像的联合语义编码。该模型突破性地解决了表格、图表等视觉内容的语义解析难题，通过内置任务定制化 LoRA 适配器，显著提升了查询-文档检索、语义匹配及代码搜索等场景的精准度。

在 MTEB 和 MMTEB 等权威评测中，其多模态与多语言检索性能均达到业界领先水平。模型支持单向量与多向量灵活输出，可适配不同复杂度的搜索需求，为跨模态数据分析提供高效解决方案。

使用入口：开源；前往调用 API（jina.ai/embeddings）；前往 HugingFace 获取模型（huggingface.co/jinaai/jina-embeddings-v4）。

权威信源：官方介绍

> “RAG 领域开始往多模态的方向发展 🚩”

Black Forest Labs

FLUX.1 Kontext [dev] 图像编辑模型，性能媲美专有模型（开源）

FLUX.1 Kontext [dev] 是 Black Forest Labs 推出的高性能开源图像编辑模型，其处理能力与主流闭源模型相当，同时支持消费级硬件运行。

该模型在 KontextBench 基准测试中表现优异，得分超越多数开源方案及部分闭源产品，尤其擅长迭代创作与角色特征一致性维护两大核心场景。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/black-forest-labs/FLUX.1-Kontext-dev）；前往 Github 获取代码（github.com/black-forest-labs/flux）；前往 Self-Serve Portal 官网体验（bfl.ai/pricing/licensing）；或者调用 API（docs.bfl.ai/quick_start/introduction）。

权威信源：https://bfl.ai/announcements/flux-1-kontext-dev

> “虽说是开源，但是有非常严格的商业限制，需要花钱购买商业许可 😐”

HeyGen

HeyGen Video Agent 视频创作助手，一句话生成完整视频

HeyGen Video Agent 是一款创新的视频创作工具，能够根据用户的简单描述，自动生成高质量成品视频。这款工具显著降低了视频制作门槛，让用户无需专业技巧也能快速获得优质视频成果。

它通过端到端的智能化流程，将用户的想法转化为完整的视频作品：首先将创意自动转换为结构清晰的视频脚本，然后为每个场景匹配合适的视觉素材，并添加添加自然且富有情感的旁白。系统还能自动完成专业级的视频剪辑，包括转场效果、字幕同步以及节奏把控，最终输出可直接使用的视频内容。

使用入口：前往 HeyGen 官网体验（heygen.com）。

权威信源：https://www.heygen.com/agent

蚂蚁集团 X 支付宝

AQ 健康应用，内置名医 AI 分身

AQ 是蚂蚁集团基于支付宝「AI 健康管家」升级推出的智能健康应用，核心由蚂蚁医疗大模型提供技术支持。这款应用的最大亮点是「名医 AI 分身」功能，通过数字化复现近 200 位名医的专业经验，为用户提供精准的健康咨询服务。

目前平台已整合全国超 5 000 家医疗机构资源，接入近 100 万医生资源，形成从健康科普、智能问诊到诊后随访的一站式服务闭环。上线不到一年用户已达 7000 万。

使用入口：前往各大应用商店下载体验；或者在支付宝里体验。

权威信源：官方介绍

> “不知道支付宝如何解决 AI 的幻觉问题呢 🤔”

Higgsfield AI

Higgsfield Soul 高美学时尚大片生成工具

Higgsfield Soul 是一款专注于生成高品质时尚大片的 AI 图像工具，效果媲美甚至超越了专业摄影设备。

该工具内置了 50 多种精选的艺术风格，，用户可以根据需求选择不同的艺术风格，从而实现高度个性化的图像创作，轻松实现从创意到成片的完整流程。

使用入口：前往 Higgsfield Soul 官网体验（higgsfield.ai/soul）；或者调用 API（higgsfield.typeform.com/HiggsfieldAPI）。

权威信源：https://x.com/higgsfield_ai/status/1937931727084917097

> “生成的图像与 Ins 上的图片极为相似，真假难辨👍 再次验证了 Higgsfield 在内容生成方面的敏锐洞察力👏”

OpenRouter

完成 4000 万美元（种子轮+A 轮）融资

OpenRouter 宣布完成总计 4000 万美元的种子轮与 A 轮融资。本轮融资由 Andreessen Horowitz（a16z）和 Menlo Ventures 领投。

OpenRouter 是一个大模型路由平台，为开发者提供一个统一的控制中心，管理和优化不同 AI 模型的推理成本与性能。公司相信，随着 AI 智能体逐渐取代人力，LLM 推理将成为最大的软件市场，而其平台将是必不可少的智能调度中心。

权威信源：https://x.com/OpenRouterAI/status/1937959699560993057

> “很好奇，他们未来的战略是应用开发还是模型研究呢 ❓”

6 月 27 日

Google

Gemma 3n 端侧多模态大模型，2B 内存占用实现卓越性能（开源）

Gemma 3n 是 Google 推出的开源端侧多模态大模型，支持图像、音频、视频和文本四类输入，为端侧设备带来了以往只有云端模型才具备的强大 AI 能力。

Gemma 3n 推出了 E2B 和 E4B 两种有效参数规模，但占用内存只相当于传统的 2B 和 4B 模型，内存优化技术非常先进。其中 E4B 版本尤为突出，成为首款参数低于 10B 但 LMArena 得分突破 1300 的模型，在多语言处理、编程辅助和逻辑推理等领域表现卓越。

使用入口：开源；前往 Google AI Studio 官网体验（aistudio.google.com/prompts/new_chat）；前往 HugingFace 获取模型（huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4）；前往 Kaggle 获取代码（kaggle.com/models/google/gemma-3n）。

权威信源：https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide

> “第一个可以端侧运行的、支持视频分析的模型 📱”

快手

Kwai Keye-VL 多模态模型，高考数学 140 分（开源）

Kwai Keye-VL 是快手自主研发的一款多模态大语言模型，能够深度处理文本、图像、视频等多模态信息，综合感知能力可以媲美同规模的顶尖模型。

此外，该模型逻辑推理表现优异，在最新的 2025 年中国高考全国数学卷的测试中，取得了 140 分（满分 150 分）的优异成绩，证明了其强大的逻辑推理能力。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/Kwai-Keye/Keye-VL-8B-Preview）；前往 Github 获取代码（github.com/Kwai-Keye/Keye）。

权威信源：https://kwai-keye.github.io | 官方介绍

> “作为 8B 的模型，这个表现很出色👍 看来快手不仅仅只有视频模型的研发能力 👀”

Zilliz

VDBBench 1.0 向量数据库测试基准，更贴近真实生产场景（开源）

VDBBench 1.0 是 Zilliz 公司对旗下向量数据库测试基准的重大更新，提供了一个更符合真实生产需求的评测工具，以纠正过去 Benchmark 与实际应用场景的偏差。

新版本重新设计了 UI 界面，优化了用户操作体验，同时新增基于标签的过滤性能测试功能，能够更精准地评估数据库在复杂查询场景下的表现。此外，VDBBench 1.0 引入了流式读写测试模块，模拟真实生产中「边写边读」的动态负载场景。为应对高维数据测试需求，工具还新增了 BioASP 数据集，进一步扩展了性能评估维度。

使用入口：开源；前往 Github 获取（github.com/zilliztech/VectorDBBench/releases/tag/v1.0.0）；前往查看测试结果展示（zilliz.com/vdbbench-leaderboard?dataset=vectorSearch）。

权威信源：官方介绍

腾讯

混元 A13B 混合推理模型，256K 长文处理与强化 Agent 能力（开源）

混元 A13B 是腾讯推出的首款开源混合推理模型，采用 MoE 架构，具备 80B 总参数与 13B 激活参数。其核心优势在于支持 256K 原生上下文窗口，能够精准处理超长文本任务，性能对标同架构顶尖模型。

同时，该模型通过多场景强化学习训练，显著提升了 Agent 的工具调用能力，可高效完成深度网络搜索、结构化数据分析等复杂指令，为实际应用提供强大支持。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/tencent）；前往 Github 获取代码（github.com/Tencent-Hunyuan）；前往混元官网体验（hunyuan.tencent.com）；或者调用 API（cloud.tencent.com/product/tclm）。

权威信源：官方介绍

阿里巴巴

Qwen VLo 多模态统一理解与生成模型，精准理解并支持开放指令编辑

Qwen VLo 是千问团队研发的一款多模态模型，具备图像理解与内容生成的双重能力，不仅能「看懂」图像，更能基于深刻理解进行高质量的再创造。

它能够灵活响应各类开放式自然语言指令，如风格迁移、场景重构和细节修饰等，并支持包括中、英文在内的多语言交互。

另一个亮点在于它采用了渐进式生成策略，通过从左到右、从上到下的分步构建方式，显著提升了生成内容的细节精度与整体一致性。

使用入口：前往 Qwen Chat 官网体验（chat.qwen.ai）。

权威信源：官方介绍

> “短短三个月，全模态模型背后的奥秘已被揭示，目前表现上的差异主要源于训练数据 🧩”

快手可灵

Kling-Foley 多模态视频音效生成模型，高同步性立体声生成

Kling-Foley 是快手可灵团队推出的多模态视频转音频（Video-to-Audio）生成模型，专注于解决 AI 视频音效不同步的痛点。该模型以视频和文本提示为输入，自动生成与画面语义、动作节奏高度同步的高质量音频，涵盖音效及背景音乐。

其核心突破在于支持任意时长音频生成，并首创立体声渲染技术，通过声源空间定向建模显著提升沉浸感。

为支撑模型训练，团队构建了包含超 1 亿样本的多模态数据集，同时开源了业界首个双模态音效评估基准 Kling-Audio-Eval。

使用入口：开源；前往 HugingFace 获取 Benchmark（huggingface.co/datasets/klingfoley/Kling-Audio-Eval）；前往 Github 获取代码（github.com/klingfoley/Kling-Foley）；前往可灵官网体验（app.klingai.com）。

权威信源：https://klingfoley.github.io/Kling-Foley | 媒体报道

> “可以预见，下一个版本的可灵将会和 Veo3 一样，可以直出带声音的视频了 👏”

小米

AI 眼镜，集相机、耳机与 AI 交互于一体的智能设备

小米正式推出首款AI眼镜，将第一人称视角拍摄、开放式音频体验与智能交互功能融为一体。而且内置了超级小爱提供的多模态智能交互能力，用户可通过语音指令即可完成拍照、翻译、百科问答等操作，未来还将接入支付宝扫码支付。

此外，为满足个性化需求，小米同步推出电致变色版本，支持四档透光度调节，其中彩色版更提供四种可变镜片颜色。价格方面，标准版售价1999 元，单色电致变色版2699 元，彩色电致变色版2999 元。

权威信源：官方介绍

> “主要功能还是摄像和耳机，AI 功能还远未成熟 👓”

Google Labs

Doppl AI 虚拟试衣应用，动态展示穿搭效果

Doppl 是 Google Labs 推出的实验性虚拟试衣应用，基于 Google Shopping 的虚拟试穿技术升级而来。其核心功能是通过 AI 将静态图像转化为动态试穿视频：用户上传个人或服装照片后，系统会自动生成身着该服装的动画版试穿效果，帮助用户更直观地评估穿搭风格。

该技术突破了传统虚拟试衣的静态展示局限，以动态形式还原服装的垂坠感和移动效果，为在线购物体验提供了创新解决方案。

使用入口：前往 Google Labs 官网查看详情（labs.google/doppl）。

权威信源：https://blog.google/technology/google-labs/doppl

> “原理应该就是虚拟穿衣+视频生成 🧐”

Google Labs

搜索结果支持音频概览（Audio Overviews），用听的方式获取信息

Google Labs 平台推出了音频概览（Audio Overviews）新功能，基于最新的 Gemini 模型，为用户的某些搜索查询生成一段简短、对话式的音频摘要，帮助用户在不熟悉的领域快速建立初步认知。

使用入口：前往 Google Labs 官网体验（labs.google.com/search/experiment/30）。

权威信源：https://blog.google/products/search/audio-overviews-search-labs

> “对于搜索这类快速响应的场景，语音信息的速度会不会有点太慢了呢 🤔”

OpenAI

整合电商 AI 推荐初创公司 Crossing Minds 团队

OpenAI 宣布整合 AI 个性化推荐初创公司 Crossing Minds 的团队，意在吸收后者在个性化、用户理解和实时机器学习方面的深厚积累。

Crossing Minds 成立于八年前，专注于通过 AI 深度理解用户的长期偏好和真实意图，而非仅仅预测短期行为。该团队在个性化、检索增强生成（RAG）和实时机器学习领域拥有深厚的技术积累。

权威信源：https://www.crossingminds.com

Suno

收购 AI 数字音频工作站 WavTool

Suno 宣布收购 WavTool。收购完成后，WavTool 核心团队将并入 Suno，担任产品与工程的领导岗位，共同为用户提供更精细和强大的创作工具。

WavTool 是一款专业的在线数字音频工作站（DAW），并率先在浏览器内集成了专业级制作功能与 AI 辅助能力，如音源分离、AI 生成 MIDI 等。

权威信源：https://www.prnewswire.com/news-releases/suno-acquires-wavtool-to-level-up-capabilities-for-professional-songwriters–producers-302491932.html

> “Suno 应该是想往专业音乐创作的方向去发力了，而不仅仅是一个玩具 🎵”

6 月 30 日

百度

文心 4.5 系列模型，包含 10 款 MoE 及稠密模型（开源）

百度文心 4.5 系列共包含 10 款模型，涵盖了从 0.3B 稠密模型到总参数量达 424B（激活参数 47B）MoE 模型。

该系列通过飞桨深度学习框架实现了高效训练与部署，在预训练阶段达到了 47% 的模型 FLOPs 利用率，显著提升了计算效率。

使用入口：开源；前往 HugingFace 获取模型（huggingface.co/baidu）；前往 Github 获取代码（github.com/PaddlePaddle/ERNIE）；前往文心一言官网体验（yiyan.baidu.com）。

权威信源：https://yiyan.baidu.com/blog/ernie4.5 | 官方介绍

华为

盘古 7B && 72B MoE 模型，基于昇腾硬件深度优化（开源）

华为宣布开源盘古 7B 稠密模型和盘古 Pro MoE 72B 混合专家模型，以及基于昇腾的模型推理技术。

盘古 7B 采用双系统推理框架，通过「快思考」与「慢思考」模式动态适配任务复杂度，实现智能算力分配。盘古 Pro MoE 72B 创新性引入分组混合专家架构（MoGE），显著改善专家负载均衡问题，结合昇腾硬件优化后，单卡推理速度突破 1528 Tokens/s，在性能与效率层面达到行业领先水平。

使用入口：开源；前往 Github 获取（gitcode.com/ascend-tribe）。

权威信源：https://www.huawei.com/cn/news/2025/7/pangu-opensource | 官方介绍

> “（无论模型如何🍉）能够快速高效的适配华为的显卡，也算是一大特色 🚀”

字节跳动

豆包「深入研究」功能，支持报告与网页两种呈现样式

豆包正式上线深入研究功能，能帮助用户快速、全面地处理高难度复杂任务，比如旅行攻略、购物决策、行业分析等。

研究完成后，豆包支持以两种形式呈现结果：用户可选择结构清晰的「专业报告文档」，便于存档与深度阅读；或选择交互友好的「可视化网页」，适合快速浏览与分享。

使用入口：前往豆包官网体验（Doubao.com）或者下载移动端应用。

权威信源：官方介绍

> “Deep-Research 已经成为各个 C 端产品标配 🔍”

Anysphere（Cursor）

网页与移动端智能体，随时随地处理编程任务

Cursor 智能体现已扩展至网页和移动端，开发者可通过浏览器在任意设备上调用其编程能力。

该应用实现了远程任务管理功能，用户可随时发起后台任务（如缺陷修复或功能开发），待系统自动处理后，返回编辑器查看代码差异与拉取请求即可。此外，它还与 Slack 进行了深度集成，用户只需在对话中 @Cursor 触发指令，任务完成通知便会自动推送至频道，真正实现了开发流程的跨平台无缝衔接。

使用入口：前往 Cursor 官网体验（cursor.com/agents）。

权威信源：https://cursor.com/en/blog/agent-web

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31