全球智能体榜单新SOTA！中国公司登顶，Office三件套一键生成，全程可控可溯源，打工人直接拿来用

白交发自凹非寺
量子位 | 公众号 QbitAI

左超Manus，右跨Genspark，GAIA榜单上又一家中国公司登顶！

天工超级智能体（Skywork Super Agents），出自昆仑万维，今日刚一上线即霸榜。

Agent赛道开始热闹之后，GAIA就成为大家摩拳擦掌的竞技场。

作为一个评估Agent解决实际问题能力的基准，它包括450个问题，这些问题需要不同级别的工具支持和自主能力，为此它还划分了三个Level水平。

结果能够看到，天工超级智能体（Skywork Super Agents）在前两个Level都以较大分数超过Manus和OpenAI的Deep Research，最后一个较高难度的Level 3，能力与Manus持平。

另外，它还在SimpleQA排行榜上，实现了对OpenAI和当前SOTA的超越。

除了在排行榜表现惊艳，它还有很多与其他产品不同的细节点。

摘一个最重要的（对打工人最友好的）来说。

它支持五种模态一站式生成，包括Office三件套（Word、PPT、Excel）、网站、网页、播客，一应俱全。

而且生成的结果可溯源、可编辑，还有类似NotebookLM的在线私人知识库的功能。

要知道，以前Agent那么多，但对打工人都不是特别的友好，生成的报告无法溯源、支持的文件格式又有限……

现在似乎是一个真正强大且对打工人友好的Agent来了，具体来看看。

超越Genspark和Manus，GAIA榜单第一

在说天工超级智能体（Skywork Super Agents）之前，有必要说说GAIA的含金量。

它之所以能成为众多Agent/大模型屡试不鲜的通用Benchmark，主要在于它提出了真实世界中一系列需要基本能力的问题，如推理、多模态处理、网页浏览和一般工具使用熟练程度。

而且还很细致地区分了三个层次，分别代表着不同的难易程度，级别越高，难度越大。

Level 1，往往不需要任何工具，或者有且最多只使用一种工具，但步骤不超过5步。

Level 2，涉及到的步骤在5-10步之间，需要结合不同的工具。

Level 3，这一级别的问题已经接近通用Agent了，要求采取任意长的行动序列，使用任意数量的工具，并能访问整个世界。

不过别看这么复杂，但其实这种难度只是「AI限定」，对人类来说很简单。他们的实验表明，人类答题者的得分率为92%，而装有插件的GPT-4的得分率仅为15%。

这种显著的差异与「当前大模型在诸多任务优于人类」的现象形成了鲜明的对比。

于是乎这也就成为了海内外Agent的擂台，结果没想到现在又出现一个国产Agent「天工超级智能体」（Skywork Super Agents）突出重围，实现SOTA。

另外，它还收获了SimpleQA上评分第一、Product Hunt日榜第一。

具体来看看产品。

从入口上看，目前只有网页端口，界面相比其他Agent产品丰富和清晰不少，覆盖的模式和场景都更全面一些。

在模式中有六种可以选择，其中Office三件套（文档、PPT、表格）还都是专家模式。

尤其是表格的首发，让AI生成数据表格和图标，这是其他Agent产品尚且还不具备的。

而这次通用模式，它可以生成音乐、MV、宣传片、绘本、有声书等内容。昆仑万维过去在多模态技术上的多方面探索这次沉淀下来，并且All in One。

此外它还可以细分场景，基本上我们日常生活工作高频场景都覆盖了。

这样拆分其实简化了用户的流程，不需要再去多思考如何想提示词，只需选定一个模式和场景，简单地提出一个需求就可以搞定，直接降低了使用门槛。

当然有一些详细需求且里面的场景没有涉及到，也跟其他Agent/AI助手一样，支持「通用」场景和模式。

比如生成个游戏/网页，研究报告啥的。

我是个技术小白，我想从零做一个小游戏的微信小程序，要真正能够上线分享给其他人的，请问我应该一步步怎么做，给我写一个详细完整的攻略和教程，要具有实际可操作性，步骤要清晰，阅读起来不要太费劲。

给我做个网页，一个tab是微信聊天界面，另一个tab是朋友圈，模拟历史上的各位皇帝在聊天和发朋友圈，要符合各个皇帝的性格和特点，然后互相还会在朋友圈点赞，增加一个继续看的按钮，每次点击都会触发新的聊天和朋友圈事件。

整体看下来，其他智能体有的它都有，而且产品功能设计得更贴合用户习惯，大大简化了用户使用门槛。

那就来看看它的真本事~彻底地来实测感受一下。

实测天工超级智能体：真正对打工人友好

这次天工超级智能体（Skywork Super Agents）支持了Office三件套，据说还做了专门的优化，那就来看看它的实力所在。

首先来看看PPT模式。

主题：大模型与智能体科普，目标：中小学生

在如此简单的提示词驱动下，它就开始运作了。当然除了Prompt，也可以投喂资料或你的个人知识库内容，可以是图片、在线文档、网页、PDF。

发起任务后，它会根据任务生成一个表单，你可以跳过也可以修改，这样让需求更具体。

这样也能让它更能get你的需求，避免没有搞清楚就开干。这是不是比工作伙伴靠谱聪明多了（Bushi）。

确认需求之后，它会生成一个「待办清单」，包括收集、整理、生成大纲到制作等详细步骤，这里也有一个「确认」的操作需要你来执行，有任何补充也都OK。

整个过程在一些关键节点上都会有这种把关的「表单」需要你来执行，比如确认PPT大纲，当然也可以跳过。总之就是关键步骤更可控，而不是一股脑地完成，避免一步错步步错，让它最后完成的结果也能更符合你的预期。

在使用各种MCP依次完成步骤之后，来看看生成的结果，整体看上去还是不错。

风格和排版设计也很契合中小学生这一群体，仔细一看还会发现有动画效果？！可以说是很全面了，毕竟我就不会弄这个。

里面的案例也不局限于文本这一形式，还有视频、图片等多种模态穿插，而且也都是可溯源的真实案例，是真正可以直接拿出去用的程度。

这种高可用的特点，其实还挺惊艳的。

毕竟不是所有Agent平台都能生成这么丰富的多模态内容，也不是所有平台生成的内容都真实可用，但此处天工超级智能体（Skywork Super Agents）两者都实现了，不仅有用还好用，对于用户来说还敢直接在真实场景中使用。

而要是需要微调内容，它也支持「可编辑」，文字所到之处，都可以进行调整。

最后支持PPT、PDF以及HTML导出。

值得一提的是，在要完成其他的需求或者需要跳转其他的任务时，可以将它置于后台自行运作。然后就静静地等待它完成之后来「通知」你。

之前使用其他Agent可能还会担心置于后台就不干活的情况，经过这一番实测来看，它生成过程以及结果都还挺稳定的。

这种「通知」的设置，真的就有种拥有一个打工助理的感觉：你忙你的，我做我的，我做完再跟你汇报~

接下来再来试试其他两件套：Excel和Word模式。

Excel模式下，要求它统计GitHub上热门的MCP项目，要求有项目名称、作者、Star数。在确认具体需求之后，它就开始运作了。

得到的结果是酱婶的~能够看到项目都是最新更新的，最后还附带了个Star排名表。

再来看看word模式：AI产品经理的面试指南，要求给问答清单写优秀示例。

最后这些生成的内容，都可以储存在知识库中，也可以自己上传pdf、doc、ppt、xls等多种格式的文件，可以上传录音，也可以上传url和youtube视频播放地址。每个知识库支持上传最多50个文档，方便之后可以调用。

适合工作场景的「三件套」模式说完了，通用模式其实更有意思。它集成了十余个MCP，包括网页搜索、图片搜索、网页爬取、文档搜索、思考分析、图片生成、图片理解、语音生成、音乐生成、视频生成、股票查询等。

于是在各种工具混合之后，就可以生成一些酷炫的产物，比如MV、宣传片、有声书、绘本……

帮我生成一个小猫的旅行vlog，内容分别是小猫到法国埃菲尔铁塔、美国自由女神像、中国长城、澳大利亚悉尼歌剧院、埃及金字塔、印度泰姬陵、日本富士山等地旅游并与这些著名景点自拍合照，配乐轻松欢快。

最后，他们还考虑到了开发者，也就是今天，他们在GitHub上开源了DeepResearch Agent框架。并且把生成「三件套」的能力，集成MCP，供开发者调用。

DeepResearch Agent框架开源：https://github.com/SkyworkAI/DeepResearchAgent

MCP地址：https://mcp.so/server/skywork-super-agents/Skywork-ai

智能体从有用、敢用到好用

整个产品体验下来，能够感知到的是，AI Agent赛道从“技术秀场”向“真实生产力工具”的跨越。

首先，它不仅以GAIA榜单冠军和SimpleQA评分第一的成绩证明了技术能力的领先。

它还更通过一系列基于用户特点的产品设计，比如Office三件套深度优化、多模态一站式生成和可溯源可编辑的交互设计，重新定义了智能体的价值标准：

从“有用”到“敢用”，最终实现“好用”。

智能体虽然能够让AI开始触达到真实任务执行中去，但往往会因生成内容有限，结果不可控被职场人束之高阁，但天工超级智能体（Skywork Super Agents）正在打破这样的信任壁垒。

比如全链路可控，从“需求确认-大纲审核-内容溯源”，让用户随时介入关键决策点，而且交付流程稳定，后台任务持续运行的特点，解决了AI工具“半成品烂尾”的痛点……用户才敢真正将核心工作交付给智能体。

此外，天工的好用易用其实并非简单的界面优化，而是围绕“真实需求-可用结果”一整套的闭环设计。

像场景化入口将“提示词工程”转化为“选模式-填需求”的极简操作，私人知识库支持导入企业文档、会议记录等私有数据，让输出结果天然贴合用户知识体系；真实场景中往往数据类型更为复杂，还会涉及跨模态联动，智能体能够做到多模态一站式生成，落地场景就可以进一步得到延伸和扩展。

当下，全球Agent赛道激战正酣，OpenAI、Google等巨头押注通用智能体，还有一群像Genspark、Manus争先恐后的创业玩家。

中国玩家们，以天工超级智能体（Skywork Super Agents）的突破为例，其实正在探索一条更本质的进化路径：

AI的价值不在于炫技刷榜，而是针对真实用户体验，甚至可以让人忘记技术所在。

这场“有用→敢用→好用”的进化，或许正是撬动AI大规模落地的终极密码。

目前海外版国内版均已上线，可戳下方链接体验哦~

海外版：https://skywork.ai
国内版：https://tiangong.cn

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

白交 发自 凹非寺量子位 | 公众号 QbitAI

超越Genspark和Manus，GAIA榜单第一

实测天工超级智能体：真正对打工人友好

智能体从有用、敢用到好用

发表评论 取消回复

白交发自凹非寺
量子位 | 公众号 QbitAI

发表评论取消回复