白交 发自 凹非寺
量子位 | 公众号 QbitAI
左超Manus,右跨Genspark,GAIA榜单上又一家中国公司登顶!
天工超级智能体(Skywork Super Agents),出自昆仑万维,今日刚一上线即霸榜。

Agent赛道开始热闹之后,GAIA就成为大家摩拳擦掌的竞技场。
作为一个评估Agent解决实际问题能力的基准,它包括450个问题,这些问题需要不同级别的工具支持和自主能力,为此它还划分了三个Level水平。
结果能够看到,天工超级智能体(Skywork Super Agents)在前两个Level都以较大分数超过Manus和OpenAI的Deep Research,最后一个较高难度的Level 3,能力与Manus持平。
另外,它还在SimpleQA排行榜上,实现了对OpenAI和当前SOTA的超越。

除了在排行榜表现惊艳,它还有很多与其他产品不同的细节点。
摘一个最重要的(对打工人最友好的)来说。
它支持五种模态一站式生成,包括Office三件套(Word、PPT、Excel)、网站、网页、播客,一应俱全。
而且生成的结果可溯源、可编辑,还有类似NotebookLM的在线私人知识库的功能。
要知道,以前Agent那么多,但对打工人都不是特别的友好,生成的报告无法溯源、支持的文件格式又有限……

现在似乎是一个真正强大且对打工人友好的Agent来了,具体来看看。
超越Genspark和Manus,GAIA榜单第一
在说天工超级智能体(Skywork Super Agents)之前,有必要说说GAIA的含金量。
它之所以能成为众多Agent/大模型屡试不鲜的通用Benchmark,主要在于它提出了真实世界中一系列需要基本能力的问题,如推理、多模态处理、网页浏览和一般工具使用熟练程度。
而且还很细致地区分了三个层次,分别代表着不同的难易程度,级别越高,难度越大。

Level 1,往往不需要任何工具,或者有且最多只使用一种工具,但步骤不超过5步。
Level 2,涉及到的步骤在5-10步之间,需要结合不同的工具。
Level 3,这一级别的问题已经接近通用Agent了,要求采取任意长的行动序列,使用任意数量的工具,并能访问整个世界。
不过别看这么复杂,但其实这种难度只是「AI限定」,对人类来说很简单。他们的实验表明,人类答题者的得分率为92%,而装有插件的GPT-4的得分率仅为15%。
这种显著的差异与「当前大模型在诸多任务优于人类」的现象形成了鲜明的对比。
于是乎这也就成为了海内外Agent的擂台,结果没想到现在又出现一个国产Agent「天工超级智能体」(Skywork Super Agents)突出重围,实现SOTA。
另外,它还收获了SimpleQA上评分第一、Product Hunt日榜第一。
具体来看看产品。
从入口上看,目前只有网页端口,界面相比其他Agent产品丰富和清晰不少,覆盖的模式和场景都更全面一些。

在模式中有六种可以选择,其中Office三件套(文档、PPT、表格)还都是专家模式。
尤其是表格的首发,让AI生成数据表格和图标,这是其他Agent产品尚且还不具备的。
而这次通用模式,它可以生成音乐、MV、宣传片、绘本、有声书等内容。昆仑万维过去在多模态技术上的多方面探索这次沉淀下来,并且All in One。

此外它还可以细分场景,基本上我们日常生活工作高频场景都覆盖了。

这样拆分其实简化了用户的流程,不需要再去多思考如何想提示词,只需选定一个模式和场景,简单地提出一个需求就可以搞定,直接降低了使用门槛。
当然有一些详细需求且里面的场景没有涉及到,也跟其他Agent/AI助手一样,支持「通用」场景和模式。
比如生成个游戏/网页,研究报告啥的。
我是个技术小白,我想从零做一个小游戏的微信小程序,要真正能够上线分享给其他人的,请问我应该一步步怎么做,给我写一个详细完整的攻略和教程,要具有实际可操作性,步骤要清晰,阅读起来不要太费劲。
给我做个网页,一个tab是微信聊天界面,另一个tab是朋友圈,模拟历史上的各位皇帝在聊天和发朋友圈,要符合各个皇帝的性格和特点,然后互相还会在朋友圈点赞,增加一个继续看的按钮,每次点击都会触发新的聊天和朋友圈事件。

整体看下来,其他智能体有的它都有,而且产品功能设计得更贴合用户习惯,大大简化了用户使用门槛。
那就来看看它的真本事~彻底地来实测感受一下。
实测天工超级智能体:真正对打工人友好
这次天工超级智能体(Skywork Super Agents)支持了Office三件套,据说还做了专门的优化,那就来看看它的实力所在。
首先来看看PPT模式。
主题:大模型与智能体科普,目标:中小学生
在如此简单的提示词驱动下,它就开始运作了。当然除了Prompt,也可以投喂资料或你的个人知识库内容,可以是图片、在线文档、网页、PDF。
发起任务后,它会根据任务生成一个表单, 你可以跳过也可以修改,这样让需求更具体。
这样也能让它更能get你的需求,避免没有搞清楚就开干。这是不是比工作伙伴靠谱聪明多了(Bushi)。

确认需求之后,它会生成一个「待办清单」,包括收集、整理、生成大纲到制作等详细步骤,这里也有一个「确认」的操作需要你来执行,有任何补充也都OK。

整个过程在一些关键节点上都会有这种把关的「表单」需要你来执行,比如确认PPT大纲,当然也可以跳过。总之就是关键步骤更可控,而不是一股脑地完成,避免一步错步步错,让它最后完成的结果也能更符合你的预期。
在使用各种MCP依次完成步骤之后,来看看生成的结果,整体看上去还是不错。
风格和排版设计也很契合中小学生这一群体,仔细一看还会发现有动画效果?!可以说是很全面了,毕竟我就不会弄这个。

里面的案例也不局限于文本这一形式,还有视频、图片等多种模态穿插,而且也都是可溯源的真实案例,是真正可以直接拿出去用的程度。

这种高可用的特点,其实还挺惊艳的。
毕竟不是所有Agent平台都能生成这么丰富的多模态内容,也不是所有平台生成的内容都真实可用,但此处天工超级智能体(Skywork Super Agents)两者都实现了,不仅有用还好用,对于用户来说还敢直接在真实场景中使用。
而要是需要微调内容,它也支持「可编辑」,文字所到之处,都可以进行调整。

最后支持PPT、PDF以及HTML导出。

值得一提的是,在要完成其他的需求或者需要跳转其他的任务时,可以将它置于后台自行运作。然后就静静地等待它完成之后来「通知」你。

之前使用其他Agent可能还会担心置于后台就不干活的情况,经过这一番实测来看,它生成过程以及结果都还挺稳定的。
这种「通知」的设置,真的就有种拥有一个打工助理的感觉:你忙你的,我做我的,我做完再跟你汇报~

接下来再来试试其他两件套:Excel和Word模式。
Excel模式下,要求它统计GitHub上热门的MCP项目,要求有项目名称、作者、Star数。在确认具体需求之后,它就开始运作了。

得到的结果是酱婶的~能够看到项目都是最新更新的,最后还附带了个Star排名表。
再来看看word模式:AI产品经理的面试指南,要求给问答清单写优秀示例。

最后这些生成的内容,都可以储存在知识库中,也可以自己上传pdf、doc、ppt、xls等多种格式的文件,可以上传录音,也可以上传url和youtube视频播放地址。每个知识库支持上传最多50个文档,方便之后可以调用。
适合工作场景的「三件套」模式说完了,通用模式其实更有意思。它集成了十余个MCP,包括网页搜索、图片搜索、网页爬取、文档搜索、思考分析、图片生成、图片理解、语音生成、音乐生成、视频生成、股票查询等。
于是在各种工具混合之后,就可以生成一些酷炫的产物,比如MV、宣传片、有声书、绘本……
帮我生成一个小猫的旅行vlog,内容分别是小猫到法国埃菲尔铁塔、美国自由女神像、中国长城、澳大利亚悉尼歌剧院、埃及金字塔、印度泰姬陵、日本富士山等地旅游并与这些著名景点自拍合照,配乐轻松欢快。
最后,他们还考虑到了开发者,也就是今天,他们在GitHub上开源了DeepResearch Agent框架。并且把生成「三件套」的能力,集成MCP,供开发者调用。
DeepResearch Agent框架开源:https://github.com/SkyworkAI/DeepResearchAgent
MCP地址:https://mcp.so/server/skywork-super-agents/Skywork-ai
智能体从有用、敢用到好用
整个产品体验下来,能够感知到的是,AI Agent赛道从“技术秀场”向“真实生产力工具”的跨越。
首先,它不仅以GAIA榜单冠军和SimpleQA评分第一的成绩证明了技术能力的领先。
它还更通过一系列基于用户特点的产品设计,比如Office三件套深度优化、多模态一站式生成和可溯源可编辑的交互设计,重新定义了智能体的价值标准:
从“有用”到“敢用”,最终实现“好用”。
智能体虽然能够让AI开始触达到真实任务执行中去,但往往会因生成内容有限,结果不可控被职场人束之高阁,但天工超级智能体(Skywork Super Agents)正在打破这样的信任壁垒。
比如全链路可控,从“需求确认-大纲审核-内容溯源”,让用户随时介入关键决策点,而且交付流程稳定,后台任务持续运行的特点,解决了AI工具“半成品烂尾”的痛点……用户才敢真正将核心工作交付给智能体。
此外,天工的好用易用其实并非简单的界面优化,而是围绕“真实需求-可用结果”一整套的闭环设计。
像场景化入口将“提示词工程”转化为“选模式-填需求”的极简操作,私人知识库支持导入企业文档、会议记录等私有数据,让输出结果天然贴合用户知识体系;真实场景中往往数据类型更为复杂,还会涉及跨模态联动,智能体能够做到多模态一站式生成,落地场景就可以进一步得到延伸和扩展。
当下,全球Agent赛道激战正酣,OpenAI、Google等巨头押注通用智能体,还有一群像Genspark、Manus争先恐后的创业玩家。
中国玩家们,以天工超级智能体(Skywork Super Agents)的突破为例,其实正在探索一条更本质的进化路径:
AI的价值不在于炫技刷榜,而是针对真实用户体验,甚至可以让人忘记技术所在。
这场“有用→敢用→好用”的进化,或许正是撬动AI大规模落地的终极密码。
目前海外版国内版均已上线,可戳下方链接体验哦~
海外版:https://skywork.ai
国内版:https://tiangong.cn
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)