干货满满!图灵奖学术大牛和宇树、智谱等明星AI企业齐聚,探讨AI产业新风向

文丨谭梓馨

2025年6月6日,AI圈年度盛会——第七届“北京智源大会”在中关村展示中心拉开帷幕。

回顾今年上半年,AI大潮可谓浩浩荡荡。

大模型领域,科技巨头与前沿实验室迭代频率创下历史纪录,深度推理不断拉近AGI目标,开源与闭源激烈角逐激发全新业态和发展范式。

多模态AI蓬勃发展,图像、声音、视频生成技术日臻成熟,生成式AI应用遍地开花。

AI智能体从概念走向落地,赋能万千行业场景和工作流程,提升企业和个人生产力效率。

具身智能技术不断推进AI从虚拟到现实、感知到行动的突破,人形机器人开启“商业化元年”,AI+硬件深度融合,国产算力+模型协同并进。

开幕式大会上,图灵奖得主、深度学习代表人物Yoshua Bengio,图灵奖得主、强化学习之父Richard S. Sutton等多位全球顶尖学者以及智谱AI、宇树科技等明星企业CEO齐聚,带来了最新的行业洞察和分享,一起看下。

图灵奖得主的最新AI观

深度学习教父、图灵奖得主Yoshua Bengio在现场分享中提到,虽然AI在规划、推理等领域呈指数级进步,但部分前沿模型已显现出自我保护、欺骗性、篡改系统等类生物主体行为,失控风险不容忽视,构建AI的安全护栏已经非常迫切。

他预测,通用人工智能(AGI)可能于5年内达到人类水平,我们需要在AGI实现之前,通过技术创新与全球协作筑牢安全防线。目前他正在推进构建 “科学家AI”(Scientist AI),目标是构建一个完全可驾驭、完全非基因化的人工智能,作为AI发展的护栏,基于解释事物的能力而不是像现在的人工智能那样,试图模仿人类并具备高度的自主性。

“我们更应该思考的是AI在明年、3年后、5年后乃至10年后会发展到什么程度。” Bengio强调

此外,他提到,单靠国家监管AI是不够的,我们需要确保所有发展人工智能的领先国家和机构、企业在某些安全原则上达成一致,此外,需要开发新技术来验证人工智能是否得到正确使用。

Bengio还与北京大学助理教授、智源大模型安全研究院中心主任杨耀东就AI安全话题进行了交流,谈到Bengio新发起的非营利组织 LawZero在开发安全AI系统方面的进展。

另一位图灵奖得主、强化学习奠基人Richard Sutton则提到了AI正从依赖人类静态数据的“人类数据时代”迈入通过互动与经验学习的“体验时代”,需要更强大的深度学习算法,能够持续学习和元学习的算法。

Sutton认为超级智能代理和超级智能增强人类的诞生,对世界来说绝对是一件好事,他对安全和AI导致失业的问题持乐观态度,这只是技术革命之下,世界转型和发展过程中的正常现象。

对于智能体的下一步,他认为去中心化与合作是关键,合作是指目标不同的AI代理为了互利而互动,每个代理通过互动实现各自的目标,并进一步推进各自的进化,形成双赢的关系,就如同人类社会最大的成功在于合作,例如经济、市场和政府的密切配合,去中心化的合作更加稳健、可持续且灵活。

在与清华人工智能研究院副院长、智源首席科学家朱军的对话中,Sutton表示人类数据时代指的是当我们试图利用人类数据让一个AI系统运转良好,最终却达到了极限,我们现在必须用可扩展且可以增加的数据替换人类数据,以充分利用可扩展计算的优势。

从“悟道”到“悟界”

作为大会主办方,智源研究院院长王仲远在现场做了2025研究进展报告,一口气推出了多款模型和开源框架,继“悟道”系列大模型之后,智源研究院新推出了“悟界”系列大模型。

“悟道”系列是智源对大语言模型系统化方法和路径的探索,“悟界”系列大模型则是AI从数字世界向物理世界的进一步推进。

具体而言,“悟界”系列模型包括原生多模态世界模型Emu3脑科学多模态通用基础模型见微Brainμ跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2

其中,跨本体具身大小脑协作框架RoboOS 2.0是全球首个基于具身智能SaaS平台支持无服务器一站式轻量化机器人本体部署的开源框架,同时支持MCP;具身大脑RoboBrain 2.0则是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越主流大模型,智源研究院已与全球20多家具身智能企业建立战略合作关系。

大会之前,王仲远在接受媒体采访时提到,大模型技术还远没有到发展的尽头,过往所说的百模大战更多的是大语言模型的竞争,而大语言模型受限于互联网数据的使用,基础模型性能虽然还在提升,但是提升速度不如以前。

大语言模型性能提升瓶颈的解法仍有很多:

一是通过强化学习,在后训练和推理上提升,例如O1O3、DeepSeek R1等,这是过去一年大模型产业界最大的一块进展。

二是数据合成,目前学术界仍在突破。互联网数据都是人类创造的。如果人工智能合成的数据、生成的数据质量能够达到人类创造的数据质量,那意味着人工智能有可能实现自我学习和进步。

三是多模态数据,在全世界范围内,多模态数据是文字数据的百倍千倍乃至万倍甚至更多,这些数据远没有被很有效利用。

原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。

在微观层面,生成式人工智能的应用能够进一步揭示微观世界的本质。

所有这一切构成的世界模型是实现物理AGI的重要发展路径,智源研究院的工作布局都是围绕这一技术发展趋势进行布局。

作为国内非营利AI科研机构,源在打造大模型开源技术体系进行了深度布局,其打造大模型开源技术体系FlagOpen,截至目前已开源约200个模型和160个数据集,其中,模型全球总下载量超6.4亿次,开源数据集下载量近113万次,开源项目代码下载量超140万次。

开源、统一的AI系统软件栈FlagOS新增了统一编译器FlagTree、统一通信库FlagCX、自动发版平台工具FlagRelease等板块,据说实现对11家国内外厂商的18款异构AI硬件的统一支持。

在开源模型方面则介绍了通用向量模型BGE系列、小时级开源轻量长视频理解模型Video-XL-2以及全能视觉生成模型OmniGen的最新技术进展

会上,智源研究院还宣布与香港投资管理有限公司建立战略合作框架,共建世界级跨区域合作的人工智能生态圈。

具身之能技术、商业步入新阶段

具身智能和人形机器人是本届智源大会的一大焦点,机器人格斗冠军宇树G1、银河通用的具身大模型机器人Galbot、机器人半程马拉松冠军天工2.0登台参与了现场互动,引起热烈围观。

智源研究院王仲远在现场与具身智能企业Physical Intelligence联合创始人兼CEO Karol Hausman,宇树科技创始人王兴兴,银河通用创始人兼CTO、北京大学助理教授、智源具身智能研究中心主任王鹤,穹彻智能联合创始人、上海交通大学教授卢策吾,北京人形机器人创新中心总经理熊友军,就具身智能的技术路线、商业化路径、应用场景、产业生态等进行了探讨。

Physical Intelligence的联合创始人兼CEO Karol Hausman认为,具身智能的发展VLA模型是关键突破。

宇树科技创始人王兴兴表示:“从今年一月份的春晚机器人,以及近期的格斗比赛、马拉松之类的事情,最大的价值点是搭建起了向公众展示的平台,更早地让大家接触目前机器人发展到什么阶段了。”

同时,这些比赛也是AI技术的进化场和技术训练场,王兴兴说,今年上半年人形机器人的租赁市场比较火爆,本身已经带来了一些产业和商业价值,但终极目标还是希望机器人是干活的,能进一步解放人类生产力,从事一些辛苦的工作,未来的人形机器人一定可以做各种的全身动作,跳舞和格斗都是全身动作训练的一部分。

北京人形机器人创新中心总经理熊友军表示,随着具身智能技术的发展,它的载体或形式可能是多种多样的,不一定局限于人形机器人,但未来从商用服务场景走入家庭,人形机器人的市场容量可能是最大的,此外,从人机交互的感觉来看,家庭场景下人形也更容易被接受,虽然目前成本技术不占优势,但从一个比较长的视角来看,人形是一个比较好的载体。

其他各位嘉宾在交谈中认为,机器人行业目前仍有一些瓶颈待解,例如对于VLA模型泛化性,机器人面临复杂环境的适应性等挑战,通过合成数据、多场景训练等有望进行改进

大模型竞争业态更多元

在大模型领域,虽然AI大厂们实力雄厚跑马圈地,但却难以面面俱到,创业团队在端侧大模型、AI生成视频等领域展现的技术创新和商业突围能力值得关注,对用户和客户的需求点洞察分析灵活跟进,不断创造AI应用爆点。

例如面壁智能的端侧模型MiniCPM4 0.5B和8B模型在端侧对标Qwen3、Llama3.2、Gemma3、Phi4等大厂模型时呈现出了突出的训练成本、运行速度和性能优势。

爱诗科技的视频生成模型PixVerse V3及AIGC产品在国外爆火,据说月活用户超1600万,与OpenAI的Sora、快手的可灵AI、字节跳动的即梦、阿里的通义万象以及美国的明星公司Runway、Pika等PK起来不落下风,成为AI出海的代表生数科技的Vidu则开发出了长时长、高一致性、高动态性AI视频生成大模型,同时在创意-效果-效率-成本上下功夫,成功打开了市场局面。

星动纪元则在机器人VLA和世界模型融合以及强化学习对具身大模型优化方面做出了深耕和创新探索等。

关于多模态大模型的前瞻,智谱CEO张鹏、智源研究院院长王仲远、Sand.ai创始人兼CEO曹越、智象未来创始人兼CEO梅涛等进行了一些探讨。

值得关注的技术发展方向有:多模态统一建模,构建时空联合表征框架,融合物理规律如重力、力学;可控生成技术,通过prompt工程或物理约束实现精准内容控制;数据效率提升,探索视频预测模型(如基于前序帧生成后续内容)减少训练成本。另外,AI训练师、多模态数据处理、人机协作系统优化等新岗位需求可能会上升。

2025年是个行业新坐标,AI产业接下来的发展态势让人充满期待。


-END-

(文:头部科技)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往