实时交互归档

谷歌DeepMind深夜放核弹：世界模型Genie 3登场，重新定义“生成式AI”

2025年8月6日12时作者 AI寒武纪

谷歌DeepMind发布第三代通用世界模型Genie 3，可以生成实时交互式环境，实现实时导航、一致性和高分辨率。其突破包括实时性能、长时程一致性以及可提示的世界事件能力。

空间智能率先落地国民APP！实测：时空决策很顺滑，直达千人N面出行体验

2025年7月7日16时作者量子位

。
是的，空间智能，AI围绕时间和空间进行预测和推理的能力，可以应用于世界模型、落地在XR设备、改

11Labs 增长负责人：搞营销要学着做视频，但创始人出镜会有点自恋

2025年6月19日23时作者 Founder Park

levenLabs 可以说一直在高速增长。在今年 1 月完成 1.8 亿美元 C 轮融资后，Elev

Midjourney 推出其首个图生视频模型 V1：延续美学风格，目标是构建「世界模型」

2025年6月19日16时作者 Founder Park

Midjourney推出视频生成模型V1，主打高性价比、易于上手的视频生成功能。用户可以通过动画化图片或自己的图片来创作短视频，支持手动和自动两种模式，最低每月10美元即可使用，目标是构建实时交互的开放世界模拟系统。

首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会

2025年6月17日16时作者机器之心

本文介绍了一篇被ACL 2025主会议接收的语音语言模型综述论文，该文由香港中文大学团队撰写。文章探讨了当前语音大模型的发展及其在自然对话、实时交互等方面的应用前景，并提出了未来研究的重点和挑战。

阿里巴巴开源的全模态大模型Qwen2.5-Omni，字节跳动开发的节点式工作流引擎，自动化注册Cursor Pro

2025年3月27日11时作者每日AI新工具

阿里巴巴开源的Qwen2.5-Omni大模型支持全模态感知与生成、实时交互和语音生成。Cursor Auto Register帮助用户自动化注册Cursor账号。字节跳动开发的FlowGram.AI是节点式工作流引擎，利用AI能力增强工作流程。n8n MCP Server是一个让AI助手通过自然语言控制n8n工作流的模型上下文协议服务器。LangGraph CUA库构建具有计算机操作能力的智能代理系统。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31