SIGGRAPH 2025 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

近期,可灵研究团队推出的CineMaster电影级文本到视频生成框架允许用户通过3D感知控制目标和相机运动来创作高质量视频内容。该方法在SIGGRAPH 2025会议中被收录,并展示了从任意视频中提取3D控制信号的数据构建流程。

Adobe 重新启动 Firefly,成为图像、视频、音频等一站式 AI 引擎

Adobe 发布Firefly AI平台新版本,新增翻译音频、视频功能及背景音乐生成能力,提升创意工作效率。支持多种语言翻译、声音与视频同步调整,并提供图像和视频生成模型,增强内容创作灵活性。

速递|​8秒视频只是起点,谷歌Veo 2携8秒720P视频登陆Gemini,硬刚OpenAI Sora

谷歌即将在其Gemini平台上推出新的Veo 2视频生成AI模型,该模型目前仅限于订阅Gemini Advanced的付费用户使用。Gemini Advanced用户可创建720p分辨率8秒的16:9宽高比视频,并通过Gemini的分享按钮上传至TikTok、YouTube等平台。

谷歌最先进的视频生成模型Veo 2,使用自然语言查询终端命令,将多种Agent框架转换为MCP服务器工具

谷歌最先进的视频生成模型Veo 2能将文本、图像或两者结合转化为八秒的视频,它擅长理解简单和复杂指令,并准确模拟现实世界的物理规律。开发者可以通过Google AI Studio、Gemini API等平台使用Veo 2的核心功能包括文本到视频和图像到视频。同时介绍Python工具Zev用于自然语言查询终端命令、VS Code扩展RooFlow增强AI辅助开发、实时会议转录APIVexa支持多种平台并提供企业级安全保障的工具automcp。