4000万归档 - 每时AI

今年最火 AI 视频 Veo 3 大更新！上传一张图，家里的猫和鲁迅就能开口「吐槽」附实测

2025年7月12日23时作者 APPSO

VeO3 最新更新支持图片生成开口说话的视频，包括声音和动作。用户能上传一张静态图片加上文字脚本，就能生成带有语音同步的视频。Gemini 平台提供了多种选项如首帧转视频、使用 Gemini 和 Flow 生成连贯短片等。

2025年1月25日23时作者机器之心

ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出，展示了强大的视频理解和生成能力。