今年最火 AI 视频 Veo 3 大更新!上传一张图,家里的猫和鲁迅就能开口「吐槽」 附实测

VeO3 最新更新支持图片生成开口说话的视频,包括声音和动作。用户能上传一张静态图片加上文字脚本,就能生成带有语音同步的视频。Gemini 平台提供了多种选项如首帧转视频、使用 Gemini 和 Flow 生成连贯短片等。

年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布

ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。