最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型

吉利汽车集团与阶跃星辰联合宣布,将Step系列多模态大模型向全球开发者开源。包括参数量最大的视频生成模型和首款语音交互大模型。阶跃Step-Video-T2V可直接生成高质量视频,而阶跃Step-Audio是业内首个产品级的开源语音交互模型。

阶跃星辰刚刚开源了其30B参数视频生成模型:Step-Video-T2V

阶跃星辰发布30B参数视频生成模型Step-Video-T2V,支持中英双语输入及可变长度视频生成,提供标准版和加速版。采用DiT架构与3D全注意力机制,使用DPO技术优化质量,配置推荐使用步骤推理步数及cfg_scale值。

重磅:Google 推出图文视频生成双王!Sora要完了?

Google发布了全新的Veo 2视频生成模型和Imagen 3图像生成模型。测试结果显示,Veo 2在画面质量和提示词遵从度上都超越了OpenAI的Sora。此外,Imagen 3在文字渲染和细节呈现方面表现优异,创下了1115的新高分。Google已经在多个平台上推出这两款产品。