首个开源AI音频驱动的「多人对话」视频生成项目,还能通过提示词控制角色动作。

MultiTalk 是 MeiGen-AI 开发的音频驱动多人对话视频生成框架,支持单人/多人对话、卡通角色生成和唱歌场景模拟。具备480p/720p灵活输出能力,最长15秒长视频生成能力,并引入优化技术提高性能。

首个开源AI 3D结构化模型,零件级输出3D,AI真正懂了空间这个概念。

首个结构化3D生成模型PartCrafter发布,从单张RGB图像生成多个语义有意义且几何不同的3D网格。支持部件独立编辑、移除或添加,确保全局一致性与细节。

谷歌放大招了,开源命令行AI编程Agent,每天1000次免费调用,编程只是基础功能。

Gemini CLI 是谷歌推出的开源 AI 命令行工具,基于 Gemini 2.5 Pro 模型,支持百万 token 上下文,提供免费 API 请求额度,并具备智能代码处理、多模态能力、实时信息整合和高度可定制性等功能。