首个开源AI音频驱动的「多人对话」视频生成项目,还能通过提示词控制角色动作。
MultiTalk 是 MeiGen-AI 开发的音频驱动多人对话视频生成框架,支持单人/多人对话、卡通角色生成和唱歌场景模拟。具备480p/720p灵活输出能力,最长15秒长视频生成能力,并引入优化技术提高性能。
MultiTalk 是 MeiGen-AI 开发的音频驱动多人对话视频生成框架,支持单人/多人对话、卡通角色生成和唱歌场景模拟。具备480p/720p灵活输出能力,最长15秒长视频生成能力,并引入优化技术提高性能。
腾讯AI Lab开源项目SongGeneration通过先进的技术架构和算法实现了高质量音乐生成。它支持文本控制、多轨合成和风格跟随等功能,并在多个应用场景中取得了优异表现。
GitHub Copilot、Gemini CLI OpenAI Worker、All Model Chat、Hunyuan-A13B和n8n-MCP是五个不同的AI工具或服务介绍,它们各自针对编程辅助、多模态对话、大语言模型管理和工作流自动化等方面提供支持。
首个大规模多模态物理推理基准PhysUniBenchmark发布,包含3304道经验证的物理问题,支持多语言评估,开放性问题准确率仅为26.5%。
AI Dataset Generator快速生成逼真数据集,支持实时预览、一键导出CSV或SQL,预览仅需约0.05美元,下载数据免费。
OptimaMCP是Optuna的Model Context Protocol服务器,支持自动化超参数优化及交互式分析结果,兼容多种工具。
腾讯联合清华大学深圳国际研究生院等机构推出的多模态大语言模型MindOmni,在视觉理解、文本到图像生成、推理生成等方面表现卓越。它采用三阶段训练策略和强化学习算法优化了模型的推理生成能力,支持内容创作、教育、娱乐等多个领域应用。