Stream-Omni:多模态交互的“黄金三角”——视觉、语音、文本的完美融合 2025年6月28日14时 作者 小兵的AI视界 联合推出的类似 GPT-4o 的大型语言 – 视觉 – 语音模型 , 能够同时支持文本、图像和语音等
集音视频翻译、配音、语音克隆于一体!一站式视频多语言转换工具Krillin AI 2025年4月9日11时 作者 GitHubStore Krillin AI 是一款全能型音视频本地化与增强解决方案,支持横竖屏格式输出,一键启动、精准识别、智能分段等功能。
让声音合成变得简单CosyVoice-api 2025年1月13日12时 作者 GitHubStore 语音合成API接口介绍,包括内置角色合成文字、同语言克隆音色合成、兼容OpenAI TTS和不同语言音色克隆等功能。