一款刚刚开源的TTS语音模型!25ms超低延迟支持实时对话,4种规格适配全场景!
Orpheus TTS 是一款全新的开源 TTS 模型,支持接近人类的自然情感表达、超低延迟(25-50毫秒)以及强大的零样本语音克隆功能。该模型提供从 150M 到 3B 参数四种不同规模的选择。
Orpheus TTS 是一款全新的开源 TTS 模型,支持接近人类的自然情感表达、超低延迟(25-50毫秒)以及强大的零样本语音克隆功能。该模型提供从 150M 到 3B 参数四种不同规模的选择。
Step-Audio是首个支持多语言对话、情感表达和方言的开源智能语音交互框架;Frames of Mind项目通过思维链可视化思考过程;DragAnything实现对象运动控制;《AI Agents for Beginners》课程教授初学者构建AI代理技能;Chat2Geo结合遥感数据进行地理空间分析。
OpenAI 更新了GPT-4o模型,提升了创意写作能力和处理上传文件的能力。GPT-4o能写科幻小说、古龙风格的小说以及脱口秀内容等。尽管在诗歌和歌词写作上还有待提升,但整体表现不错。OpenAI认为这将有助于改进人类使用模型的方式,并可能改变未来的内容创作方式。