开源TTS语音新标杆!Kyutai TTS:350ms延迟碾压全场,词级时间戳重构!

Kyutai TTS 是一款基于Delayed Streams Modeling(DSM)框架的实时文本转语音(TTS)模型,支持流式文本输入、超低延迟和高保真语音生成。参数量为1.6B,英语/法语WER分别为2.82%和3.29%,语音相似度为77.1%/78.7%。

【Osmosis-Structure-0.6B】小模型大能量!这款小型语言模型如何轻松搞定结构化输出?

Osmosis-Structure-0.6B 是一款小型语言模型,专注于结构化输出生成。通过强化学习和大量结构化数据训练,在数学推理任务中表现出色,并在多个领域如智能客服、数据分析和教育辅导中有广泛应用。