在线教程丨Mistral AI首个开源音频模型Voxtral,24B与3B版本兼顾多场景语音深度理解

Mistral AI 发布首个先进音频模型Voxtral,提供低成本高性能的24B和3B版本,支持多语言、长文本上下文处理等。该模型已在HyperAI超神经官网上线Demo,满足语音智能市场多元需求。

EmotiVoice:网易免费开源TTS引擎,2000种音色+情感控制!狂揽7900星

网易有道开源的EmotiVoice是一款支持多语言、海量音色和情感合成的TTS系统,具有高效部署、易用接口和语音克隆等功能,在内容创作、智能语音助手、教育、客服系统及娱乐游戏等领域具有广泛应用前景。

谷歌开源单卡最强多模态模型!分数超满血版DeepSeek V3,一张GPU就能跑

谷歌发布Gemma 3系列模型,参数规模有1B、4B、12B和27B四种,支持超过35种语言。它在知名AI排行榜LMArena上的初步人类偏好评估中优于Llama-405B、DeepSeek-V3和o3-mini。开发者可以通过多种途径访问Gemma 3,并附带改进的代码库进行高效微调。谷歌还推出了Gemma 3学术计划,以加速基于Gemma 3的研究。