多语言
谷歌NotebookLM推出AI播客的50多种多语言音频概述
Google扩展其实验性NotebookLM产品线,使其AI摘要功能支持超过50种语言。此更新标志着谷歌在增强AI工具可访问性和拓展多语言市场方面的重要一步。
EmotiVoice:网易免费开源TTS引擎,2000种音色+情感控制!狂揽7900星
网易有道开源的EmotiVoice是一款支持多语言、海量音色和情感合成的TTS系统,具有高效部署、易用接口和语音克隆等功能,在内容创作、智能语音助手、教育、客服系统及娱乐游戏等领域具有广泛应用前景。
2.6K Star!OpenUtau:开源歌声合成神器,开箱即用,完美兼容UTAU生态!
一款免费、开源的音乐创作与编辑工具OpenUtau,兼容UTAU库和采样器,支持VSQX导入等强大功能,适用于Windows、macOS和Linux。
爆火开源TTS,支持零样本克隆,200ms超低延迟,情感语调超自然。
最近TTS开源项目大爆发。介绍4个模型:Medium、Small、Tiny和Nano,涵盖英语及多语言模型,并提供详细的Orpheus TTS项目简介和功能特点。
情感语音的“开源先锋”!网易开源的一款TTS神器,2000种声音随意切换!
网易有道 EmotiVoice 开源模型支持多语言和多种音色,具有情感合成功能。通过Docker镜像或本地安装方式快速部署使用,满足开发者和企业多样化需求。
深度|Google首席科学家Jeff Dean对话Transformer发明者:基于自回归的下一词预测方式并非人类学习的最佳模拟
往往是由硬件和更大规模驱动的,但同样甚至更多是由
重大的算法改进和模型架构的重大变化、训练数据组合等
谷歌开源单卡最强多模态模型!分数超满血版DeepSeek V3,一张GPU就能跑
谷歌发布Gemma 3系列模型,参数规模有1B、4B、12B和27B四种,支持超过35种语言。它在知名AI排行榜LMArena上的初步人类偏好评估中优于Llama-405B、DeepSeek-V3和o3-mini。开发者可以通过多种途径访问Gemma 3,并附带改进的代码库进行高效微调。谷歌还推出了Gemma 3学术计划,以加速基于Gemma 3的研究。
音乐检索进入“多模态对齐”时代:清华 CLaMP-3 的三大极限突破
清华大学朱文武教授团队推出的CLaMP 3是一款多模态、多语言的音乐信息检索框架,实现了跨模态检索和零样本分类等功能。它支持27种语言,并基于对比学习训练模型,使用XLM-R预训练模型实现强大的多语言文本嵌入。