语音转录模型
最近开源大模型Kimi k2占据首位;Voxtral Small作为声音模型在huggingface上表现突出。它能够进行长格式转录和理解,支持多种语言,并能直接通过语音调用功能。此外,Voxtral还提供了两种版本:24B变体用于生产规模应用,3B变体适用于本地和边缘部署。
最近开源大模型Kimi k2占据首位;Voxtral Small作为声音模型在huggingface上表现突出。它能够进行长格式转录和理解,支持多种语言,并能直接通过语音调用功能。此外,Voxtral还提供了两种版本:24B变体用于生产规模应用,3B变体适用于本地和边缘部署。
谷歌发布Gemini CLI开源工具,提供免费的AI编程辅助功能。支持100万上下文窗口和60次/分钟请求限额,允许用户通过命令行自然语言控制Gemini模型写代码、调试等。
谷歌发布 Gemini CLI,一个开源的终端 AI 代理。免费提供强大模型,包括100万 token 上下文窗口、60次/分钟请求额度,并支持命令行任务处理、编码调试及内容创作等。
Google发布了Gemini CLI,一个开源的命令行AI开发工具。免费用户每天1000次请求,每分钟60次,且拥有100万token上下文窗口。Google强调终端是开发者家,并表示欢迎全球开发者参与该项目。
初创公司Nari Labs推出文本转语音(TTS)模型Dia,拥有16亿参数,性能超越竞争对手。支持多种控制和定制功能,包括说话人标记、非语言音频提示等。目前仅限英语,正在逐步开源并开发消费者版本。
五一前夕,阿里通义千问发布的Qwen3系列模型在开源领域再次取得突破,支持多种语言、高性能计算和混合专家架构。该模型包括Qwen3-235B-A22B和Qwen3-30B-A3B两个核心模型,覆盖119种语言,并提供丰富的训练数据以降低部署成本。