1秒转录1小时音频,英伟达重磅开源语音识别最强模型Parakeet!

Nvidia又一次刷新了开源AI模型的天花板!

刚刚,Nvidia高调宣布开源其最新语音识别模型:Parakeet TDT 0.6B,一上线就霸占了Open ASR Leaderboard榜单第一名的位置!

这款模型到底强在哪里?

居然能在1秒内完成60分钟音频的转录

600M参数,不仅超高效,Nvidia还以CC-BY-4.0许可协议开源,意味着开发者可以完全免费将其用于商业用途。

Vaibhav (VB) Srivastav(@reach_vb)对模型发布做出评价:

Nvidia 刚刚开源了 Parakeet TDT 0.6B,这是目前Open ASR榜单上表现最好的语音识别模型。 它能在1秒钟内转录60分钟的音频,速度令人难以置信。 模型拥有6亿参数,以商业许可(CC-BY-4.0)开放。 祝贺Nvidia的杰出发布,直接击败了市面上主流的闭源巨头们!

为什么这么快?

Parakeet采用的是最新的FastConformer-TDT架构。

这种架构最显著的特征就是能对长达24分钟的音频片段进行高效处理,无需分割,直接单次处理完成。

此外,它集成了强大的TDT解码器,保证了高质量的标点符号预测、大小写精准以及准确的时间戳预测。

看看Hugging Face上的Open ASR排行榜表现

  • 平均词错误率(WER)仅为6.05%,在LibriSpeech clean测试集上甚至低至1.69%。

  • 各大常用基准(AMI、GigaSpeech、TEDLIUM等)均表现优异。

而最关键的性能参数RTFx(实时性能倍数)更是惊人地达到3380(批处理大小128),说明其转录效率已经远远超越了现有的主流方案。

开发者反应热烈

这次Nvidia开源Parakeet,引发了广泛关注,不少AI圈的网友纷纷发推询问、点评:

tj(@new_discord_tea)直接惊呆了:

一秒转录60分钟音频,你确定?我的RTX 3090能跑吗?

而AI Wave(@aiwaveco)则毫不掩饰自己的兴奋:

Nvidia这次玩得太大了,开放许可、性能屠榜,这种速度和易用性会改变整个行业。

甚至有人开始积极探索Parakeet在各平台的兼容性,Mono Silabo(@monosilabo)关注Mac平台:

我能在我的MacBook Pro M3上运行它吗?

很快,就有用户提供了方案。silv.eth(@mattsilv) 表示一开始对MacOS不抱希望,但后续有用户发布了针对Apple Silicon芯片优化的移植版本:

而Nithin Rao(@nithinraok_)则提供了具体移植版本的信息:

有人已经把Parakeet移植到了mlx上,支持苹果芯片的Mac用户直接用pip安装就能用了。

传送门:huggingface.co/senstella/parakeet-tdt-0.6b-v2-mlx

High Jack(@jackadoresai)也推荐Mac用户尝试一下移植版:

Parakeet-mlx听说非常好用,苹果芯片用户可以试试,ASR也能变简单。

省流:暂只支持英文

不过,有一点用户要注意,Parakeet TDT 0.6B目前仅支持英文语音识别

Leo(@LeoVasanko)指出了语言支持的局限:

Nvidia的模型非常快,但语言支持目前仍有限。Parakeet只支持英语,之前的Canary虽然号称支持四种语言,但在实际使用中对部分拉美口音的西班牙语表现并不好。

Mikolaj Piech(@mikolajpiech) 也询问大家是否知道更小巧的多语言模型:

Parakeet虽然出色,但仅限英语,谁知道小巧好用的多语言ASR模型吗?

而针对一些专业用户关心的SRT字幕和多人对话分离转录的功能,Ant A(@AntDX316)提出了疑问,目前官方还没有给出明确回复,看来还需要用户自行测试探索。

最后,Parakeet的具体安装和调用也相当简单:

pip install -U nemo_toolkit['asr']

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

output = asr_model.transcribe(['audio.wav'], timestamps=True)
for stamp in output[0].timestamp['segment']:
    print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")

开源的巨大冲击

Nvidia此次开源Parakeet,最大的意义在于推动整个语音识别领域的技术民主化。

DataInsta(@DataInsta_com)指出:

开源能极大地加速创新,就像transformer开源后彻底改变了NLP领域一样。

Oboe(@oboelabs)也对此表示赞同:

Parakeet是开源力量推动创新的绝佳例子,transformer开源后的繁荣就是最好的佐证。

随着更多高性能模型的开源,技术进步的门槛正在降低,未来的AI生态必然更加开放、丰富。

现在,所有人都可以免费、自由地使用最前沿的AI语音识别技术了——

Parakeet 来了,你准备好了吗?


相关阅读

  • 模型主页:huggingface.co/nvidia/parakeet-tdt-0.6b-v2
  • Open ASR Leaderboard:huggingface.co/spaces/hf-audio/open_asr_leaderboard

(文:AGI Hunt)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往