谷歌NotebookLM推出AI播客的50多种多语言音频概述

谷歌宣布对其实验性研究产品NotebookLM进行重大扩展,其“音频概览”功能——能够生成用户文档的人工智能(AI)摘要——现已支持超过50种语言。这一功能于上周悄然上线,标志着谷歌在增强其AI工具的可访问性以及拓展多语言市场方面迈出了重要一步。目前,大多数生成式AI产品(包括聊天机器人和摘要引擎)仍然主要以英语用户界面为主,这给全球数十亿使用其他语言进行交流和学习的人带来了障碍。



01

从单语言到多语言:技术里程碑

“音频概览”功能最初于去年以英语版本推出,作为谷歌实验室的NotebookLM的一部分。NotebookLM是一款实验性笔记工具,利用大型语言模型生成摘要、回答问题,并在用户的私人文档中连接研究要点。此次更新后,谷歌表示用户可以选择包括西班牙语、普通话、葡萄牙语、希腊语、印地语、德语、日语等在内的多种语言。


支持超过50种语言的动态、实时文本到语音输出是一个重大的技术飞跃。此前,主要竞争对手的类似AI驱动的音频功能通常仅限于几种广泛使用的语言,主要是因为高质量语音合成算法的调试复杂性和高要求。谷歌将其在“深度学习和多语言语言建模”方面的进步归功于此次扩展的关键推动力。用户可以通过平台的设置激活其首选语言:通过访问“输出语言”菜单,从广泛的列表中选择一种语言并应用更改,AI生成的摘要将以所选语言开始播放。



02

用户体验与市场覆盖

对于仍处于谷歌实验室早期实验阶段的NotebookLM来说,此次升级显著扩大了其潜在用户群体。从南美洲到欧洲再到亚洲,专业人士、学生以及任何跨语言工作的人都可以使用母语访问AI生成的见解。根据谷歌的公告,该功能的语言选项非常容易启用:用户登录NotebookLM,进入设置,并在清晰标记的菜单中选择所需的输出语言。


像9to5Google和TechRadar这样的科技博客指出,这使得NotebookLM远远领先于其直接竞争对手——大多数AI摘要工具仅提供有限的多语言支持,很少有工具能够在数十种语言中提供合成音频。


03

可访问性与全球AI竞争

时机值得注意。随着生成式AI在全球知识工作中变得越来越重要——从教育到法律、科学、出版等——科技巨头们正在竞相全面服务非英语用户。根据联合国教科文组织的一份报告,全球大约有6000种语言,超过60%的全球人口在家中使用非英语语言。通过为NotebookLM配备广泛的音频语言支持,谷歌不仅增加了可访问性,还可能赢得一个尚未被AI工具充分服务的庞大、语言多样化的用户群体的忠诚度。



04

AI的未来:多语言者,而非守门人

谷歌的更新与一个日益增长的行业趋势相吻合:让高级AI不仅通过文本翻译实现包容性,还能在语音中真正实现本土化。TechRadar将这些多语言AI描述为“多语言者”,强调最先进的系统如何根据所选语言调整其个性、声音甚至文化背景。然而,挑战仍然存在。尽管取得了技术进步,但NotebookLM仍然是一个实验室产品——实验性、偶尔会出现故障,尚未获得企业认证。此外,某些地区的用户可能会根据谷歌在其选择的语言中的训练数据的丰富程度,体验不同程度的音频保真度;与所有合成语音工具一样,细微之处可能会在翻译中丢失。


05

接下来会发生什么

随着谷歌继续完善NotebookLM的能力,行业观察人士预计其在准确性和语言广度方面将取得更快的进展。凭借最新举措,谷歌已牢牢占据对话式AI领域的前沿,向其他科技巨头发出信号:多语言性是全球采用的必备条件。目前,NotebookLM的多语言音频摘要让我们得以一窥一个AI的未来,在这个未来中,语言不再是障碍,而是桥梁——一个世界上的信息,无论哪种主要语言,总有一天可能只是一次简单的设置调整之遥。


06

去年至今的进展与实际应用场景

去年,谷歌将NotebookLM扩展到200多个国家和地区,如今又将“音频概览”功能扩展到超过50种语言。“音频概览”功能可以将你的资料转化为引人入胜、类似播客的对话形式,自去年年底推出以来就广受欢迎。现在,得益于Gemini的原生音频支持,更多人可以用他们偏好的语言使用“音频概览”,无论是南非语、印地语还是土耳其语——以及更多语言。这只是一个初步展示该功能的可能性——谷歌计划根据用户的反馈继续完善它。



音频概览将根据用户账户设置的首选语言生成。此次更新还在NotebookLM的设置中引入了一个新的“输出语言”选项;用户在这里选择的语言将用于生成音频概览。用户可以随时更改语言,音频和聊天回应也会相应调整,这使得创建多语言内容或学习材料变得更加轻松。例如,一位准备关于亚马逊雨林课程的教师可以与学生们分享多种语言的资料——比如葡萄牙语的纪录片、西班牙语的研究论文以及英语的学习报告。学生们可以上传这些资料,并在他们偏好的语言中生成关键要点的音频概览。这一功能打破了语言障碍,让信息对每个人更加易于获取。


07

企业AI应用的未来趋势

越来越多的公司专注于推出能够简化用户流程、让生活更轻松的AI项目。谷歌一直积极致力于开发让日常任务更易于执行的更新。其中最令人印象深刻的功能之一是NotebookLM推出的“音频概览”,它本质上为用户提供了长篇且密集内容的AI驱动的摘要版本,就像一个迷你播客。尽管该功能已经非常实用,但谷歌上个月通过将其整合到Gemini中,使其更易于访问。如今,这家科技巨头正在大力扩展对“音频概览”的支持,目标是让该工具的使用范围更加广泛。

谷歌为“音频概览”提供超过50种语言的支持,无论用户说什么语言,都能让虚拟播客理解他们。虽然“音频概览”最初是与NotebookLM一起推出的,但谷歌现在已经将其引入Gemini应用程序,使该功能更加易于获取。然而,谷歌似乎正在更努力地推动这一AI功能,不仅使其更加直观和人性化,还要使其更加易于访问,以便用户能够无缝地与之互动。



谷歌现在正在推出多达50种语言的支持,目标是通过让虚拟播客几乎涵盖所有语言,满足全球大多数用户的需求。尽管人们可能会认为增加支持的语言会使得任务变得复杂,但实际上并非如此,因为NotebookLM在切换不同语言时非常流畅,并且很好地处理了这一新功能的添加。谷歌增加了一个专门的输出语言设置,以便用户在选择“音频概览”呈现AI生成的摘要时没有任何困难。如果你使用该功能的项目面向多语言受众,这尤其方便。你无需每次都浏览文档以满足不同群体的需求,而是可以直接切换现已独立提供的输出语言设置。


谷歌通过增加语言支持和升级输出语言选项,使该功能能够面向更广泛的受众。如果你有兴趣尝试这一功能,操作过程并不复杂。你可以打开NotebookLM,添加一些相关文档,让该功能为你提供类似播客的摘要。更实用的是,你可以通过提问来引导对话,让工具知道需要关注的重点。通过引入这一智能升级,谷歌如今正在帮助用户真正拥有多语言的“讲述者”,帮助他们用自己熟悉的语言和方式来分解信息。


(文:AI音频时代)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往