在2025年的NAB展会上,人工智能(AI)技术成为了一个核心焦点,众多参展商展示了AI在音频制作、内容创作和媒体工作流程中的创新应用。
有关更多NAB详情可看我们之前的报道:
NAB 2025 第一期 带你参观各大麦克风品牌
NAB 2025 第二期——带你欣赏各大录音设备
NAB 2025 第三期:后期制作与AI音频技术引领行业新趋势

Telos Alliance在展会上展示了其Minnetonka Audio AudioTools Server文件基础音频自动化平台的AI驱动新功能。这些新功能是AudioTools Server重大软件更新ATS V7的一部分,旨在利用下一代音频的个性化功能,引入对话清晰度测量能力(这是音频相关投诉的首要问题),并计划在今年晚些时候发布。

Telos Alliance的执行副总裁Marty Sacks解释说:“清晰度是一个巨大的问题,特别是随着屏幕尺寸变小。我们还非常兴奋的是,帮助跨多种语言创作内容的人能够弄清楚如何将正确的内容分配到正确的频道,这是我们与Fraunhofer研究所合作的一部分,使用他们开发的算法。”
全球领先的AI驱动字幕和语言技术提供商AI-Media (ASX: AIM),于2025年4月14日在拉斯维加斯举办的NAB展会上宣布了其突破性产品LEXI Voice的商业发布。这款创新的AI语音翻译解决方案能够实时提供替代语言音轨,吸引了全球广播公司、现场活动制作商、流媒体平台以及企业领袖的高度关注。

LEXI Voice的推出标志着实时翻译领域的一大进步。它能够将单一语言的广播转化为多语种体验,提供自然流畅的合成语音,具备超低延迟(约8 – 12秒),且无需额外硬件即可使用。这不仅扩大了受众范围,增加了广告收入,还显著降低了与传统人工翻译相比的成本。
LEXI Voice的战略差异化亮点:
-
价格优势:定价为每小时30美元(另加标准字幕费用),可将实时翻译成本降低高达90%。
-
平台覆盖面:与AI-Media的全球编码器网络无缝兼容,包括Alta(SMPTE 2110和MPEG-TS)、Encoder Pro – HD492(SDI)和iCap,现有客户无需任何新的基础设施。
-
广播级音质:客户对AI输出内容的自然语调、可懂度和扬声器清晰度赞赏有加。
-
即插即用:与现有字幕工作流程具有相同的调度、API、账单管理和技术支持。
即刻可用的功能:
-
翻译成100多种语言。
-
根据地区、性别和语调定制语音。
-
词汇表和语音工具,确保品牌和名称的一致性。
-
使用AI语音替换原始音频,并实现全混音。
-
每个频道支持多达五种语言音轨。
实际应用已在进行中
-
跨国广播公司:对体育、新闻和娱乐内容进行本地化,以拓展新广告资源。
-
各国政府和立法机构:为公众会议提供包容性语言服务。
-
各大企业:扩大内部员工大会和投资者沟通的覆盖面。
-
流媒体平台和活动:面向全球各类用户提升可访问性。
此次发布与AI-Media的战略路线图相一致,即到2029财年实现技术收入增加两倍,息税折旧及摊销前利润(EBITDA)达到6000万美元。该公司专注于通过其不断扩展的LEXI工具包来推动软件即服务(SaaS)业务的增长,目前此工具包中包含LEXI Voice、LEXI Brew(生成式AI)和LEXI Translate。
Lawo的算法驱动的Kick球追踪技术预示了AI在广播中的潜在应用。Lawo的首席营销官Andreas Hilmer认为,AI在广播中的未来可能更多地是在后台而不是混音控制台后面,一些人员不足的广播公司曾希望它能填补空缺。

Riedel的Smart Audio and Mixing Engine(SAME)是展会中的另一个亮点。SAME不是单纯的技术展示,而是一个工作流程增强工具,提供30多种先进的音频处理工具和混音器,包括自动电平控制、动态均衡、5.1上混、响度表和信号分析器等,适用于配音、自动混音、音频监控和在线流程插入。
RTS Intercom Systems推出了NOMAD无线对讲和RVOC混合云解决方案。RTS的项目经理Mike Keiffer指出,AI在对讲系统中的应用包括AI驱动的语言翻译,这在大型体育赛事中尤其有用,可以实现评论员用一种语言说话,而观众可以听到多达20种语言的实时翻译。

AudioShake则展示了其音频分离技术,特别是在音乐领域的应用,例如如何从声音场景中移除音乐,以避免因无意的版权侵犯而引发的诉讼。

Deepdub 推出了 Deepdub Live,这是一款专为现场体育、电子竞技和突发新闻报道设计的实时多语言配音解决方案。Deepdub Live 仅提供音频服务,但对于广播公司来说是一个重大的进步。Deepdub Live 由公司专有的情感文本到语音(eTTS)引擎提供支持,提供富有表现力、情感细腻的配音,公司声称这些配音与母语制作几乎一样。eTTS 系统会动态调整音调、强度和能量,以匹配现场活动的情感节奏,无论是突发新闻的紧迫感还是体育决赛的激动人心。广播公司可以选择使用原始演讲者的 AI 克隆声音,或从 Deepdub 的授权声音库中选择,所有声音均已获得广播和流媒体播放许可。该平台专为企业部署而构建,由 API 驱动,支持超过 100 种语言和方言,具有超低延迟和帧精确同步,确保实时提供无缝、高质量的多语言体验。
尽管Dolby Atmos等格式在过去十年中不断完善其软件,专业音频制造商也推出了大量硬件,如Audio-Technica展示的8通道BP3600麦克风,但沉浸式音频的市场仍在发展中。Audio-Technica的广播业务发展总监Gary Dixon指出,将沉浸式音频传递给最终用户是一个挑战,因为用户可能在多种设备上观看内容,从家庭的大屏幕到移动设备。

Audinate的首席营销官Josh Rush指出,数字网络产生的大量数据正在创造新的痛点,而Audinate的Dante格式未来可能会利用AI来解决这些问题。他提到,Dante目前能够提供设备信息和网络利用率等数据,但未来的目标是变得更加预测性,通过分析数据来预测潜在问题并提前通知用户。
NAB 2025展示了人工智能在音频和媒体制作中的广泛潜力,从自动化音频处理到多语言翻译和沉浸式音频的改进。随着技术的不断进步,AI有望为广播和媒体行业带来更高效、更智能的工作流程和更个性化的用户体验。


(文:AI音频时代)