
空间音频的世界不断发展,新技术不断涌现,能够提供更具沉浸感和逼真的声音体验。该领域的一个关键挑战是环境声编码,这是一种用于捕捉和再现多方向声音的技术。
如今,一项新的创新成果问世:Nokia与坦佩雷大学合作,推出了一种新技术,彻底改变了沉浸式音频的捕捉和处理方式,在提升空间音频性能的同时显著降低了开发成本。这不仅将为空间音频录音开辟新的可能性,还将加速先进沉浸式体验在当今设备上的采用。
1
现代空间音频捕捉的挑战
录制空间音频一直是一个僵化的流程。现有的基于机器学习的编码方法往往难以准确捕捉全频段的声音,导致声音体验失真且不真实。即使是最新的基于人工智能的音频捕捉解决方案,也需要针对每种麦克风阵列配置进行特定的训练,这使得它们不够灵活且耗时。
这些缺点构成了空间音频技术广泛采用的重大障碍,尤其是在虚拟现实和沉浸式通信等新兴应用中。

2
为空间音频打造通用转换器
为了克服这些限制,Nokia开发了一种新的基于深度神经网络(DNN)的环境声编码方法。其解决方案是首创的,能够自动适应不同的麦克风阵列排列,无需重新训练。可以将其视为空间音频的通用转换器——一个可以与几乎所有麦克风设置配合使用的系统。
3
U-Net设计
Nokia采用的方法关键在于U-Net架构,这是一种独特的双系统,能够处理麦克风的物理排列(或麦克风几何形状)以及它们捕捉到的音频信号。
该系统的主要组件包括:
-
几何编码器,用于理解麦克风的物理布局;
-
信号处理器,用于处理实际的音频数据;
通过学习麦克风几何形状与音频信号之间的关系,Nokia的神经网络能够在不同的麦克风配置中保持高质量的音频处理,并且无需重新训练即可适应不同的排列。对于基于深度神经网络(DNN)的解决方案来说,这一点一直具有挑战性。

4
实际表现
在受控环境中对其DNN解决方案进行测试,结果显示其表现令人印象深刻,其在准确性和处理空间音频信息方面超越了传统捕捉方法。Nokia的技术在无回声条件下表现出色,能够在各种麦克风排列中持续提供高质量的结果。尽管在混响环境中(想想回声强烈的房间)存在挑战,但其系统在保持跨频率的一致性能方面仍然优于传统方法。
5
行业影响
这一突破对虚拟现实和增强现实等行业具有深远影响,能够通过灵活的音频捕捉实现更具沉浸感的体验。电信行业也可以从视频会议中提升的音频质量中受益,而如今的移动设备可以利用现有硬件实现更好的空间音频捕捉。
展望未来,Nokia预计进一步的发展将集中在提高在混响条件下的性能和改善对多个声源的处理上,为未来的更具影响力的应用铺平道路。

6
空间音频录制的根本性转变
这一发展不仅仅是一项技术改进——它是Nokia在处理空间音频录制方式上实现的根本性转变。能够在不同的麦克风配置中使用一个系统,可能会显著降低开发成本和复杂性,同时提高音频质量。
对于消费者来说,这意味着他们的设备上可以享受到更好的沉浸式音频体验。它还可以为5G高级沉浸式语音和音频服务(IVAS)提供新的可能性,使空间音频编码过程能够轻松适应新设备。对于开发人员和内容创作者来说,它提供了在不降低音频质量的情况下更多硬件选择的灵活性。对于整个行业来说,它代表了朝着更标准化和更易获取的空间音频解决方案迈出的一步。

Nokia的研究表明,人工智能可以以新颖的方式解决现实世界的音频工程挑战,为空间音频技术的创新打开了大门。随着虚拟现实和增强现实的不断发展,音频处理方面的这些进步对于创造真正沉浸式的体验将变得越来越重要。
这项研究不仅是一项技术成就,而且是空间音频处理长期挑战的一个实用解决方案,为更灵活和易获取的沉浸式音频技术铺平了道路。
在前几年快速发展的空间音频技术获得AI的加持后,也许能得到真正的突破,这可能是为人类服务音频技术最后的一块拼图。
(文:AI音频时代)