沉浸式声音
更新时间: 2026年3月11日
沉浸式声音提供动感且真实的声音体验。这是一个广泛的话题,涵盖了音频的许多不同方面。它通过使用
空间音频技术以及对
室内声场准确建模来模拟日常听觉。这使听众产生一种引人入胜且栩栩如生的连接感。此外,以下术语是在体验中融入沉浸式声音设计所需的重要功能模块:
- 声音设计是设计沉浸式声音环境的创意过程,可让最终用户获得引人入胜的音频体验。而声音环境则是在特定环境下听到的所有声音的集合。
- 将声音组合在一起的过程就是混音。对于音乐和电影等线性媒体,混音过程涉及为每条音轨设定合适的音量、平移和混响效果。在沉浸式体验中,混音更加复杂,因为声音环境是动态的,且听众可能处于运动状态。
本页面将介绍更多与声音设计有关的高级概念以及沉浸式声音环境混音最佳实践。
用于互动式非沉浸式体验混音的工具通常涉及由方向驱动的自动平移,且音量通过基于距离的曲线控制;此外,存在多种动态混响解决方案。在沉浸式体验中,声音环境是
动态的;音量和平移受声音方向和距离的影响。平移已被替换为
头部相关传输函数 (HRTF),与平移相比,HRTF 可提供更准确的方向提示。通过对音量如何随距离而变化以及如何处理混响效果进行仔细考量,也可以实现更准确的距离线索。
对于非沉浸式体验而言,其音频可能会在低音质桌面扬声器、全环绕高保真系统或不同音质的耳机等系统中播放。由于必须兼容多种音频系统,因此声音再现存在较大差异,声音设计和混音的重点是确保在所有系统中都能呈现良好的效果。沉浸式设备通常会内置耳机,从而提供更加稳定的声音再现。再结合头部追踪,便可实现更具沉浸感的空间音频。
建议您遵循以下最佳实践:
- 准确定位声源的声场。
- 构建一个既不拥挤也不空旷的声音环境。
- 避免用户产生疲劳感。
- 调整音量至适宜长时间聆听的水平。
- 设计时考虑恰当的房间布局和环境效果。
大多数空间化技术将声源建模为无限小的点源。声音被视为来自空间中的单个点,而不是大面积区域。因此,应将大多数声音作为单声道(单一通道)来源加以创作。
正弦波等纯音缺乏谐波或泛音,这会出现多个问题:
- 纯音在现实世界中并不常见,所以它们听起来往往不自然。这并不意味着应该完全避免使用纯音,因为许多沉浸式体验本就是抽象的,这一点值得留意。
- 头部相关传输函数 (HRTF) 通过对频率成分进行滤波来实现,但纯音缺少此类成分,因此难以通过 HRTF 进行空间化
- HRTF 过程中的任何故障或不连续性都更容易被听到,因为没有额外的频率内容来掩盖伪影。在空间化实现中,移动的正弦波往往会产生最差的效果。
纯音对空间化而言并不理想,同样出于这个原因,广谱声音(例如噪声、流水声、风声)可以非常有效地实现空间化,提供大量的频率供 HRTF 处理。它们还有助于掩盖因 HRTF、平移和衰减的动态变化造成的可以听见的故障。
除宽频谱频率外,还需确保含有显著高于 1500Hz 的频率成分,因为人类在声音定位中高度依赖此频段。低频声音难以被人耳精确定位。如果主要是低频声音(轰鸣声、蜂鸣声、振动声等),您可以避免空间化开销,改为使用平移/衰减。
对于沉浸式体验的声音设计,真实感并不一定是最终目标。请始终记住这一点。就像电脑环境中的
照明和特效一样,一致和/或“正确”的东西可能在美学上与您的
艺术方向并不一致。音频团队必须警惕,切勿将对真实感的刻板标准强加于沉浸式体验之上,最终作茧自缚。在考虑动态范围、衰减曲线和直接到达时间等问题时,尤其如此。
对于更传统的媒体,声音是使用 3D 平移定位在水平面上的。所以,从事非沉浸式体验工作的声音设计师不需要关心声音的高度,只需将声音发射器放在对象的根节点上即可。HRTF(头部相关的传输函数)空间化提供了更准确的空间提示,包括高度,随着这种精准度的提高,如果声音来自角色的错误部分,就特别值得注意。
必须将声音发射器定位在角色的正确位置(例如从脚部发出脚步声,从嘴巴发出说话声),以避免发生像“从胯部发出脚步声”或“从脚部发出说话声”这样的奇怪现象。
声源方向性模式(扬声器、人声、汽车喇叭)是 Meta XR 音频 SDK 中的一项实验功能。在 SDK 的未来版本中,这些参数可能会有所更改或被删除。但更高级别的 SDK 往往会使用基于角度的衰减来控制方向的紧密度,用这种方法对此建模。这种有向衰减应该发生在空间化效应之前。
并非所有声音都是点来源,Meta XR 音频声场定位器提供了立体声源,用于模拟需要更加扩散的声音,如瀑布声、河流声和人群声等。该声源由“源半径”参数控制,详情请参阅:
立体声音效。
多普勒效应是声音的音高随着声源的接近或远离而发生的明显变化。沉浸式体验可以根据声源和听众的相对速度来改变播放,通过这种方式来模仿这一点,但是,在这个过程中很容易无意中引入伪影。
Meta XR 音频声场定位器没有对多普勒效应的原生支持,但大多数声音系统/中间件提供了实施多普勒效应的能力。
在真实世界中,声音传送需要时间,所以在看到图像与听到声音之间往往会有明显的延迟。例如,在雷雨中,您会先看到闪电,后听到雷鸣声。对到达时间延迟建模可能会荒诞地使事情看起来不太现实,因为它引入了额外的延迟,令人感觉声音与视觉内容不同步。
Meta XR 音频声场定位器没有对到达时间的原生支持,但如果希望获得戏剧性的效果,可通过在音响系统/中间件中添加一个短暂延迟,将这种效果添加到特定的声音(如雷声)。
许多内容(例如音乐)都是采用立体声混音。由于沉浸式体验使用立体声头戴设备,因此开发者可能会倾向于播放立体声而不实施空间化。这样做的缺点是,这些立体声无法在虚拟世界中定位,也不会响应头部追踪。这使音频听起来像是“锁定到头部”。
锁定到头部的音频是一种立体声混合音频,始终固定在听众的头部空间,不会随听众在虚拟世界中的位置变化而动态调整。这会削弱空间音频体验,一般应尽可能避免。
对于原创作品,最好采用可以旋转并且不会锁定于头部的高保真环绕声混音。如果无法做到这一点,请尽量注意音乐如何影响空间音频。
性能对任何实时应用程序来说都是重要考虑因素。Meta XR 音频声场定位器经过高度优化,效率极高。但与传统的 3D 平移方法相比,将声音空间化需要一些开销。即使在有大量音频处理的情况下,也不会影响帧率,因为实时音频系统在与主图形渲染线程不同的线程中处理音频。
一般来说,您不应该过多地受到空间化性能开销的限制,但了解音频性能预算并衡量整个开发过程中的性能很重要。
虽然延迟会影响沉浸式体验的所有方面,但它通常被视为图形问题。然而,音频延迟可能是破坏性的,也可能会打破沉浸式体验。视主机系统和基础音频层的速度而定,在使用高端、低延迟音频接口的高性能个人电脑中,从缓冲区提交到可听见输出的延迟可能短至 2 ms,或者,在最糟糕的情况下,延迟会长达数百毫秒。
随着音频来源与听众头部之间的相对速度增加,高系统延迟成为一个问题。在有观众缓慢移动的相对静态的场景中,音频延迟更难检测。对大多数用户而言,大约 100ms 是可以注意到头部旋转延迟的阈值。
使用滤波、均衡、失真、镶边等特效,以增强沉浸式体验。例如,使用特效模拟以下情况:
- 使用低通滤波器模拟水下环境,其中高频能量损失比在空气中更快
- 使用失真模拟迷失方向
沉浸式体验的混音是一个涉及诸多因素的复杂话题。
混音的关键在于控制每种声音的相对音量,而且还需要考虑声音随声源和听众距离变化的衰减方式。对非沉浸式应用程序而言,控制通常依赖于声音设计者定制的距离衰减曲线。
要使关键声音在远处依然清晰可闻,同时确保非关键声音不会破坏混音效果。例如,您希望避免因用户距离过远而导致关键角色对话无法听清。此类类对话的衰减应较为缓慢,而背景中的脚步声如果不重要,则应加速衰减,甚至在一定距离外消失。
对沉浸式体验进行混音时,正确的音频线索可提升沉浸式体验,因此必须考虑这些衰减曲线对距离感知的影响。当声音离听众较远时,若其音量仍然很大,则听众可能会产生距离比实际更近的错觉,进而对沉浸式体验产生不利影响。
距离衰减的物理经验法则指出:“距离翻倍意味着强度减半”。例如,假设在 5 米时音量为 0dB,那么在 10 米时为 -6dB,20 米时为 -12dB,音量依此规律递减。
请注意:该衰减模型有时无法实现预期的效果,这时就需要略微调整物理定律,以能确保实现理想的体验。
除了音量,混响也是一个重要的距离线索。当声音来源很远时,混响比直达声更为显著,而当声音靠近时,直达声更为突出,而混响则较微弱。
营造距离感的关键是控制每种声音的混响程度。
如果您已准备好在应用中正式启动音频技术工作,请查阅以下文档: