Проектирование

Пространственный звук

Обновлено: 10 июн 2025 г.

Важнейший элемент полностью иммерсивного аудио — пространственное воспроизведение. Это возможность воспроизводить звук так, как будто он расположен в определенной точке трехмерного пространства. Пространственный звук необходим для создания эффекта погружения, поскольку он обеспечивает мощные сигналы, которые заставляют пользователя почувствовать, что он действительно находится в 3D-среде.

Существует два ключевых компонента пространственного преобразования: направление и расстояние. В этом руководстве рассматриваются оба эти компонента и технологии, которые обеспечивают их реализацию.

Локализация и слух человека

В контексте иммерсивных приложений локализация относится к способности мозга определять 3D-местоположение звука в реальном мире. Несмотря на то, что у нас всего два уха, мы можем определять 3D-расположение звуков вокруг нас. Чтобы определить местоположение звука, человеческий мозг использует звуковые ориентиры, такие как время, фаза, уровень и спектральные изменения.

В этом разделе кратко описано, как люди локализуют звук и как применить понимание этих процессов для реализации пространственного позиционирования в иммерсивном приложении, а также как использовать монофонический звук и преобразовывать его сигнал так, чтобы при воспроизведении создавалось впечатление, будто он исходит из определенной точки в 3D-пространстве.

Направленная локализация

Ниже обсуждаются ориентиры, используемые людьми для определения направления источника звука.

Латеральная локализация

Латеральная локализация звука — самый простой тип локализации. Когда звук ближе к левому уху, левое ухо воспринимает его раньше правого, и он звучит громче. Чем ближе к центру, тем более сбалансированным и центрированным звучит звук в целом.

При этом есть несколько интересных деталей. Во-первых, мы можем локализовать звук на основании задержки между его поступлением в оба уха, которая также называется межканальной временной разницей (ITD). Кроме того, мы можем локализовать звук на основании разницы в уровне громкости звука в обоих ушах, также называемой межканальной разницей в уровне (ILD). Техника локализации существенно зависит от частотного содержимого сигнала.

Звуки ниже определенной частоты (от 500 до 800 Гц, в зависимости от источника) сложно различить по уровню. Однако звуки в этом частотном диапазоне имеют половину длины волны, превышающую размеры типичной человеческой головы, что позволяет нам полагаться на информацию о времени (или фазе) между ушами без путаницы.

На другом конце спектра половины длины волны звуков с частотами выше примерно 1500 Гц будет меньше типичного размера головы человека. Информацию о фазе при этом нельзя использовать для локализации звука. На этих частотах люди полагаются на разницу уровней, вызванную эффектом затенения головой, или на затухание звука, которое происходит из-за того, что голова создает препятствие для звука на пути к дальнему уху.

Визуализация эффекта затенения головой, когда звук затухает из-за того, что голова закрывает ухо, которое находится дальше от источника.

Мы также учитываем разницу во времени начала сигнала. Ухо, которое слышит звук первым, играет ключевую роль в определении его местоположения. Существует переходная зона между примерно 800 и примерно 1500 Гц, в которой используются как разница уровней, так и временные различия для локализации.

Локализация спереди, сзади и по высоте

Локализация спереди и сзади значительно сложнее латеральной. Люди не могут опираться на временные различия, поскольку для звука, расположенного перед слушателем или сзади него, межканальные различия во времени и (или) уровне могут быть равны нулю.

На следующем рисунке можно увидеть, что звуки в точках A и B будут неотличимы друг от друга, так как они находятся на одинаковом расстоянии от обоих ушей, что приводит к одинаковым разницам уровня и времени.

Визуализация неопределенности звука спереди и сзади, демонстрирующая невозможность отличить друг от друга одинаковые звуки, поступающие спереди и сзади.

Для разрешения этой неопределенности люди используют спектральные изменения звуков, вызванные головой и телом. Эти спектральные изменения представляют собой фильтры и отражения звука, вызванные формой и размером головы, шеи, плеч, торса и особенно наружными ушами (или ушными раковинами). Поскольку звуки, исходящие из разных направлений, взаимодействуют с геометрией нашего тела по-разному, наш мозг использует спектральные изменения для определения направления происхождения звука. Например, звуки, приближающиеся спереди, вызывают резонансы, создаваемые внутренней частью наших ушных раковин, в то время как звуки сзади затеняются нашими ушными раковинами. Аналогично, звуки сверху могут отражаться от наших плеч, в то время как звуки снизу затеняются нашим торсом и плечами.

Эти отражения и эффекты затенения объединяются, чтобы создать фильтр, избирательно реагирующий на направление.

Движение головы

Просто поворачивая голову, мы превращаем сложные проблемы неопределенности звука спереди и сзади в проблемы латеральной локализации, которые решаются проще.

На следующем рисунке звуки в точках A и B не отличаются друг от друга ни по уровню, ни по времени, поскольку они идентичны. Слегка поворачивая голову, слушатель изменяет разницу во времени и уровне между ушами, что помогает устранить неопределенность в локализации звука. D1 ближе, чем D2, что указывает слушателю на то, что звук теперь ближе к левому уху, а значит, его источник находится сзади.

Визуализация, демонстрирующая, как движение головы помогает определить местоположение звука, поступающего спереди и сзади.

Аналогичным образом наклон головы может помочь устранить неопределенность положения объектов по вертикали. На следующем рисунке слушатель наклоняет голову, что приводит к уменьшению длины D1 и увеличению длины D2. Это помогает понять, что источник звука находится над головой слушателя, а не ниже.

Визуализация, демонстрирующая, как наклон головы в сторону помогает определить, откуда исходит звук: сверху или снизу.

Звуки, которые мы воспринимаем, напрямую зависят от формы и геометрии нашего тела (особенно уха), а также от направления входящего звука. Эти два элемента — наше тело и направление источника звука — составляют основу HRTF, которые служат фильтрами, используемыми для локализации звука. Фильтр для выбора направления можно закодировать в виде HRTF. HRTF выступают основой большинства современных техник пространственной локализации звука в 3D.

Захват HRTF

Самый точный метод захвата HRTF — закрепить на ушах человека (прямо за ушным каналом) пару микрофонов, поместить этого человека его в безэховую камеру (комнату без эха), воспроизвести в этой камере звуки со всех необходимых для приложения направлений и записать из с помощью закрепленных на ушах микрофонов. Затем мы можем сравнить исходный звук с записанным и вычислить передаточную функцию — HRTF.

Чтобы создать пригодный для использования набор образцов, необходимо захватить звуки с достаточного количества дискретных направлений для обоих ушей. Но при этом функции HRTF захватываются только для какого-то конкретного человека. Хотя наши HRTF индивидуальны, они достаточно похожи друг на друга, чтобы общий эталонный набор был достаточным для большинства ситуаций, особенно в сочетании с отслеживанием головы.

В большинстве реализаций пространственного анализа на основе HRTF используется один из нескольких общедоступных наборов данных, подобных описанным ниже. Они получены либо от людей, участвовавших в испытании, либо от синтетической модели головы, такой как KEMAR.

База данных прослушивания IRCAM⁠

MIT KEMAR⁠

База данных HRTF CIPIC⁠

База данных HRTF ARI (Acoustics Research Institute)⁠

Большинство баз данных HRTF не содержат HRTF во всех направлениях. Например, часто имеется большой пробел, представляющий область под головой субъекта, поскольку трудно, если вообще возможно, разместить динамик на расстоянии одного метра непосредственно под головой человека. Некоторые базы данных HRTF имеют редкую выборку, например HRTF только через каждые 5 или 15 градусов.

Большинство реализаций либо привязываются к ближайшей полученной HRTF (которая демонстрирует слышимые разрывы), либо используют какой-либо метод интерполяции HRTF. Исследования в этой области продолжаются, но для иммерсивных приложений на настольных компьютерах часто хватает найти и использовать достаточно плотный набор данных.

Применение HRTF

Если известно направление, откуда должен исходить звук, выберите соответствующую функцию из набора HRTF и примените ее к звуку. Обычно это делается либо в виде свертки во временной области, либо в виде свертки в частотной области с использованием быстрого преобразования Фурье (БПФ). Поскольку HRTF учитывают геометрию головы слушателя, при пространственной обработке важно использовать наушники. Без наушников применяется две HRTF: симулированная и реальная, обусловленная геометрией тела слушателя.

Отслеживание движений головы

Слушатели инстинктивно используют движения головы, чтобы определить и зафиксировать звук в пространстве. Лишите их этой способности, и они не смогут в полной мере определять местоположение звука в пространстве, особенно его высоту и направление при поступлении спереди или сзади. Даже если не учитывать локализацию, если слушатель не может компенсировать движение головы, то воспроизведение звука будет в лучшем случае посредственным. Когда слушатель поворачивает голову на 45 градусов в сторону, необходимо обеспечить точный звуковой отклик, иначе эффект погружения будет утрачен.

Иммерсивные гарнитуры, такие как Meta Quest, позволяют отслеживать ориентацию и положение головы слушателя. Предоставляя эту информацию звуковому пакету, вы можете обновить пространственный звук, чтобы по мере перемещения пользователя в пространстве создавать ощущение, что он находится в виртуальном мире. (При этом предполагается, что на слушателе надеты наушники.) Это можно имитировать это с помощью массива динамиков, но такой подход значительно менее надежен, более громоздок и сложен в реализации, а значит, непрактичен для большинства иммерсивных приложений.

Локализация и моделирование расстояния

ILD, ITD и HRTF помогают нам определить направление источника звука, но они предоставляют относительно ограниченные ориентиры для определения расстояния до звука. Для определения расстояния следует использовать комбинацию перечисленных ниже факторов.

Громкость

Громкость — это самый очевидный ориентир для определения расстояния, но при этом возможны ошибки. Если у слушателя нет отправной точки, он не может судить, насколько звук ослаб в громкости относительно исходной, и, следовательно, правильно оценить расстояние. К счастью, слушатели знакомы с множеством источников, с которыми они сталкиваются в жизни, таких как музыкальные инструменты, человеческий голос, животные, транспортные средства и так далее, что позволяет им достаточно точно предсказать эти расстояния. Для синтетических или незнакомых звуков у слушателей нет такой отправной точки, и им приходится полагаться на другие ориентиры или изменения относительной громкости, чтобы предсказать, приближается звук или удаляется.

Исходная задержка времени

Исходная задержка времени описывает промежуток между прямым звуком и его первым отражением. Если источник близок, прямой звук поступит немедленно, и задержка между прямым звуком и поступлением первого отражения будет длиннее. Если звук ближе к стене, прямой и отраженный звук поступят почти одновременно.

Визуализация исходной задержки: прямой звук придет немедленно, а другой сначала отразится от поверхности.

Безэховые или открытые среды, например пустыни, могут не создавать значительных отражений, что затрудняет оценку расстояний. Начальную временную задержку смоделировать значительно сложнее, чем громкость, поскольку для этого необходимо вычислить ранние отражения для заданного набора геометрии, а также характеристики этой геометрии. Это требует больших вычислительных затрат и неудобно в плане архитектуры (передача геометрии мира в API более низкого уровня часто бывает сложной).

Соотношение прямого звука и реверберации

В реверберационной среде существует длинный диффузный звуковой хвост, состоящий из всех поздних эхо, взаимодействующих друг с другом, которые отражаются от поверхностей и медленно затухают. Чем дольше мы слышим прямой звук по сравнению с поздними реверберациями, тем ближе, как мы предполагаем, он находится.

Прямой реверберационный звук (мокрый и сухой микс) — это естественный побочный продукт любой системы, которая пытается точно смоделировать отражения и позднюю реверберацию. К сожалению, такие системы, как правило, очень дороги с точки зрения вычислений. В специальных моделях, основанных на искусственных ревербераторах, настройки микса можно регулировать программным путем, но это сугубо эмпирические модели.

Примечание. Эта характеристика используется специалистами по звуку на протяжении десятилетий, чтобы переместить музыкальный инструмент или вокалиста "вперед" или "назад" в композиции путем регулировки "мокрого/сухого микса" искусственного ревербератора.

Параллакс движения

Параллакс движения (кажущееся движение источника звука через пространство) указывает на расстояние, поскольку близкие звуки обычно демонстрируют больший параллакс по сравнению с удаленными звуками. Например, близкое насекомое может быстро перемещаться слева направо относительно головы, а для находящегося дальше самолета на это может уйти несколько секунд. В результате, если источник звука перемещается быстро относительно неподвижной точки наблюдения, люди склонны воспринимать этот звук как исходящий из ближайшего положения. Величина изменения направления при небольших движениях головы помогает людям определить расстояние между звуками.

Затухание высоких частот и поглощение воздуха

Затухание высоких частот из-за поглощения воздуха — незначительный эффект, но его также достаточно легко смоделировать, применив простой низкочастотный фильтр. На практике затухание высоких частот не слишком значительно по сравнению с другими сигналами расстояния. Высокие частоты затухают быстрее, чем низкие, поэтому на больших расстояниях слушатели могут делать выводы о расстоянии на основании этого затухания. Прежде чем высокие частоты будут заметно ослаблены (т. е. значительно больше 10 кГц), звук должен преодолеть сотни или даже тысячи метров. Это также зависит от атмосферных условий, таких как температура и влажность воздуха.