Conception

Audio spatial

Mis à jour: 10 juin 2025

La spatialisation est un élément essentiel du son en immersion complète : elle désigne la capacité à émettre un son qui semble positionné en un point spécifique de l’espace tridimensionnel. L’audio spatial est essentiel pour offrir une expérience immersive, car il fournit des indices solides qui donnent à l’utilisateur ou à l’utilisatrice l’impression d’être réellement dans l’environnement 3D.

Les deux éléments clés de la spatialisation sont la direction et la distance. Ce guide présente ces deux aspects, ainsi que les technologies associées.

Localisation et système auditif humain

Dans le contexte des expériences immersives, la localisation désigne la capacité du cerveau à déterminer la localisation 3D du son dans le monde réel. Bien qu’ils n’aient que deux oreilles, les humains sont capables de déterminer la position 3D des sons qui les entourent. Ils s’appuient sur des indices sonores tels que le moment où le son est émis, la phase de l’onde sonore, le niveau sonore et les modifications spectrales pour identifier la localisation d’un son donné.

Cette section explique comment les humains localisent les sons et peuvent donc utiliser cette compétence pour gérer la spatialisation dans les applications immersives. Elle décrit également comment utiliser un son monophonique et transformer son signal pour qu’il semble provenir d’un point spécifique dans l’espace 3D.

Localisation directionnelle

Les indices utilisés par les humains pour déterminer la direction d’une source sonore sont présentés ci-dessous.

Latérale

La localisation latérale d’un son est le type de localisation le plus simple. Lorsqu’un son provient plutôt de la gauche, l’oreille gauche l’entend avant l’oreille droite et le perçoit plus clairement. D’une manière générale, plus le son est perçu de manière similaire par les deux oreilles, plus il est centré.

Il convient toutefois de noter quelques détails intéressants. Tout d’abord, il est possible de localiser un son en fonction du temps écoulé jusqu’à son arrivée dans chacune des deux oreilles, aussi appelé « différence de temps interaurale » (ITD pour Interaural Time Difference). Il est également possible de localiser un son en fonction de la différence de niveau de volume dans chacune des deux oreilles, aussi appelée « différence de niveau interaural » (ILD pour Interaural Level Difference). La technique de localisation repose en majeure partie sur la fréquence du signal.

En dessous d’une certaine fréquence (entre 500 et 800 Hz, selon la source), les sons sont difficiles à distinguer en fonction de leur niveau. Cependant, les sons dans cette gamme de fréquences ont des demi-longueurs d’onde plus longues que les dimensions de la tête humaine, ce qui nous permet de nous appuyer sur des informations temporelles (ou une phase) entre les oreilles sans confusion.

À l’autre extrémité, les sons dans des fréquences supérieures à environ 1500 Hz ont des demi-longueurs d’onde plus courtes que les dimensions de la tête. Les informations liées à la phase ne sont donc plus fiables pour localiser le son. À ces fréquences, les humains s’appuient sur les différences de niveau provoquées par l’effet d’ombre de la tête, autrement dit l’atténuation du son qui résulte du fait que la tête est placée devant l’oreille la plus éloignée.

Visualisation de l’effet d’ombre de la tête, ou atténuation du son résultant de la position de la tête, placée devant l’oreille la plus éloignée de la source du son.

Il faut également tenir compte de la différence de perception du moment où le signal apparaît. Lorsqu’un son retentit, la première oreille qui l’entend joue un rôle important dans la détermination de sa position. Il existe une zone de transition entre ~800 Hz et ~1500 Hz dans laquelle les différences de niveau et les différences de temps sont utilisées pour la localisation.

Avant/arrière/élévation

La localisation avant/arrière est beaucoup plus difficile à déterminer que la localisation latérale. Les humains ne peuvent pas s’appuyer sur les différences de temps, car les différences de temps et/ou de niveau interaurales peuvent être nulles pour un son émis devant ou derrière la personne qui l’entend.

Dans la figure suivante, vous pouvez constater que les sons émis en A et en B sont impossibles à distinguer l’un de l’autre, car ils sont émis à la même distance des deux oreilles. Aucune différence de niveau ni de temps n’est donc perceptible.

Visualisation d’une ambiguïté avant/arrière montrant qu’une personne est incapable de distinguer deux sons identiques émis devant et derrière elle.

Les humains s’appuient sur la modification spectrale des sons générée par la tête et le corps pour lever cette ambiguïté. Ces modifications spectrales sont des filtres et des reflets du son générés par la forme et la taille de la tête, du cou, des épaules, du torse, et surtout, des oreilles externes (ou pavillons). Parce que les sons provenant de différentes directions interagissent différemment avec la géométrie de notre corps, nos cerveaux utilisent une modification spectrale pour déduire la direction de l’origine du son. Par exemple, les sons arrivant par l’avant produisent des résonances créées par l’intérieur de notre pavillon, tandis que les sons arrivant par l’arrière sont affectés par l’effet d’ombre du pavillon. De même, les sons arrivant du dessus peuvent être réfléchis par les épaules tandis que ceux arrivant du dessous sont affectés par l’effet d’ombre de notre torse et nos épaules.

Ces réflexions et ces effets d’ombre se combinent pour créer un filtre de sélectivité de direction.

Mouvement de la tête

Le simple fait de tourner la tête transforme les problèmes complexes d’ambiguïté avant/arrière en problèmes de localisation latérale qu’un humain est mieux à même de résoudre.

Dans la figure suivante, aucune différence de niveau ou de temps ne permet de distinguer les sons émis en A et B, dans la mesure où ils sont identiques. En tournant légèrement la tête, la personne qui entend ces sons modifie les différences de temps et de niveau entre les oreilles, ce qui permet de lever l’ambiguïté sur la position du son. D1 est plus proche que D2, ce qui indique à la personne que le son est maintenant plus proche de la gauche, et donc qu’il provient de derrière elle.

Visualisation montrant comment un mouvement de la tête peut lever une ambiguïté concernant la localisation de sons provenant de l’avant et de l’arrière.

De même, le fait de pencher la tête peut aider à lever une ambiguïté sur la position verticale des objets. Sur la figure suivante, la personne penche sa tête, ce qui permet de raccourcir le son D1 et d’allonger le son D2. Elle peut ainsi déterminer que le son arrive du dessus de sa tête plutôt qu’en dessous.

Visualisation montrant comment le fait de pencher la tête sur le côté peut aider à déterminer si un son provient d’en haut ou d’en bas.

Les sons perçus par les humains sont directement affectés par la forme et la géométrie de leur corps (en particulier celles de leurs oreilles), ainsi que par la direction du son entrant. Ces deux éléments, c’est-à-dire notre corps et la direction de la source sonore, constituent la base des fonctions de transfert liées à la tête (HRTF), qui sont des filtres que nous utilisons pour localiser le son. Un filtre de sélectivité de direction peut être encodé sous forme de fonction HRTF. La fonction HRTF est la pierre angulaire des techniques modernes de spatialisation du son 3D.

Capture des HRTF

La méthode de capture des HRTF la plus précise consiste à choisir un sujet, à mettre un micro dans chacune de ses oreilles (juste à l’extérieur du canal auditif), à placer le sujet dans une chambre anéchoïque (une pièce sans écho), à diffuser dans cette chambre des sons provenant de toutes directions identifiées comme importantes pour l’expérience que vous créez, et à enregistrer ces sons à l’aide des micros installés dans les oreilles. Vous comparez alors le son original avec le son capturé et calculez la fonction de transfert, c’est-à-dire la fonction de transfert liée à la tête.

Effectuez cette opération pour les deux oreilles, puis capturez des sons provenant d’un nombre suffisant de directions distinctes pour constituer un ensemble d’échantillons utilisable. Cette procédure n’a toutefois permis de capturer que les HRTF d’une personne en particulier. Bien que les HRTF soient personnelles, elles sont suffisamment similaires les unes aux autres pour qu’un ensemble de référence générique convienne à la plupart des situations, en particulier lorsqu’il est associé au suivi de la tête.

La plupart des implémentations de spatialisation basées sur les HRTF utilisent l’un des quelques ensembles de données accessibles au public, comme ceux décrits ci-dessous. Ces données sont saisies soit à partir d'une série de sujets humains, soit à partir d'un modèle de tête synthétique tel que le KEMAR.

Base de données d’écoute de l’IRCAM⁠

MIT KEMAR⁠

Base de données HRTF CIPIC⁠

Base de données HRTF ARI (Acoustics Research Institute)⁠

La plupart des bases de données HRTF n'incluent pas de HRTF dans toutes les directions. Par exemple, il y a souvent un grand espace représentant la zone située sous la tête du sujet, car il est difficile, voire impossible, de placer un haut-parleur à un mètre directement sous la tête d'une personne. Certaines bases de données HRTF sont peu échantillonnées et ne comprennent des HRTF que tous les 5 ou 15 degrés.

La plupart des implémentations se calent sur la HRTF acquise la plus proche (qui présente des discontinuités audibles) ou utilisent une méthode d'interpolation de la HRTF. Il s'agit d'un domaine de recherche en cours, mais pour les applications immersives sur les ordinateurs de bureau, il suffit généralement de trouver et d'utiliser un ensemble de données suffisamment dense.

Application des HRTF

Étant donné un ensemble de HRTF, si l’origine apparente d’un son est connue, sélectionnez une HRTF appropriée et appliquez-la à ce son. Cette opération prend généralement la forme d’une convolution dans le domaine temporel ou dans le domaine fréquentiel à l’aide de la transformée de Fourier rapide. Comme les HRTF prennent en compte la géométrie de la tête de la personne qui entend le son, il est important d’utiliser un casque lors de la spatialisation. Sans casque, vous appliquez en fait deux HRTF : la HRTF simulée et la HRTF réelle causée par la géométrie de votre corps.

Suivi de la tête

Toute personne qui entend un son bouge instinctivement la tête pour lever l’ambiguïté relative à son origine et fixer le son dans l’espace. Si cette possibilité est supprimée, sa capacité à localiser les sons dans l’espace diminue, en particulier en ce qui concerne les mouvements vers le haut/le bas et vers l’avant/l’arrière. Même en ignorant la localisation, si nous sommes incapables de compenser les mouvements de la tête, la reproduction sonore sera au mieux médiocre. Lorsqu’une personne qui entend un son tourne la tête de 45 degrés sur le côté, vous devez proposer une réponse audio précise, sans quoi l’effet d’immersion disparaîtra.

Les casques immersifs tels que le Meta Quest permettent de suivre l’orientation et la position de la tête de la personne qui entend le son. En fournissant ces informations à un ensemble de sons, vous pouvez modifier l’audio spatial pour donner l’impression que le son est ancré dans le monde virtuel à mesure que l’utilisateur ou l’utilisatrice se déplace dans l’espace (cela suppose que celui-ci ou celle-ci porte un casque). Il est possible d’imiter cet effet à l’aide d’un réseau de haut-parleurs, qui sera toutefois nettement moins fiable, plus encombrant et plus difficile à mettre en place, et donc peu pratique pour la plupart des applications immersives.

Localisation distancielle et modélisation de la distance

Les fonctions ILD, ITD et HRTF nous aident à déterminer la direction d’une source sonore, mais elles donnent assez peu d’indices pour déterminer la distance d’un son. Utilisez une combinaison des facteurs suivants pour déterminer la distance :

Volume

Le volume est l’indicateur de distance le plus évident, mais il peut être trompeur. Sans cadre de référence, la personne qui entend le son ne peut pas déterminer dans quelle mesure le volume a faibli par rapport à sa source, et ne peut donc pas estimer de distance. Heureusement, de nombreuses sources sonores présentes dans la vie courante sont bien connues : instruments de musique, voix humaine, animaux, véhicules, etc. Vous pouvez donc évaluer ces distances à peu près correctement. Pour les sons synthétiques ou inconnus, il se peut que la personne qui entend le son n’ait pas de cadre de référence et doive se fier à d’autres indicateurs ou aux changements de volume relatifs pour déterminer si le son s’approche ou s’éloigne.

Délai initial

Le délai initial décrit l’intervalle entre le son direct et sa première réflexion. Si la source est proche, le son direct arrive immédiatement et le délai est plus long entre le son direct et l’arrivée de la première réflexion. Si un son est plus proche d’un mur, le délai entre le son direct et le son réfléchi est raccourci.

Visualisation du délai initial : le son direct arrive immédiatement tandis que l’autre rebondit d’abord sur une surface.

Les chambres anéchoïques (sans écho) ou les environnements ouverts tels que les déserts peuvent ne pas générer de réflexions identifiables, ce qui complique l’estimation des distances. Le délai initial est beaucoup plus difficile à modéliser que l’intensité sonore, car il suppose de calculer les premières réflexions pour un ensemble donné de géométries et de prendre en compte les caractéristiques de ces géométries. Cette opération est à la fois coûteuse en termes de calcul et difficile à implémenter sur le plan architectural (l’envoi de la géométrie de l’univers virtuel à une API de niveau inférieur est souvent complexe).

Rapport entre le son direct et la réverbération

Dans un environnement réverbérant, il existe une longue queue sonore diffuse composée de l’ensemble des derniers échos qui interagissent, rebondissent sur les surfaces et disparaissent lentement. Plus le son entendu est perçu comme un son direct et non comme ses dernières réverbérations, plus la personne qui l’entend supposera qu’il est proche.

Un son direct à réverbérant (mixage des sons bruts/traités) est un sous-produit naturel de tout système qui tente de modéliser avec précision les réflexions et les dernières réverbérations. Malheureusement, ces systèmes ont tendance à être très coûteux sur le plan informatique. Avec les modèles ad hoc basés sur des réverbérateurs artificiels, le réglage du mixage peut être ajusté dans le logiciel, mais il s’agit de modèles strictement empiriques.

Remarque : cette propriété est utilisée par les ingénieurs du son depuis des décennies pour déplacer un instrument de musique, ou repousser la voix d’un chanteur « vers l’avant » ou « vers l’arrière » d’une chanson en ajustant le « mixage » d’une réverbération artificielle.

Parallaxe de mouvement

La parallaxe de mouvement (mouvement apparent d’une source sonore par rapport à l’espace) indique la distance, car les sons proches affichent généralement un degré de parallaxe plus élevé que les sons lointains. Par exemple, un insecte proche peut passer très rapidement de la gauche à la droite de votre tête, mais un avion lointain peut avoir besoin de plusieurs secondes pour faire de même. Par conséquent, si une source sonore se déplace rapidement par rapport à une perspective stationnaire, l’humain a tendance à percevoir ce son comme ayant sa source à proximité. Lorsque de petits mouvements de la tête sont effectués, l’amplitude des changements de direction nous renseigne sur la distance des sons.

Atténuation des hautes fréquences et absorption de l’air

L’atténuation des hautes fréquences due à l’absorption de l’air est un effet mineur, mais il est raisonnablement facile à modéliser en appliquant un simple filtre passe-bas. Dans la pratique, l’atténuation HF n’est pas très importante par rapport aux autres indices de distance. Les hautes fréquences s’atténuent plus rapidement que les basses fréquences. Sur de longues distances, il est donc possible de déterminer approximativement la distance en fonction de l’atténuation de ces hautes fréquences. Les sons doivent parcourir des centaines, voire des milliers, de mètres avant que les hautes fréquences ne soient sensiblement atténuées (c’est-à-dire bien au-dessus de 10 kHz). Ce phénomène est également affecté par les conditions atmosphériques, telles que la température et l’humidité.