Design

Stimminteraktionen

Aktualisiert: 25.07.2025
Erfahre, wie du erweiterte Erlebnisse mit Stimminteraktionen anbieten kannst. Diese Seite befasst sich mit der Stimme als Eingabemethode. Dazu werden Vorteile und Herausforderungen dieser Eingabemethode, ihre Funktionsweise, Design-Grundlagen sowie Dos und Don'ts vorgestellt.

Verwendung

Die Spracheingabe versetzt Nutzer*innen in die Lage, Geräte und Apps mit gesprochener Sprache zu steuern. Durch Fortschritte in der Spracherkennung und der Verarbeitung natürlicher Sprache ermöglicht die Spracheingabe ein freihändiges, effizientes und barrierefreies Nutzungserlebnis. Diese Modalität ist besonders wichtig für Personen mit Behinderungen, für Situationen, in denen manuelle Eingaben unpraktisch sind, oder beim Multitasking.
Die Spracheingabe sorgt für mehr Inklusivität, reduziert die kognitive Last und vereinfacht den Umgang mit Nutzungsoberflächen.

Begriffserläuterungen

Diese Begriffe werden im Zusammenhang mit diesem Thema häufig verwendet:
BegriffDefinition
Anaphorik
Im Zusammenhang mit NLP und Sprachwissenschaft bedeutet Anaphorik, dass ein Wort oder ein Satz verwendet wird, das bzw. der auf ein vorheriges Wort oder einen vorherigen Satz verweist, oft in Kombination mit Pronomen wie „er“, „sie“ oder „es“. Das Ziel der Anaphorik besteht darin, herauszufinden, worauf sich der anaphorische Ausdruck bezieht. Dies ist oft entscheidend, um die Bedeutung von Sätzen oder Texten zu verstehen. Beispiel: „Peter hat Michaela sein Buch gegeben. Es hat ihr sehr gut gefallen.“ In diesem Beispiel bezieht sich die Anapher „ihr“ auf „Michaela“, und die Anapher „es“ bezieht sich auf „sein Buch“.
Automatische Spracherkennung (Automatic Speech Recognition, ASR)
ASR ist eine Technologie, mit der Computer gesprochene Sprache in Text transkribieren können. Sie verwendet Machine-Learning-Algorithmen und statistische Modelle, um Muster in gesprochener Sprache zu erkennen und in Text umzuwandeln. ASR-Systeme können mit großen Datensätzen aus gesprochener Sprache und den entsprechenden Transkripten trainiert werden, um die Genauigkeit zu verbessern.
Barge In (Zwischenruf)
„Barge in“ oder Zwischenruf im Kontext von Unterhaltungssystemen bedeutet, dass die Nutzer*innen die Antwort oder Ausgabe eines Systems mit ihren eigenen Eingaben unterbrechen können, etwa indem sie das System unterbrechen. Mit dieser Funktion können die Nutzer*innen mühelos Fehler korrigieren, zusätzliche Informationen liefern oder die Richtung der Unterhaltung steuern.
Beamforming (Strahl-Formung)
Im Kontext der Audiosignalverarbeitung wird Beamforming eingesetzt, um die Qualität von Audiosignalen, die mit mehreren Mikrofonen erfasst wurden, zu verbessern. Beamforming kombiniert die Signale mehrerer Mikrofone, um ein virtuelles Mikrofon zu bilden, das einen bestimmten Bereich oder eine Richtung fokussiert, Hintergrundgeräusche reduziert und das Signal-Rausch-Verhältnis verbessert.
Bestätigung
Das Feedback, das den Nutzer*innen die unternommene Aktion bestätigt, nachdem ein Sprachbefehl ausgeführt wurde.
Kontextverständnis
Die Fähigkeit eines Systems, den Kontext eines Befehls zu verstehen, etwa anhand vorheriger Interaktionen und Umgebungsfaktoren.
Mehrdeutigkeitsauflösung/Disambiguierung
Die Klärung mehrdeutiger oder unklarer Sprachbefehle, oftmals durch Folgefragen oder Prompts.
Fehlerverarbeitung
Strategien für den Umgang mit Fehlern oder Fehldeutungen von Spracheingaben, etwa durch Feedback oder das Anbieten von Alternativen.
Große Sprachmodelle (Large Language Models, LLMs)
Large Language Models (LLMs) sind eine Art von KI-Modellen (künstliche Intelligenz), die mit riesigen Mengen von Textdaten trainiert werden, um Muster, Beziehungen und Strukturen in der Sprache erkennen zu können. Diese Modelle verarbeiten und generieren menschliche Sprache und sind in der Lage, vielfältige Aufgaben im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) zu erledigen.
Latenz
Die Verzögerung zwischen der Spracheingabe der Nutzer*innen und der Antwort des Systems.
Natürliche Sprachverarbeitung (Natural Language Processing, NLP)
Natural Language Processing (NLP) ist ein Teilbereich der künstlichen Intelligenz (KI), der sich mit Interaktionen zwischen Computern und Menschen mithilfe von natürlicher Sprache befasst. Dazu gehört die Entwicklung von Algorithmen, statistischen Modellen und Machine-Learning-Techniken zum Verarbeiten, Verstehen und Generieren natürlicher Sprachdaten.
Spracherkennung
Sprach- oder Stimmerkennung ist eine Technologie, mit der Computer gesprochene Sprache in Text transkribieren können. Sie verwendet Machine-Learning-Algorithmen und statistische Modelle, um Muster in gesprochener Sprache zu erkennen und in Text umzuwandeln.
Text zu Sprache
Die Fähigkeit eines Computersystems, gesprochene Wörter aus Text zu generieren. Dazu werden Techniken wie konkatenative Synthese, parametrische Synthese und generative KI verwendet.
Sprachgenerierung – Text zu Sprache
Die Fähigkeit eines Computersystems, gesprochene Wörter aus Text zu generieren. Dazu werden Techniken wie konkatenative Synthese, parametrische Synthese und generative KI verwendet.
Rundenbasierte Interaktion
Bei diesem Interaktionstyp sprechen die Nutzer*innen zunächst und warten dann auf die Antwort des Systems, bevor sie erneut sprechen.
Sprachgesteuerte Schnittstelle (Voice User Interface, VUI)
Voice User Interface (VUI) ist eine Art von Schnittstelle, bei der die Nutzer*innen ein System, ein Gerät oder eine App mit Sprachbefehlen steuern können. VUIs verwenden Spracherkennungstechnologien, um gesprochene Sprache auszuwerten und zu verarbeiten. Auf diese Weise können die Nutzer*innen ohne physische Eingaben wie Tippen oder Klicken Aufgaben ausführen, Informationen abrufen und Geräte steuern.
Wake-Word
Ein bestimmtes Wort oder ein Satz, mit dem ein Spracheingabesystem aktiviert wird, z. B. „Hey Meta“.

Technologie und ihre Funktionsweise

Dieser Abschnitt enthält eine Übersicht über Spracheingabetechnologien und beschreibt deren Funktionalität, Genauigkeit, Einschränkungen sowie Strategien für deren Überwindung. Verallgemeinert gesagt wird die Spracherkennung über das Voice SDK bereitgestellt, das die Stimme der Nutzer*innen mit den geräteinternen Mikrofonen erfasst. Dieser Prozess umfasst Folgendes:
  • Audioerfassung: Die Stimmen der Spieler*innen werden vom Headset-Mikrofon erfasst.
  • Spracherkennung: Das Audio wird mit Machine-Learning-Algorithmen verarbeitet, um gesprochene Sprache in Text umzuwandeln.
  • Absichtserkennung: Der transkribierte Text wird analysiert, um die Absichten der Spieler*innen zu identifizieren, z. B. das Ausführen eines Sprachbefehls oder das Interagieren mit einem NPC.

Aktivierungsmodell

Die Nutzer*innen brauchen einen einfachen und leicht zugänglichen Weg, um Sprachinteraktionen in deiner App zu aktivieren oder aufzurufen. Dieser Weg sollte mit dem Erscheinungsbild der App bzw. des Spiels sowie mit dem allgemeinen Interaktionsmodell übereinstimmen. Unten findest du einige Beispiele für gängige selbstdefinierte Aktivierungsmethoden.

UI-Rückmeldung

Eine UI-Rückmeldung ist eine Option in der Nutzungsoberfläche, die du für Aktivierungen verwenden kannst, z. B. ein Mikrofon-Button, ein Ausrufezeichen über dem Kopf eines Charakters usw. Gängige Anwendungsfälle sind Tastaturdiktier- oder Suchaktivitäten.
Vorteile

  • Hohe Auffindbarkeit und Zuverlässigkeit bedeuten, dass die Nutzer*innen Funktionen mühelos finden und aktivieren können.
  • Eine flache Lernkurve sorgt dafür, dass neue Nutzer*innen schnell lernen.
  • Eine gute Anpassbarkeit an Eingabegeräte sorgt dafür, dass sich Rückmeldungen leicht auf andere Geräte übertragen lassen.

Nachteile

  • Risiko der Überfrachtung: Zu viele Symbole oder Rückmeldungen können die Nutzer*innen verwirren.
  • Ein weiteres Element ist die erhöhte visuelle Dichte der Oberfläche.
  • Nicht immer erreichbar: Visuelle Elemente sind für Personen mit Sehbehinderung oder bei Verwendung von Hand-Tracking nicht immer erreichbar.

Beispiele
GIF of controller click
Controller-Klick auf Mikrofon-Button
GIF of hand-pinch
Klick auf UI-Button durch zusammengeführte Finger
GIF of direct touch
Direct Touch auf UI-Button mit Hand

Immersion

Diese Option ist oft sehr effektiv und natürlich, wenn sie im Kontext eines Spiels verwendet wird. Gängige Beispiele sind das Reiben einer Zauberlampe, sich vor einen Zauberspiegel stellen oder mit einem Non-Player Character (NPC) sprechen. Diese Option kommt hauptsächlich im Gameplay mit Sprachsteuerung zum Einsatz.
Vorteile

  • Bewahrt die Immersion durch nahtlose Integration in die normale Aktivität der Nutzer*innen und sorgt für einen unterbrechungsfreien Spielfluss.
  • Verbessert sprachgesteuertes Gameplay und neuartige Interaktionen, bei denen sich die Nutzer*innen auf das Spiel konzentrieren können.
  • Durch die kontextgesteuerte Verfügbarkeit ist das System nur bei Bedarf verfügbar und minimiert versehentliche Aktivierungen.

Nachteile

  • Die Auffindbarkeit ist nicht immer optimal. Die Nutzer*innen können manche Optionen verpassen, wenn sie nicht wissen, dass sie existieren. Womöglich laufen sie beispielsweise an einem NPC vorbei, mit dem sie andernfalls interagieren würden.
  • Es ist schwierig, Zustände zu vermitteln.
  • Transparenz ist entscheidend, um die Zuverlässigkeit von Apps oder Spielen zu wahren, wird jedoch durch die virtuelle Aktivierung erschwert.

Blick

Diese Option verwendet die First-Person-Perspektive und Eye-Tracking als Aktivierungsmethode. Dies kann in Kombination mit anderen Gesten oder Spielelementen ein sehr immersives Erlebnis bieten. Die Spieler*innen können beispielsweise auf einen NPC blicken und winken, um mit ihm zu sprechen, oder ein Ziel im Gameplay anvisieren, um einen Sprachbefehl zu verwenden.
Vorteile

  • Zugänglich, wenn keine Hände verfügbar sind. Diese Methode verbessert die Barrierefreiheit und bietet mehr Flexibilität für Interaktionen mit NPCs.
  • Sie ist besonders hilfreich in Kombination mit Hand-Tracking.
  • Durch die erforderlichen mehreren Aktivierungsschritte in Kombination mit anderen Eingaben werden versehentliche Aktivierungen reduziert und die Gewissheit der Nutzer*innen erhöht. Diese natürliche Interaktionsform hat eine flachere Lernkurve und bietet eine schnelle und intuitive Aktivierungsform.
  • Diese natürliche Interaktionsform hat eine flachere Lernkurve und bietet eine schnelle und intuitive Aktivierungsform.

Nachteile

  • Bei ausschließlicher Verwendung von Kopf- oder Blicksteuerung kommen versehentliche Aktivierungen häufig vor, da diese Steuerungsmethoden bekanntermaßen ungenau sind.
  • Dadurch wird die Genauigkeit beeinträchtigt, und die Wahrscheinlichkeit für unbeabsichtigte Aktivierungen nimmt zu.
  • Klare Rückmeldungen für Empfangsbereitschaft sind entscheidend. Kommuniziere erfolgreiche Aktivierungen klar und deutlich, da unbeabsichtigte Aktivierungen ohne Signalisierung des Systemstatus die Privatsphäre beeinträchtigen können.

Beispiele
GIF of world-locked target
Ortsfestes Ziel ansehen
GIF of body-locked target
Im Display fixiertes Ziel ansehen

Gesten

Aktivierung durch Handgesten ist im Kontext sprachgesteuerter Spiele sehr hilfreich. Diese Methode kann mit Kopf- oder Blickaktivierung kombiniert oder separat verwendet werden, etwa in Form einer Geste mit einem Zauberstab. Mögliche Anwendungsfälle sind sprachgesteuertes Gameplay oder mehrstufige Aktivierungsformen.
Vorteile

  • Ohne Controller verfügbar, verbessern die Barrierefreiheit und ermöglichen flexiblere Interaktionen mit NPCs.
  • Bewahrt die Immersion durch nahtlose Integration in die normale Aktivität der Nutzer*innen und sorgt für einen unterbrechungsfreien Spielfluss.

Nachteile

  • Kann versehentlich aktiviert werden. Handgesten sind leichter und exakter steuerbar als Kopf- oder Blickfunktionen. Vielen Nutzer*innen fällt es jedoch schwer, unwillkürliche Handbewegungen zu vermeiden.
  • Diese unwillkürlichen Bewegungen beeinträchtigen die Auslösegenauigkeit etwas weniger, erhöhen jedoch das Risiko versehentlicher Aktivierungen. Signalisiere genau, wenn eine Aktion erfolgreich ausgeführt wurde, da eine unerwünschte Aktivierung ohne Signalisierung des Systemzustands ein gravierendes Datenschutzproblem darstellt. Potenzielle Einschränkung durch Lichtbedingungen.
  • Wiederholte Nutzung kann Ermüdung verursachen und mehr Zeit in Anspruch nehmen.

Beispiel
GIF of hand distance and gesture
Aktivierung einer Sprachfunktion auf Basis von Handabstand und -bewegung

Interaktionsmodell

Das Interaktionsmodell steht im Zentrum des Erlebnisses und findet nach der Aktivierung statt. Dabei kann es sich je nach Anwendungsfall deiner App um ein- oder mehrstufige Interaktionen handeln. Unabhängig von der Interaktionsform solltest du die folgenden 3 Grundlagen beim Design stets berücksichtigen:
  1. Transparenz: Deine App sollte transparent kommunizieren, wie das System mit den Nutzer*innen interagiert. Überraschungen können im Spiel zwar erwünscht sein, aber nicht bei den Interaktionen mit dem System.
  2. Immersion bewahren: In immersiven Spielen ist die Immersion das Ziel und ein wichtiger Teil des Nutzungserlebnisses. Hole die Nutzer*innen nicht aus diesem Erlebnis heraus, wenn du mit ihnen interagierst. Dazu kannst du immersive Stimmen, Dialoge oder Situationen verwenden, in denen die Spieler*innen mit dem System kommunizieren.
  3. Störungen minimieren: Sorge für flüssige Übergänge bei Wechseln zwischen Spiel und Interaktionsmodell. Die Spieler*innen erwarten diese Interaktionen möglicherweise nicht immer, und sie sollten sich nicht fremd im Gegensatz zum Rest des Spiels anfühlen. Minimiere die durch Interaktionen verursachten Störungen, um dafür zu sorgen, dass die Spieler*innen ihre Immersion nicht verlieren, das Spiel ansprechender finden und es mit größerer Wahrscheinlichkeit später erneut spielen werden.

Einstufige Interaktion

Diese Art von Interaktion besteht aus einer einzigen Anforderung. Normalerweise wird die Interaktion durch eine einzige Antwort abgeschlossen. Damit werden oft einfache Aufgaben erledigt, z. B. Licht ausschalten, Aktienkurse aktualisieren, Timer festlegen. Diese Interaktionen werden daher auch als One-Shot-Utterance oder One-Shot-Anfrage bezeichnet.

Mehrstufige Interaktion

Dieser Interaktionstyp wird normalerweise über Unterhaltungen gesteuert und umfasst mehrere Interaktionen. Er kommt oft in Szenarien zum Einsatz, die Interaktionen erfordern, z. B. in Unterhaltungen mit NPCs, für Bestellungen, angeleitete Aktivitäten usw. In mehrstufigen Interaktionen ist es wichtig, dass die Nutzer*innen die Interaktion abbrechen können oder das System eine Zeitüberschreitung auslöst, wenn über eine gewisse Zeit keine Antwort empfangen wurde.
"Interaction Model workflow"

Aufmerksamkeitsmodell

Aufmerksamkeitssysteme bieten deinen Nutzer*innen eine einfache, integrierte Möglichkeit, zu verstehen, was mit ihren Sprachinteraktionen innerhalb einer App passiert. Dies umfasst Hinweise dazu, womit sie mit ihrer Stimme interagieren können oder wie sie Feedback zu ihrer Spracheingabe erhalten können. Die Entwicklung eines effektiven Aufmerksamkeitssystems ist für ein gutes Nutzungserlebnis in deiner App unerlässlich. So wird den Nutzer*innen am besten vermittelt, dass das Spiel ihnen stets zuhört.

Was ist ein Aufmerksamkeitssystem?

Die Entwicklung eines Aufmerksamkeitssystems ist der erste Schritt beim Entwerfen eines effizienten Sprachsystems für deine App. Es sorgt für ein nutzungsfreundliches Erlebnis, indem es deine Nutzer*innen akustisch und visuell darauf hinweist, dass das Mikrofon aktiv ist. Es schafft auch eine Möglichkeit, Feedback darüber zu geben, wie die Sprachbefehle deiner Nutzer*innen empfangen werden. Dazu gehören die Reaktion auf Fehler, die Reduzierung wahrgenommener Latenz und auch einfache Hinweise, dass ein Sprachbefehl empfangen wurde. Du kannst so deine Erlebnisse für Nutzer*innen noch immersiver und unterhaltsamer gestalten.
Darüber hinaus sind Aufmerksamkeitssysteme von entscheidender Bedeutung, damit deine Nutzer*innen wissen, wann das Mikrofon „aktiv“ ist und „zuhört“.

Kernkomponenten

Einige grundlegenden Komponenten für Aufmerksamkeitssysteme sind zur Verwendung im Voice SDK Toolkit auf GitHub verfügbar. Diese können nützlich sein, wenn du das Erscheinungsbild deines Aufmerksamkeitssystems an den Stil und die UI deiner App anpasst.
Mikrofon-Statushinweise (erforderlich)
Statushinweise zeigen den Status des Aufmerksamkeitssystems visuell an, um mitzuteilen, wann das Mikrofon eingeschaltet ist und wann das System bereit ist, einen Sprachbefehl zu empfangen. Dies kann Frustration und Missverständnisse bezüglich des Timings der Spracheingabe vorbeugen.
Es können einfache Methoden eingesetzt werden, um anzuzeigen, wann das Mikrofon eingeschaltet ist, damit der*die Nutzer*in weiß, wann seine*ihre Audioeingabe erfasst wird.
Wichtig: Der Status Mic on sollte auf dem Bildschirm richtig dargestellt werden, sobald deine App eine Audioeingabe anfordert, und für die gesamte Dauer der Audioaufnahme beibehalten werden, bis das Mikrofon ausgeschaltet wird.
Der Ansicht im Headset des*der Nutzer*in oder einzelnen Objekten bzw. Charakteren kann ein simpler Aufmerksamkeitssystem-Mikrofonstatus hinzugefügt werden. Es sind auch aufwändigere Systeme möglich, aber im Folgenden werden die zu vermittelnden Grundstatus behandelt:
  • Mic on: Dieser Status deckt die Mikrofonzustände Listening (On), Inactive, Processing und Response ab.
  • Mic off: Dieser Status deckt den Mikrofonzustand Not Listening ab.

Audio-Feedback-Hinweise

Mit visuellen Hinweisen oder Symbolen kannst du den Nutzer*innen die Mikrofonlautstärke einfach vermitteln, damit Sprachbefehle richtig gehört und verarbeitet werden können.
Bevor du solche visuellen Hinweise verwendest, solltest du sie testen, um sicherzustellen, dass die Animation korrekt mit Audioeingabegeräten synchronisiert wird. Du solltest sie auch in der Art von Umgebung testen, in der die Nutzer*innen deine App wahrscheinlich nutzen werden.

Earcons

Verwende Audio-Feedback als Ergänzung eines visuellen Systems, das den Mikrofonstatus anzeigt, oder als Alternative, wenn das Mikrofon offen ist, für bessere Zugänglichkeit und Immersion.
Du hast verschiedene individuell gestaltete Earcons zur Auswahl. Denke daran, dass Earcons häufig in einer App abgespielt werden. Verwende also kurze und angenehme Töne für ein angenehmes Nutzungserlebnis.

Kombination dieser Elemente

Die folgenden Statushinweise und Symbole, zusammen mit Animationen und Earcons, zeigen, wie Sprachinteraktionszustände effektiv dargestellt werden können.
Attention System Icon examples
Im folgenden Video siehst du das Zusammenspiel dieser Elemente:

Erweiterte Beispiele

Für die Sprachinteraktionen in deiner App kannst du auch Aufmerksamkeitssysteme direkt in das Charakter- und Umgebungsdesign integrieren. Zum Beispiel:
  • Charakteranimationen: Ein Charakter verfügt über bestimmte Ausdrücke und Gesten, um aktives Zuhören oder Verstehen zu visualisieren.
  • Umgebungsdesign: Ein Objekt leuchtet auf und bewegt sich bei Interaktionen oder Reaktionen.
  • Aufforderungen für Dialogaktionen: Nutzer*innen werden im NPC-Dialog dazu aufgefordert, Sprachbefehle zu geben.
  • Transkription: "Die Texttranskription des Audioeingangs kann als zusätzlicher Hinweis dienen, wann das Mikrofon geöffnet ist und Eingaben empfängt. Sie dient auch als Hinweis, wie Sprachbefehle vom System gehört werden, sodass Nutzer*innen die Eingabe ggf. anpassen können.
Weitere Informationen zur Verwendung von Aufmerksamkeitssystemen mit dem Voice SDK findest du unter Voice SDK Toolkit.

Fehlerantworten

Fehler können in jeder App vorkommen, und Sprachsysteme sind anfällig für Fehler, die in anderen Apps nicht auftreten. Möglicherweise sprechen die Nutzer*innen zu schnell oder nuscheln, und das System kann sie nicht verstehen. Womöglich stellt das System eine Frage und erhält keine Antwort, weil der*die Nutzer*in die Frage nicht gehört, nicht bemerkt oder nicht verstanden hat.

Gängige Fehlertypen

  • No Match Error. Diese Fehler treten auf, wenn die Nutzer*innen etwas sagen und das System sie nicht versteht. Dies ist der häufigste Fehlertyp in ASR-Systemen (Automatic Speech Recognition, automatische Spracherkennung). Möglicherweise befinden sich die Nutzer*innen jedoch auch in einer lauten Umgebung, ihre Utterance ist nicht in der Erkennungsgrammatik der App enthalten oder die Antwort war nicht komplett oder klar genug, um verstanden zu werden. Zum Beispiel:
    System (hört): „Kamone nachroden!“System (antwortet): „Tut mir leid, Captain, was war das?“System (hört): „Ich sagte, Kanone nachladen!“System (antwortet): „Aye, aye, Captain! Kanoniere, nachladen!“Fehlerantwort: Eine kurze Antwort, in der die Nutzer*innen gebeten werden, sich zu wiederholen, ist normalerweise die beste Art, einen No Match-Fehler zu verarbeiten. Wenn die Utterance der Nutzer*innen jedoch bereits eine Antwort auf eine Frage war, solltest du die Frage nicht wiederholen. Andernfalls klingt die Interaktion mechanisch oder stört die Immersion der Nutzer*innen. Stattdessen kannst du die Antwort umformulieren.
  • No Input Error. Diese Fehler treten auf, wenn das System eine Antwort erwartet, aber keine erhält. Dafür gibt es viele mögliche Gründe, etwa wenn die Nutzer*innen nicht laut genug in das Mikrofon sprechen oder wenn sie gar nichts sagen, während das Mikrofon aktiv ist. Möglicherweise denken sie über ihre Antwort nach, wissen nicht, wie sie antworten sollen, sind abgelenkt oder machen aus irgendeinem Grund eine Pause. Zum Beispiel:
    System (Aussage): „Alles klar, Spieler*in 1! Wohin sollen wir gehen?“System (hört): „…“System (antwortet): „Spieler*in 1, in welche Richtung sollen wir gehen?“System (hört): „Oh, erlegen wir Truppen südlich nach D1“System (antwortet): „Verstanden, südlich nach D1. Sind unterwegs!“Fehlerantwort: Bei diesem Fehlertyp ist es meistens sinnvoll, die Frage mit zusätzlichen Details umzuformulieren. Wie auch bei den No Match-Fehlern ist es wichtig, die Frage nicht wörtlich zu wiederholen, um nicht mechanisch zu klingen.
  • Out of Domain Error. Dieser Fehler tritt auf, wenn das System zwar versteht, was die Nutzer*innen gesagt haben, es aber aus irgendeinem (spielbezogenen) Grund nicht umsetzen kann. Dies wird manchmal auch als Intent-Fehler bezeichnet. Dies kann passieren, wenn eine Spielregel die angeforderte Aktion verbietet oder die Funktionalität in der App nicht existiert. Zum Beispiel:
    System (hört): „Bring mir das Schwert.“System (antwortet): „Das würde ich gerne tun, aber ich kann leider keine Waffen einsammeln.“Fehlerantwort: Leite die Nutzer*innen nach Möglichkeit in Richtung einer Lösung oder liefere ihnen Informationen, mit denen sie den Kontext der Antwort verstehen können. Die effektivste Antwort besteht darin, zu erklären, was die App nicht tun kann, z. B. „Ich kann keine Waffen einsammeln“, damit es die Nutzer*innen nicht noch einmal versuchen. Achte jedoch darauf, dass die Antwort des Systems die Immersion der Nutzer*innen nicht stört.
  • System Error. In diese Kategorie gehören alle Fehler, die sich der Kontrolle von Nutzer*in oder System entziehen. Mögliche Beispiele sind Client- oder Serverfehler oder praktisch alle anderen Fehler, die auf unerwartete Weise oder im System-Backend auftreten können. Zum Beispiel:
    Nutzer*in (spricht): „Bring mich zum Anfangsgebiet.“\<System error>System (antwortet): „Tut mir leid, etwas Seltsames ist passiert. Sag das bitte noch einmal.“Fehlerantwort: Nach Möglichkeit solltest du eine oder mehrere Fehlerantworten parat haben, die du für diesen Fehlertyp verwenden kannst. Eine passende Antwort sollte so allgemein wie möglich sein, um viele Situationen abzudecken, aber nicht so generisch, dass sie wie eine mechanische Antwort klingt. Falls du spezifische Informationen dazu hast, wie die Nutzer*innen den Fehler beheben können, wie etwa „Du bist leider nicht mit dem Internet verbunden“, dann kannst du sie zur Antwort hinzufügen. Vermeide es jedoch nach Möglichkeit, das immersive Erlebnis der Nutzer*innen zu stören.

Best Practices

Fehler kommen viel häufiger vor, als viele Entwickler*innen dies erwarten. Mit einer robusten und umfassenden Reihe an Fehlerantworten kannst du daher das Spielerlebnis deiner Nutzer*innen deutlich angenehmer gestalten.
Beachte unter anderem die folgenden Best Practices beim Gestalten deiner Fehlerantworten:
  • Die besten Fehlerantworten sind spezifisch zum Kontext. Berücksichtige den Kontext der Szene beim Erstellen der Fehlerantwort. Betrachte die Umgebung, zuvor gestellte Fragen, die Position des*der Nutzer*in und weitere Faktoren. Frage dich „Wäre es merkwürdig, wenn ein Charakter das zu mir sagen würde?“, bevor du eine bestimmte Fehlerantwort übernimmst.
  • Lasse deine Fehler so klingen, als würden sie zum Spiel gehören. In einem Actionspiel kannst du beispielsweise einen visuellen Hinweis erstellen, der die Nutzer*innen auffordert, sich im Fall eines No Match-Fehlers zu wiederholen. Rechne in NPC-Dialogen damit, dass die Nutzer*innen eine Pause machen, bevor sie antworten. Gib ihnen genügend Zeit zum Antworten und bereite Folgefragen vor für den Fall, dass No Input-Fehler auftreten.
  • Wiederhole eine Antwort nicht endlos. Die Nutzer*innen wiederholen oft das, was sie gesagt haben, aber „sorgfältig“. Im Fall von No Match- oder No Input-Fehlern kann dies klappen, aber bei anderen Fehlern nicht unbedingt. Vielleicht liegt wirklich ein ASR- oder NLU-Fehler vor, der das System daran hindert, die Nutzer*innen zu verstehen. Wenn du eine Nachricht wie etwa „Das habe ich leider nicht verstanden“ endlos wiederholst, wirkt dies auf die Nutzer*innen schnell ermüdend. Biete deinen Nutzer*innen eine dynamischere Umgebung, indem du Antwortvarianten oder zusätzliche Fehlermeldungen für den Fall erstellst, dass sich ein Fehler wiederholt.
  • Überprüfe deine Kennzahlen. Du kannst Fehler als Signal dafür nutzen, wie du das Spracherlebnis deiner Nutzer*innen verbessern kannst. Zum Beispiel:
    • Fragen die Nutzer*innen nach Dingen, die du nicht vorhergesehen hast?
    • Wo treten diese Fehler besonders häufig auf? Analysiere, warum diese Fehler genau an diesen Stellen auftreten.
    • Fragen die Nutzer*innen nach Dingen, die sie tun können, aber mit Formulierungen, mit denen du nicht gerechnet hast? Analysiere fehlgeschlagene Utterances, um zukünftige Nutzungsszenarien zu verbessern.
    • Fragen die Nutzer*innen nach unterstützten Funktionen, aber die App versteht die Anfragen nicht richtig?

Erklärende Antworten für Nutzer*innen

In-App-Erklärungen für Nutzer*innen sind eine ständige Herausforderung beim Entwickeln von Spracherlebnissen. Die Liste möglicher Dinge, die ein*e Nutzer*in in der App sagen kann, entspricht oft nicht der Liste der Dinge, die sie vielleicht sagen möchten. Dies ist besonders zutreffend bei vollständig immersiven Erlebnissen.

Sortierordner für Nutzer*innenerklärungen

Erstmalige Nutzer*innen einer App haben oft etwas andere Anforderungen als wiederkehrende Nutzer*innen. Die Mechanismen für Nutzer*innenerklärungen und Nutzer*innenentdeckung unterscheiden sich abhängig davon, wie viel Vorwissen Nutzer*innen zu dem Erlebnis haben.
Erstmalige Nutzer*innen (Entdeckung)

Erstmaligen Nutzer*innen wird manchmal zu Beginn des Spiels ein neues Nutzungserlebnis geboten. Dieses Erlebnis sollte recht allgemeine Erklärungen bieten. Ein paar Beispiele für Spracheingabe zu geben ist hilfreich, doch du solltest dich auf Kategorien und Interaktionsmodelle wie Objekte bewegen, Angriffe befehlen, Zauber wirken Navigation oder Aktionen konzentrieren. Dies sind Kategorien von Dingen, die der*die Nutzer*in tun kann, anstatt Dinge, die im Spiel selbst ausgesprochen werden. Du solltest die folgenden Dinge bedenken, wenn du ein Erlebnis für erstmalige Nutzer*innen entwickelst.

  • Wie kann der*die Nutzer*in das Spracherlebnis aufrufen?
  • Wie weiß der*die Nutzer*in, wann er*sie sprechen soll?
  • Wie weiß er*sie, wann das Mikrofon an ist?
  • Was kann er*sie sagen?
  • Wie kann der*die Nutzer*in mehr darüber erfahren, was er*sie sagen kann?

Wiederkehrende Nutzer*innen (Bindung)

Diese Nutzer*innen sind bereits mit einigen Mechanismen der App vertraut, und du möchtest sie mit den In-App-Erklärungen und Entdeckungsmechanismen für Nutzer*innen vertraut machen, die sie selbst verwenden können, wie etwa kontextabhängige Tipps. Solche Tipps dazu, was sie sagen können, sollte so kontextbezogen wie möglich sein, ohne die Immersion oder die App-Mechanik zu stören.

Arten von Nutzer*innenerklärungen in vollständig immersiven Erlebnissen

Es gibt eine Reihe verschiedener möglicher Ressourcen, mit denen Nutzer*innen lernen können, wie sie ihre Stimme für In-App-Erlebnisse verwenden können.
Zielnutzer*inErklärungszielPotenzielle Ressourcen
Neue*r Nutzer*in
Discovery
– Schritt-für-Schritt-Anleitung
– App-Landing
– Eingebettete Tipps
Wiederkehrende Nutzer*innen
Bindung
– Nicht-eingebettete Tipps
– Sprachsuche

Schritt-für-Schritt-Anleitung

Wenn ein*e Nutzerin eine komplexe Sequenz von Sprachbefehlen navigieren muss, kann dies einfacher gemacht werden, indem es dir erlaubt wird, kontextabhängige Tipps zu einer Schritt-für-Schritt-Anleitung zusammenzufügen. Dieser Fluss kann dabei helfen, dem*der Nutzer*in wichtige Dynamiken oder Elemente für sein*ihr Erlebnis in der App zu zeigen. Die Schritt-für-Schritt-Anleitung kann mit einer Fortschrittsanzeige für die einmaligen Tipps versehen werden, etwa einer Fortschrittsleiste oder einem Test wie „2 von 4 abgeschlossen“.

App-Landing

Wenn ein*e Nutzer*in eine App startet, gelangen sie zu einem bestimmten Ort darin, wo er*sie beginnen kann. Hier kann er*sie ein Level zum Spielen auswählen, die Ausrüstungskonfiguration individualisieren oder andere Optionen auswählen. Wenn er*sie hier ist, kannst du ihm*ihr auch eine Liste von Dingen anzeigen, die er*sie in der App sagen kann, wie etwa durch Verwendung eines Menü-Tabs oder vielleicht als ein Wesen, das im Raum schwebt. Du kannst dies verstehen als das Erklären der „Controller-Einstellungen“ oder der „Button-Anordnung“, wie es viele Apps tun. Diese Anleitungen sollten sich auf breitere Kategorien wie „Objekte bewegen“ oder „Zauber wirken“ konzentrieren. Es kann auch hilfreich sein, einige Beispiele dafür zu zeigen, welche spezifischen Befehle Nutzer*innen äußern können.

Eingebettete Tipps

Die Anzeige von eingebetteten Tipps für den*die Nutzerin als ein nahtloser Aspekt oder ein Erweiterung der natürlichen Umgebung kann die immersivste Möglichkeit sein, Nutzer*innen zu vermitteln, was sie tun oder sagen können. Allerdings sollte darauf geachtet werden, dass der Tipp das immersive Erlebnis nicht stört. Beispielsweise könnte ein NPC dem*der Nutzer*in einen neuen Zauber beibringen und ihn*sie auffordern, die Beschwörungsformel aufzusagen. Andere Optionen wären vielleicht ein Element, das auf irgendeine Weise darauf hinweist, dass es per Sprache ausgelöst werden kann, oder eine Person, die zu erkennen gibt, dass sie mit dir über Sprache interagieren kann, indem sie dich auffordert, mit ihr zu sprechen.

Nicht-eingebettete Tipps

Anders als bei eingebetteten Tipps werden nicht-eingebettete Tipps nicht als Teil der Umgebung angezeigt, auch wenn sie noch immer im Kontext des Spiels vorhanden sind. Stattdessen erscheinen sie als ein Layer über dem Spiel, wie etwa ein Ausgangsschild über einer Tür. Nutzer*innen müssen nicht mit diesen Tipps interagieren, und sie zu ignorieren sollte sich nicht auf den Spielfortschritt des*der Spieler*in auswirken. Allerdings können sie sie verwenden, um mehr spielrelevante Informationen zu erlangen. Dies könnte beispielsweise ein unaufdringliches Symbol sein, das Informationen preisgibt, wenn es von dem*der Nutzer*in ausgewählt wird, oder vielleicht ein Pfeil, der in die Richtung eines Ziels des*der Nutzer*in zeigt.
In der Journey eines*einer Nutzer*in in einem Spiel kann er*sie einfache Fragen stellen wie „Wie kann ich das Spiel pausieren?“ oder „Wie kann ich speichern?“, oder andere levelbezogene und How-to-Fragen. Die einfachste und natürlichste Art und Weise, dies zu tun, besteht für Nutzer*innen darin, normal mit dem System zu sprechen. Die Sprachsuchleiste ermöglicht dies dem*der Nutzer*in. Mit ihr können Entwickler*innen außerdem einige allgemeine und hilfreiche Hilfe-Intents erstellen.

Richtlinien für Sprachinteraktionen

Dieser Abschnitt enthält Hinweise zu sprachbasierten Interaktionstechniken, die beim Design von Spracherlebnissen zum Einsatz kommen. Mache dich mit Eingabeprimitiven, Designgrundlagen und ergonomischen Faktoren vertraut und lerne die wichtigsten Dos und Don'ts kennen.

Grundlegende Interaktionselemente

Entdecke verschiedene Eingabemöglichkeiten und Interaktionsmethoden, die Sprachbefehle als Eingabemodalität verwenden:
Spracherkennungsverhalten
  • Die Grundeinheit bei Interaktionen mit Spracherkennungssystemen ist eine Utterance, also ein einzelner gesprochener Satz.
  • Es ist entscheidend, die Absicht hinter der Utterance von Nutzer*innen zu verstehen, um eine passende Antwort zu liefern. Absichten können in verschiedene Typen kategorisiert werden, wie etwa Information, Transaktion oder Navigation.
  • Entitäten sind Details, die den Kontext einer Utterance bereitstellen. Beispiele für Entitäten sind Namen, Termine, Orte und Mengen. Eine korrekte Entitätserkennung ist entscheidend für die effektive Erkennung von Sprachinteraktionen.
  • Kontext spielt eine wichtige Rolle für die Erwartungen und Verhaltensweisen der Nutzer*innen. Interaktionen, die den Kontext der Nutzer*innen berücksichtigen, können zu genaueren und relevanteren Antworten führen.
  • Mit Bestätigungen wird sichergestellt, dass das System die Absichten der Nutzer*innen korrekt verstanden hat oder um zusätzliche Informationen anzufordern. Dieser Grundsatz hilft, Fehler zu vermeiden und die allgemeine Genauigkeit zu verbessern.
  • Techniken zur Auflösung von Mehrdeutigkeiten, wie etwa das Stellen von Folgefragen oder das Bereitstellen von Optionen, helfen, die Absichten der Nutzer*innen bei Zweifeln oder Mehrdeutigkeiten klarzustellen.
  • Effektive Fehlerbehandlungsstrategien wie Erklärungen oder das Anbieten von Alternativen können die Auswirkungen von Fehlern reduzieren und die Zufriedenheit der Nutzer*innen steigern.
App mit Natural Language Processing (NLP)
  • Bei der Tokenisierung wird Text in kleinere Einheiten wie Wörter oder Wortteile zerlegt, um Analyse und Verständnis zu vereinfachen.
  • Bei der Markierung von Wortarten (Part-of-Speech-Tagging) werden die Wortarten (Nomen, Verb, Adjektiv) aller Wörter in einem Satz ermittelt, um eine genauere Interpretierung zu ermöglichen.
  • Bei der Erkennung benannter Entitäten (Named Entity Recognition, NER) werden benannte Entitäten wie Personen, Orte, Organisationen und Termine identifiziert, um Kontext und Bedeutung bereitzustellen.
  • Bei der Stimmungsanalyse werden emotionaler Ton und Haltung in Texten analysiert, z. B. positiv, negativ oder neutral.
  • Bei der Absichtsbestimmung werden Zweck oder Ziel von Texten ermittelt, etwa um herauszufinden, ob eine Anfrage gestellt oder Informationen angegeben wurden.
Sprachbasierte Navigation
  • Das System sollte die verfügbaren Menüoptionen klar kommunizieren.
  • Die Nutzer*innen sollten in der Lage sein, eine bestimmte Option mit Sprachbefehlen auszuwählen.
  • Das System sollte es den Nutzer*innen ermöglichen, mit Sprachbefehlen (z. B. „wie geht es weiter?“ oder „zurück“) durch Untermenüs zu navigieren.
  • Das System sollte die Eingaben der Nutzer*innen bestätigen und das Verständnis der ausgewählten Option verifizieren, um die Genauigkeit zu verbessern.
  • Das System sollte Fehler wie ungenaue Eingaben von Nutzer*innen oder nicht verfügbare Optionen verarbeiten und alternative Lösungen oder Vorschläge bereitstellen.
  • Das System sollte zueinander gehörende Optionen gruppieren.
  • Das System sollte Shortcut-Optionen für häufig verwendete Aktionen anbieten.
Emotionserkennung
  • Das System sollte Emotionen identifizieren und in verschiedene Typen wie Freude, Traurigkeit, Wut oder Furcht kategorisieren können.
  • Das System sollte die Stärke der Emotionen erkennen können, z. B. leicht, mittelstark oder extrem.
  • Das System sollte erkennen können, wie Emotionen über die Stimme vermittelt werden, etwa durch Tonfall, Tonhöhe, Lautstärke und Sprechgeschwindigkeit.
  • Teste und optimiere das System fortlaufend, um sicherzustellen, dass es effektiv und respektvoll ist.
Biometrische Authentifizierung
  • Das System sollte den eindeutigen Stimmabdruck der Nutzer*innen als Repräsentation ihrer Stimme erfassen.
  • Das System sollte die Identität der Sprecher*innen verifizieren können, indem es ihren Stimmabdruck mit einer gespeicherten Vorlage bzw. einem Profil abgleicht.
  • Das System sollte eine Authentifizierung von den Nutzer*innen anfordern, etwa in dem es sie auffordert, einen bestimmten Satz zu sagen oder eine Stimmprobe abzugeben.
  • Nutze Machine-Learning-Algorithmen, um die Genauigkeit der Sprecher*innenverifizierung im Lauf der Zeit zu verbessern.
  • Biete den Nutzer*innen Möglichkeiten, ihre biometrischen Daten und deren Verwendung zu kontrollieren.
  • Sorge dafür, dass das System barrierefrei und auch für Nutzer*innen mit Behinderungen verwendbar ist.
  • Teste und optimiere das System fortlaufend, um sicherzustellen, dass es effektiv und sicher ist.
  • Integriere das System ggf. mit Identitätsverwaltungs-, Zugriffssteuerungs- oder anderen Systemen, um zusätzliche Funktionen bereitzustellen.
Multimodale Interaktionen
  • Das System sollte die bei der Interaktion verwendeten Eingabemodalitäten definieren, wie etwa Stimme, Text, Gesten oder Blick.
  • Das System sollte die bei der Interaktion verwendeten Ausgabemodalitäten definieren, wie etwa Sprache, Text, Bilder oder Video.
  • Verschiedene Systeme können es den Nutzer*innen ermöglichen, während einer Interaktion zwischen Eingabemodalitäten zu wechseln, etwa von Sprache zu Text.
  • Das System sollte Fehler und Ausnahmen während multimodalen Interaktionen verarbeiten, etwa indem es alternative Eingabemethoden anbietet.
  • Das System sollte Metriken zur Auswertung der Effektivität multimodaler Interaktionen bereitstellen, etwa durch Messung der Nutzer*innenzufriedenheit oder der Abschlussrate von Aufgaben.
Barrierefreiheitsfunktionen
  • Die vier Grundsätze für barrierefreies Design sind durch die Abkürzung „POUR“ definiert: perceivable, operable, understandable, robust (wahrnehmbar, bedienbar, verständlich und robust).
  • Wahrnehmbar: Inhalte sollten so bereitgestellt werden, dass die Nutzer*innen sie unabhängig von ihren Fähigkeiten wahrnehmen können. Beispiele:
    • Stelle Alternativtext für Bilder bereit (z. B. durch „alt“-Tags).
    • Verwende kontrastreiche Farben, um die Lesbarkeit zu verbessern.
    • Biete Untertitel oder Transkripte für Audio- und Videoinhalte an.
  • Bedienbar: Stelle sicher, dass die Nutzer*innen über verschiedene Methoden mit deinem Produkt interagieren können. Beispiele:
    • Sorge dafür, dass Navigation und Steuerelemente mit der Tastatur bedient werden können.
    • Stelle klare und einheitliche Navigationsmenüs bereit.
    • Biete Möglichkeiten an, Schriftgrößen und Zeilenhöhen anzupassen.
  • Verständlich: Präsentiere Inhalte möglichst leicht verständlich. Beispiele:
    • Formuliere deine Inhalte klar und prägnant.
    • Vermeide Fremdwörter und technische Begriffe soweit wie möglich.
    • Stelle Definitionen für komplexe Konzepte bereit.
  • Robust: Erstelle Produkte, die auf verschiedenen Geräten, Browsern und Hilfstechnologien funktionieren. Beispiele:
    • Teste dein Produkt auf verschiedenen Geräten und Browsern.
    • Verwende semantisches HTML, um eine angemessene Struktur und Bedeutung sicherzustellen.
    • Befolge Webstandards und Best Practices für Programmierung und Entwicklung.
Diese Eingabefunktionen und Interaktionsmethoden können in verschiedenen Apps wie virtuellen Assistenten, Smart-Home-Geräten und Barrierefreiheitstools eingesetzt werden. Durch die Verwendung der Stimme als primäre Eingabemodalität bieten diese Systeme den Nutzer*innen eine natürliche und intuitive Möglichkeit, mit Technologie zu interagieren.
Eine umfassende Übersicht zu allen Eingabemodalitäten und ihren entsprechenden Eingabeprimitiven findest du unter: Eingabeprimitive.

Designgrundsätze

Hier findest du grundlegende Konzepte für nutzungsfreundliche Interaktionen mit unserer Eingabemodalität.
BegriffDefinition
Transparente Aktivierung
Kommuniziere die Mikrofonaktivierung klar und deutlich über Earcons oder Unterhaltungshinweise.
Klare Datenschutzsteuerung
Biete den Nutzer*innen eine Zustimmungsoption für Spracherlebnisse, bei denen ihre Stimme erfasst wird, um ihre Privatsphäre zu respektieren.
Kognitive Last verwalten
Begrenze die Menge der Informationen, die sich die Nutzer*innen merken müssen. Nutze Breadcrumbing-Techniken, um sie Schritt für Schritt durch komplexe Interaktionen zu führen. „Breadcrumbing“ bedeutet, dass die Nutzer*innen auf einem klaren und einheitlichen Navigationspfad durch eine sprachbasierte Unterhaltung geführt werden. Dazu gehört die Bestätigung ihrer aktuellen Position und die Vermeidung von Verwirrung und Stress.
Beispiel: Nutzer*in: „Hey Alexa, was steht heute auf meinem Kalender?“ Alexa: „Du hast eine Besprechung um 14 Uhr. Du befindest dich derzeit im Kalendermenü. Sage „Zurück“, um zum Hauptmenü zurückzukehren.“ |
Nutzer*innen durch Dateneigentum befähigen
Erkläre den Nutzer*innen klar und deutlich, wie ihre Audiodaten verwendet und geschützt werden und biete ihnen die Möglichkeit, ihre Zustimmung zu widerrufen oder ihre Daten zu löschen.
Kontextbezogene Interaktionen gestalten
Gestalte Sprachinteraktionen, die sich an den Kontext der Nutzer*innen anpassen, und berücksichtige dabei sowohl grafische als auch reine Audioerlebnisse. Verwende Passthrough oder immersive Erlebnisse sowie verkörperte Interaktionen, um ein nahtloses Erlebnis bereitzustellen.
Effektive Fehlerverarbeitung und Korrektur implementieren
Implementiere ein System zur Verarbeitung und Korrektur von Fehlern, das die Unterbrechung bestätigt und Optionen zur Behebung des Fehlers anbietet. Strukturiere Prompts so, dass die Nutzer*innen eine Anleitung zur Behebung von Fehlern und klare Anweisungen für die Korrektur erhalten. Priorisiere das Verständnis der Nutzer*innen und die Behebung beim Entwickeln deines Fehlerbehebungssystems.
Nutzer*innen informieren und Einstieg vereinfachen
Informiere die Nutzer*innen über neue Interaktionsmodi und mentale Modelle, insbesondere für Interaktionen mit NPCs (Non-Player-Characters), mithilfe eines robusten NUX (New User Experience). Zeige den Nutzer*innen, wie sie effektive Prompts ausführen können, und befähige Creator*innen, Verantwortung für ihre Prompts in Horizon zu übernehmen. Informiere die Nutzer*innen im Kontext neuer mentaler Modelle, um ihnen die Anpassung an neue Technologien zu erleichtern.

Einschränkungen und Abhilfemaßnahmen

Bei der Integration von Stimme als Eingabemodalität ist es wichtig, die Einschränkungen und Abhilfemaßnahmen dieser Modalität zu berücksichtigen. Weitere Informationen findest du unter Voice Best Practices.