Ist jemand traurig oder froh? Das verrät vor allem die Stimme. Die Kommunikationswissenschaft zeigt, wie Emotionen unsere Aussprache verändern – mit überraschenden Erkenntnissen. Sie haben Einfluss auf die KI-Entwicklung.
Ob zu Hause mit den Kindern, abends im Freundeskreis oder morgens im Team-Meeting – viele Menschen sprechen täglich stundenlang. Trotzdem scheint die wissenschaftliche Beschäftigung mit Stimme und Sprechweise oft noch ein exotisches Fach zu sein. Warum eigentlich?
Der Sprach- und Kommunikationswissenschaftler Walter F. Sendlmeier hat mehrere Vermutungen, woran das liegt: “Einerseits ist der Mensch in weiten Teilen ein Augentier.” Für noch wichtiger hält er, “dass die Mündlichkeit so flüchtig ist. Wir können sie nicht so gut festhalten wie ein Bild, ein Porträt eines Menschen – das können wir uns stundenlang anschauen.” Diese Verfügbarkeit habe große Vorteile für Beschreibung und Analyse. “Das Mündliche ist erst seit gut hundert Jahren konservierbar, seitdem es die ersten Wachstrommeln gibt, mit denen man akustische Signale speichern konnte”, gibt der Experte zu bedenken.
Dabei ist die Beschäftigung mit der Art, wie Menschen sprechen, in zahllosen Zusammenhängen von Bedeutung: Der emotionale Ausdruck von Stimme und Sprechweise prägt das Gegenüber oft stärker als der Inhalt der Worte. Er ist mitentscheidend dafür, wie glaubwürdig, sympathisch oder kompetent eine Person erscheint – und beeinflusst damit neben privaten und beruflichen Beziehungen auch politische Debatten.
Am Institut für Sprache und Kommunikation der TU Berlin hat sich ein Forschungsteam unter Sendlmeiers Leitung einer zentralen Frage gewidmet: Wie verändert sich die Stimme, wenn jemand nicht neutral, sondern emotional spricht? Im Fokus standen die vier international anerkannten Basisemotionen: Freude, Traurigkeit, Angst und Ärger. Dabei kam es zu einer echten Überraschung: Bei Ärger sprechen Menschen schneller – aber gleichzeitig deutlicher.
Das widerspricht einem Prinzip, das lange in der Sprachwissenschaft galt und ebenso als Faustregel etwa auf der Bühne oder im Hörfunk: “Je schneller, desto undeutlicher.” Vielmehr zeigt sich nun: Im Zustand des Ärgers werden selbst normalerweise verschliffene Laute exakt artikuliert. Die Sätze auszusprechen, dauert dadurch länger, doch sie sind auch klarer. Eine Erkenntnis, die gängige Modelle über Sprechtempo und Deutlichkeit in Frage stellt.
Im Zuge des Projekts entstand die sogenannte EMO-DB (Emotional Speech Database), eine emotional annotierte Sprachdatenbank. Sie wird inzwischen weltweit von Entwicklern und KI-Forschenden genutzt, um Systeme zu trainieren – etwa für Spracherkennung in emotional aufgeladenen Kontexten. Denn in der Praxis zeigt sich: Je aufgeregter der Mensch, desto schlechter die Maschinen-Erkennung. Um dies zu verbessern, müssen Maschinen lernen, Emotionen zu entschlüsseln.
Mit gezielten Hörexperimenten und computergestützten Sprachsynthesen konnte das Forschungsteam belegen, welche akustischen Merkmale wirklich hörbar Emotionen transportieren – etwa Tonhöhe, Lautstärke oder bestimmte Artikulationsmuster. Diese Parameter sind die Grundlage dafür, dass KI-basierte Sprachanwendungen wie Chatbots in Zukunft besser erkennen können, ob ihr Gegenüber gerade fröhlich, traurig oder wütend ist.
Und nicht nur das: Die Ergebnisse lassen sich sprachübergreifend anwenden – von China bis in die arabische Welt. Denn wie bei der Mimik zeigen auch die stimmlichen Merkmale grundlegender Emotionen eine universelle Struktur. Auch ohne Sprachkenntnisse spüren Menschen instinktiv, ob jemand ärgerlich oder traurig ist. Diese angeborene Universalität nutzen heute KI-Systeme, die mit Sendlmeiers Daten lernen, um menschliche Nutzerinnen und Nutzer emotional besser zu verstehen.
Damit wurde ein komplexes Forschungsfeld zur Grundlage für moderne Entwicklungen in der Spracherkennungstechnologie – die daraus entstandene Datenbank wird bis heute international genutzt und ist mit über 3.000 Zitierungen breit rezipiert.