Alles, was Sie über Text-to-Speech wissen müssen

Alles, was Sie über Text-to-Speech wissen müssen

Moderne Lokalisierung ist wie ein filigranes Mosaik, bei dem unzählige Steinchen zusammenzufügen sind, bevor sich ein stimmiges Gesamtbild ergibt. Heute greifen wir einen Service für Multimedia-Inhalte heraus, der bei unseren Kunden immer stärker nachgefragt wird: Text-to-Speech. 

Was ist Text-to-Speech?

Text-to-Speech (TTS) bezeichnet die künstliche Erzeugung gesprochener Sprache aus Texteingaben. Anfangs wurden diese „Computerstimmen“ hauptsächlich dafür genutzt, Menschen mit Sehbehinderungen oder Lernschwächen den Zugang zu Geschriebenem zu erleichtern.

Überzeugen Sie sich mit eigenen Ohren von der Qualität unseres Text-to-Speech-Services

Wie funktioniert die Technologie?

1. Zu Beginn wird der ausgewählte Text analysiert und phonetisch interpretiert. Dieser Teil fällt unter das sogenannte Natural Language Processing (NLP). Dafür wird die gesamte Zeichenkette in einzelne „Units“ oder Laute aufgeteilt und gemäß einem zugrundeliegenden Regelwerk verarbeitet. Mittels Kontextanalyse werden Betonungen disambiguiert  – bei Abkürzungen wie „mtl.“ ist beispielsweise zu klären, ob sie zu „monatlich“, „monatliche“, „monatlichem“ etc. expandiert werden sollen, während Begriffe wie „modern“ (verwesen) und „modern“ (zeitgemäß) nicht allein anhand ihrer Schreibweise unterschieden werden können.

2. Anschließend werden diese Einzelbestandteile durch aufwändige Algorithmen zu einem flüssigen Audiotext zusammengefügt. Dabei werden Aussprache, Betonung und Satzmelodie (Prosodie) korrekt ermittelt, sodass eine natürlich klingende Lautfolge erzeugt werden kann. Durch das Wissen über die syntaktische Struktur eines Satzes kann erkannt werden, ob eine Konstituente als wichtig oder neu hervorgehoben wird.

3. Die verarbeiteten Daten werden zuletzt an ein Signalverarbeitungsmodul (Digital Signal Processing) übergeben, welches das akustische Sprachsignal erzeugt.

Text-to-Speech … sind das nicht diese monotonen Roboterstimmen?

Nicht unbedingt! Vorbei sind die Zeiten, als synthetisierte Stimmen noch unangenehm „roboterhaft” klangen und mit minderer Qualität gleichgesetzt wurden. Zwar scheint auch heute oft noch die maschinelle Herkunft des Gesprochenen durch, doch dank dem Einsatz neuronaler Netze haben die Phoneme, Silben und Wörter der mit diesen Modellen generierten Sprache inzwischen eine menschenähnliche Betonung und einen natürlichen Tonfall. Nutzer empfinden die Stimmen als wesentlich freundlicher und ausdrucksstärker.

Interessant! Und was hat das mit Übersetzungen zu tun?

Multimediale Kommunikation prägt uns immer stärker. Das stellt viele Unternehmen bei der Kommunikation mit Kunden und Verbrauchern vor enorme Herausforderungen – nicht zuletzt im Hinblick auf die hohen Kosten und die Komplexität professioneller Audioproduktion.

Text-to-Speech eröffnet Unternehmen neue Wege, um Kunden in einer Vielzahl an globalen Märkten anzusprechen (im wahrsten Sinne des Wortes!). Sie können eine größere Bandbreite an Multimediainhalten mit einer hochwertigen Sprachausgabe ausstatten und zusätzlichen Content barrierefrei zugänglich machen.

Jetzt weiterlesen: Milengos Leistungsversprechen für professionelle Multimedialokalisierung

Wofür ist Text-to-Speech denn genau geeignet? Und wofür nicht?

Prinzipiell ist die Technologie auf die meisten audiovisuellen Inhalte mit informativem Charakter anwendbar. Für aufwendig produzierte Marketingvideos oder sensible Mitarbeiterkommunikation empfiehlt es sich natürlich auch weiterhin, professionelle Sprecher einzusetzen. In vielen anderen Fällen leistet Text-to-Speech aber wertvolle Hilfe – ob Schulungsvideos, Software-Demos oder interne Sicherheitsanweisungen. Und gerade im Bereich E-Learning trägt eine TTS-basierte stimmliche Benutzeroberfläche nachweislich zum Lernerfolg bei.

Welche geschäftlichen Vorteile bietet Text-to-Speech für mein Unternehmen?

  • Entlastung für Multimedia-Budgets

    Traditionelles Voiceover ist mit einem hohen Personal- und Ressourcenaufwand verbunden – vom Casting professioneller Sprecher über die Buchung von Tontechnik bis hin zum Mastering und nachhängigen Korrekturrunden. Die um ein Vielfaches günstigeren Produktionskosten sind ein zentrales Argument für den Einsatz von Text-to-Speech.

  • Einfachere Planung

    Sprecher müssen frühzeitig gebucht werden und sind bei langfristigen Projekten oft nicht durchgängig verfügbar. Dank TTS-Technologie lassen sich Multimediainhalte mit geringerem Personaleinsatz und technischen Aufwand in einem Bruchteil der Zeit realisieren. Da die Stimmen einer Text-to-Speech-Engine dauerhaft verfügbar sind, können Sie zu jeder Zeit auf dieselbe konsistente Stimme zurückgreifen.

  • Ideal für Content-Updates

    Spätere Korrekturen an Skripttexten gestalten sich aufwendig, wenn Sprecher erneut gebucht und Aufnahmen im Tonstudio wiederholt werden müssen. Dieser unverhältnismäßige Zeit- und Arbeitsaufwand ist für viele Unternehmen auf lange Sicht nicht zu stemmen. Mit Text-to-Speech können gesprochene Texte, die Monate zuvor erstellt wurden, nach Belieben nachträglich geändert werden.

Erhält man also quasi perfekt gesprochene Texte auf Knopfdruck? 

So einfach ist das natürlich nicht! Bei der Nutzung gängiger TTS-Engines werden speziell Fremdwörter und Neologismen oft komplett falsch betont. Das ist problematisch, wenn die korrekte Aussprache Ihrer Corporate Language für Sie ein Muss ist – ob Grundlegendes wie der Firmenname oder wichtige Branchenterminologie.

Gibt es denn ein Rezept gegen diese Qualitätsmängel? 

Ja. Für rundum professionelle Multimedia-Inhalte müssen Spezialisten im Rahmen einer Qualitätssicherung den Audio-Output prüfen und Betonung und Sprachfluss korrigieren. Eine weitere gute Nachricht: TTS-Stimmen sind komplett an Ihre Bedürfnisse anpassbar. Bei vielen Diensten können Sie aus hunderten Stimmprofilen und dutzenden Sprachen auswählen; darüber hinaus lassen sich via Speech Synthesis Markup Language (SSML) Parameter wie Lautstärke, Tonlage, Sprechgeschwindigkeit und die Aussprache von Abkürzungen sowie Datums- und Zeitangaben flexibel voreinstellen.

Falls Sie neugierig geworden sind … 

Kein Problem! Nachfolgend finden Sie zur weiteren Orientierung Links zu den populärsten Systemen: 

Auch Milengo hat eine TTS-Lösung mit innovativer Qualitätssicherung entwickelt:

Johannes Rahm

alle Beiträge lesen

Johannes ist ein erfahrener Übersetzer, Copywriter und SEO-Spezialist, der seit über einem Jahrzehnt in der Lokalisierungsbranche aktiv ist. Sein Fokus liegt dabei auf der Übersetzung von Marketing-Content für führende B2B-Unternehmen in der DACH-Region. Trotz seiner Passion für Science Fiction hält er die menschliche Sprache auch im Zeitalter von KI für unsere mächtigste „Technologie“ und erkundet fortlaufend ihr Potenzial, Menschen und Organisationen zusammenzubringen und zu inspirieren.