Sprachenvielfalt im MT-Universum

Im November 2019 verkündete Amazon, 22 neue Sprachen in seinen Übersetzungsdienst Amazon Translate einzugliedern, darunter Sprachschätze wie Suaheli und Tamil.
Das spiegelt einen allgemeinen Trend: Immer mehr „seltene“ Sprachen werden zur automatischen Übersetzung in immer höherer Qualität angeboten. Erleben wir bald den legendären Babelfisch aus Per Anhalter durch die Galaxis – ein kleiner Helfer im Ohr, der sämtliche Sprachen des Universums aus dem Stehgreif für uns verdolmetscht? Was technologisch bereits heute möglich ist und was noch ins Reich der Science-Fiction gehört, klären wir in diesem Blog-Post.
High-resource vs. low-resource languages
Moderne maschinelle Übersetzungssysteme (MT) basieren auf künstlicher Intelligenz. Der „Treibstoff“, mit dem diese Elektronengehirne gefüttert werden, sind Daten. Im Fall von MT-Systemen handelt es sich dabei um riesige bilinguale Textkorpora. Mindestens 10 Millionen Satzpaare sind zum Training einer solchen Maschine erforderlich. Das benötigte Trainingsmaterial finden MT-Engines unter anderem, indem sie das Web crawlen.
Ideal geeignet sind deshalb Länder mit einer starken Internetpräsenz. Das trifft nicht zuletzt auf die romanischen Sprachen, aber auch auf Englisch und Deutsch zu. Solche Sprachen werden als high-resource languages bezeichnet.
Problematischer hingegen sind die sogenannten low-resource languages. Dabei handelt es sich um Sprachen aus Ländern, in denen vergleichbar wenig Content online verfügbar ist. Dazu zählen zum Beispiel Kroatisch, Slowenisch und Hindi.
Genau, auch Hindi! Zwar handelt es sich dabei um eine der meistgesprochenen Sprachen der Welt, aber in Indien liegen viele offizielle Publikationen oder Handelsdokumente primär auf Englisch, der zweiten offiziellen Amtssprache des Landes, vor. Deshalb findet man im Netz vergleichbar wenig hochwertigen bilingualen Content mit Hindi als Ausgangs- oder Zielsprache.
Schöne, neue Sprachenwelt
Aktuell erleben low-resource languages eine Blütephase. Das hat mehrere Gründe:
- Das technologische Fundament: Moderne MT greift auf neuronale Netze und Deep Learning zurück. Gegenüber herkömmlichen statistischen und regelbasierten Übersetzungsalgorithmen kommt diese Technologie auch gut mit Sprachkombinationen zurecht, die stark abweichende grammatikalische Strukturen aufweisen, etwa Japanisch und Englisch. So erreichen beispielsweise maschinelle Übersetzungen vom Chinesischen ins Deutsche heute eine beachtliche Qualität, was vor 5 Jahren noch undenkbar gewesen wäre.
- Die gegenwärtige Phase im MT-Innovationszyklus: Neuronale MT befindet sich aktuell am Scheitelpunkt der Innovationskurve – die Technologie ist qualitativ ziemlich ausgereizt, dafür nimmt die Sprachenvielfalt weiter zu. Damit einher geht eine Diversifizierung des Markts. Während anfangs große Player wie Google, Microsoft, Amazon und IBM die Branche dominierten, gibt es inzwischen immer mehr Nischenanbieter, die sich auf ein bestimmtes Fachgebiet (z. B. medizinische Übersetzungen) oder weniger verbreitete Sprachen konzentrieren. Für Russisch ist hier beispielsweise Yandex zu nennen und für Chinesisch Baidu, während sich in Korea Naver Papago besonders großer Popularität erfreut.
- Einen weiteren Ansatz zur Verbesserung der Übersetzungsqualität bei seltenen Sprachen liefert Google mit seinem Massively Multilingual NMT System. Das Wort „massiv“ ist dabei keine Übertreibung: Atemberaubende 25 Milliarden Satzpaare sind in Googles MT-System eingeflossen. Die Lösung deckt nicht wie üblich nur ein einziges Sprachenpaar, sondern gleich mehrere Dutzend Sprachen und noch mehr Sprachkombinationen ab. Der zentrale Vorteil: Das mithilfe von high-resource languages entwickelte Sprachmodell kann von low-resource languages referenziert und für weniger gebräuchliche Sprachkombinationen herangezogen werden – etwa bei Übersetzungen vom Französischen ins Irische.
Fazit
Technologie überwindet Sprachbarrieren – das gilt heute mehr denn je! Speziell für Unternehmen, die Märkte in Osteuropa, Skandinavien oder Asien bedienen, sind das gute Nachrichten. Dort kann maschinelle Übersetzung künftig noch stärker dazu beitragen, die Kosten von Lokalisierungskampagnen zu senken.
Da sich der Markt für maschinelle Übersetzungstechnologie rasant wandelt und die angebotenen Lösungen hinsichtlich Qualität und Kosten stark variieren, empfiehlt es sich dabei, mit einem erfahrenen MT Solution Provider wie Milengo zusammenzuarbeiten. Einen kleinen How-to-Guide zur Auswahl eines geeigneten MT-Partners für Ihre Anforderungen finden Sie in diesem Blog-Post.