Übersetzung per Autopilot

Wer Texte per Software übersetzen lässt, nutzt eine Erfindung des Informatikers Philipp Koehn. Der Mann, der dem Computer Fremdsprachen beibrachte, ist einer der Kandidaten für den Europäischen Erfinderpreis 2013.

Koehn
von Ralf Grötker

Philipp Koehns innovative Methode steckt in so gut wie allen Verfahren maschineller Spracherkennung, die heute auf dem Markt sind

DüsseldorfI. Im Jahr 1999 verfassten die beiden Doktoranden Lawrence Page und Sergey Brin einen Aufsatz mit dem Titel „The PageRank Citation Ranking: Bringing Order to the Web“. Ein technischer Report lediglich– keine von Fachkollegen begutachtete Veröffentlichung in einer führenden wissenschaftlichen Zeitschrift.

Ihre Doktorarbeiten führten Page und Brin danach nicht mehr zu Ende. Es gab anderes zu tun: Das Verfahren, welches in dem Aufsatz beschrieben wird, legte den Grundstein für die Gründung ihre Unternehmens. Page und Brin, die Gründer des IT-Giganten Google, sind heute, wie man weiß, Multimilliardäre.

Auf ähnliche Weise geht auch eine andere Komponente des digitalen Zeitalters auf einen einzigen Aufsatz zurück. Der Titel: „Statistical Phrase-Based Translation“. Veröffentlicht wurde er 2003 in einem Tagungsband. Auf nur sieben Seiten wird hier jene Methode vorgestellt, die es uns heute erlaubt, ohne Rücksicht auf sprachliche Barrieren rund um den Globus miteinander kommunizieren: die automatische Übersetzung.

Wer auf „Google-Übersetzer“ einen Text eingibt oder in einem Webbrowser wie Chrome auf „übersetzen“ drückt, setzt genau jene im Jahr 2003 erstmals im Detail ausgearbeitete Methode der „statistischen phrasenbasierten Übersetzung“ ein. Selbst wenn die Resultate bislang nur selten perfekte Sprachqualität aufweisen: In vielen Fällen reichen sie zumindest aus, um sich orientieren. Und für Profis in Übersetzungsbüros oder den Kommunikationsabteilungen international agierender Konzerne ist der „Autopilot“ längst zum unverzichtbaren Werkzeug der täglichen Arbeit geworden, dessen Ergebnisse von Hand lediglich nachbearbeitet werden.

Federführender Autor jenes Aufsatzes, den andere Wissenschaftler bis heute tausendfach in ihren eigenen Veröffentlichungen zitiert haben, war der deutsche Informatiker Philipp Koehn – ein gebürtiger Bayer, seinerzeit Doktorand an der University von Southern California, heute Professor in Edinburgh. Wenn überhaupt eine Einzelperson als Erfinder jener Übersetzungsalgorithmen gelten kann, die heute auf so gut wie jedem Computer auf der ganzen Welt im Einsatz sind, dann er.

„Unsere Innovation bestand vor allem im dem Modell, welches der Übersetzung zugrunde liegt“, erklärt Koehn. Bis dahin hatten Forscher meist versucht, Computern Grammatikregeln und Wörterbücher beizubringen – ein Ansatz, der die maschinelle Übersetzung zu einem aufwendigen und nur bedingt von Erfolg gekröntem Prozess machte.

Seit den späten 1980er Jahren experimentierten Forscher deshalb auch mit statistischen Verfahren. Auf der Basis von Texten, die bereits in verschiedenen Sprachen vorlagen, wurden die Computer daraufhin trainiert, fremdsprachliche Wörter und deren Übersetzung automatisch zu erkennen.

Das Resultat war eine Wahrscheinlichkeitsaussage: „Mit der Wahrscheinlichkeit X ist die richtige Übersetzung für ‚Zug‘ das englische Wort ‚train‘. Mit der Wahrscheinlicheit Y (nämlich als ‚Schachzug‘) ist es ein ‚move‘“. Mit dem Einzug der phrasenbasierten maschinellen Übersetzung wurden aus den Einzelwörtern Satzsegmente oder Wortketten, für die der Computer nach Äquivalenten sucht. Dies ist die Neuerung, welcher Philipp Koehn den Weg bereitet hat.

In der praktischen Umsetzung besteht das Verfahren der statistischen Übersetzung aus drei Komponenten. Komponente eins: Das bereits beschriebene Übersetzungsmodell. Es definiert, welche Einheiten überhaupt maschinell analysiert werden sollen. Außerdem beinhaltet es Regeln zur Satzstellung. Denn auch phrasenbasiertes Übersetzen erfolgt nicht eins zu eins: Damit aus einem deutschen Satz ein englischer werden kann, müssen oftmals die Satzteile erst umgestellt werden.

Komponente zwei ist ein Trainingsverfahren. „Als Grundlage dafür wählten wir Sitzungsprotokolle des EU-Parlaments aus den Jahren 1996 bis 2012, welche bereits als Übersetzung in die elf Sprachen der EU vorlagen“, so Koehn. Der gesamte Textkorpus umfasst pro Sprache mehr als 50 Millionen Wörter. „Mit Hilfe dieser Texte wurde der Computer darauf trainiert, Satzsegmente aus der einen Sprache Segmenten aus der anderen Sprache mit hoher Trefferwahrscheinlichkeit richtig zuzuordnen.“

Als letzte Komponente kommt noch ein so genannter Decoder hinzu. Der Decoder ist dafür verantwortlich, die übersetzen Wortketten zu fertigen Sätzen zusammen zu setzen. „Dabei muss er die im Übersetzungsmodell definierten Regeln zur Anwendung zu bringen“, erläutert Koehn. „Daraus ergibt sich wiederum, dass der Decoder die Übersetzungsvorschläge für die einzelnen Wortketten auf sinnvolle Weise miteinander kombinieren muss.“

Die Herausforderung in der Programmierung eines solchen Decoders liegt hier vor allem darin, rechnerische Komplexität zu reduzieren. Denn der Anstieg möglicher Kombinationen verläuft exponentiell: „Wenn für alle zwei bis fünf Wörter eines 30 Wort langen Satzes ein ganzes Set verschiedener Übersetzungen vorliegt, kommt man in der Summe leicht auf einige Millionen Varianten!“

Philipp Koehn stellt heute sein Verfahren als Open-Source-Software gratis zur Verfügung.
Philipp Koehn stellt heute sein Verfahren als Open-Source-Software gratis zur Verfügung.

Die Grundkonstellation Sprachmodell – Trainingsverfahren – Decoder steckt in so gut wie allen Verfahren maschineller Spracherkennung, die heute auf dem Markt sind. Philipp Koehns damaliger Kommilitone und Co-Autor des 2003 erschienen Aufsatzes ist heute Abteilungsleiter der Machine Translation Group bei Google.

Als dritter im Bund ist noch Daniel Marcu zu nennen. Er gründete auf der Basis der gemeinsamen Erfindung das Unternehmen „Language Weaver“: eine auf Übersetzungsleistungen für Geschäftskunden und US-Geheimdienste spezialisierte Firma. Language Weaver wurde mittlerweile von der Firma SDL übernommen.

Erfindung als Open-Source-Software

Tatsächlich verspricht der Markt für Übersetzungssoftware gute Wachstumschancen. Analysten schätzen, dass die Branche der Sprachübersetzungs-Software bis zum Jahr 2017 einen Umsatz von jährlich drei Milliarden Dollar erzielen wird. Im Jahr 2010 waren es immerhin bereits 575 Millionen.

Ganz ohne kommerzielle Erfolge ausgegangen ist der eigentlich Erfinder. Philipp Koehn stellt heute sein Verfahren als Open-Source-Software auf seiner Plattform Moses gratis zur Verfügung. Verwendet wird „Moses“ unter anderem vom europäischen Parlament. Die Übersetzungen der Sitzungsberichte, auf deren Basis die erste Generation der phrasenbasierten Übersetzungsalgorithmen trainiert wurde, hat das Parlament mittlerweile eingestellt.

nach oben