ChatGPT für Übersetzungen

Was geht – und was nicht.

Anfrage
Wie können wir Ihnen helfen?
Bitte beachten Sie, dass dieses Formular keinen Dateiupload bietet und sich daher nur für Anfragen allgemeiner Natur eignet. Für eine genaue Preisberechnung müssen wir den Text sichten. Falls Sie den Text parat haben, empfehlen wir, die entsprechende Datei gleich mitzusenden. Falls Sie statt dieser Formularanfrage eine E-Mail mit Anhang senden möchten, klicken Sie hier.

Diese Website ist durch reCAPTCHA geschützt. Deshalb gelten zudem die Datenschutz­bedingungen and Nutzungs­bedingungen von Google.

Beratung

Mit dem Senden der Anfrage stimmen Sie unseren Datenschutzbestimmungen zu.

ChatGPT-Übersetzungen

Überraschend gut, aber noch nicht so gut wie DeepL oder Google Translate.

ChatGPT hat die Welt im Sturm erobert. 100 Millionen Nutzer bereits zwei Monate nach Markteinführung: Das macht OpenAI so schnell keiner nach. An Anwendungsfällen mangelt es nicht. ChatGPT konkurriert mit Suchmaschinen wie Google. Da stellt sich zum Beispiel die Frage, ob man SEO für ChatGPT betreiben kann. ChatGPT kann aber auch Texte übersetzen, was das System für Übersetzungsbüros interessant macht.

Die Übersetzungsbranche beschäftigt sich schon länger mit verschiedenen Sprachmodellen, darunter die verschiedenen GPT-Versionen. Die allgemeine Beurteilung der Systeme fällt bisher aber noch sehr unterschiedlich aus.

Im letzten Report zum Thema maschinelle Übersetzungen zum Beispiel sieht Intento GPT-4 und ChatGPT bereits unter den zehn besten maschinellen Übersetzungsystemen, zumindest für einige Sprachpaare. Bei Google schätzt man die Leistungsfähigkeit zumindest des Vorgängermodells GPT-3 und ähnlicher Systeme noch etwas vorsichtiger ein, scheint es.

Unsere eigenen Testläufe mit ChatGPT fallen genau dazwischen. Stilistisch ist ChatGPT oft besser und flexibler als DeepL und Google Translate. Inhaltlich „verschlimmbessert“ es die Texte regelmäßig. Im Folgenden stellen wir einige Resultate unserer Testläufe vor.

Die Qualität von ChatGPT-Übersetzungen:
Ein Fallbeispiel

Für unseren Testlauf wählten wir einen Textauszug aus einem deutschen Onlineshop. Der Auszug bestand aus 763 Wörtern und enthielt Produktnamen, Merkmalslisten und Produktbeschreibungen.

Um die Möglichkeiten von ChatGPT voll auszuschöpfen, erstellten wir drei verschiedene Prompts: Wir baten 1. um eine reine Übersetzung vom Deutschen ins Englische, 2. um ein Pre-Editing gefolgt von einer Übersetzung und 3. um ein Pre-Editing plus Übersetzung gefolgt von einem Post-Editing. ChatGPT sollte in 2. zunächst den Ausgangstext auf eine maschinelle Übersetzung hin optimieren und erst dann übersetzen. Das Post-Editing in 3. sollte stilistische und begriffliche Unebenheiten bereinigen und Maßeinheiten lokalisieren.

Als Vergleichsbasis nutzten wir DeepL. Besonders für Deutsch-Englisch gilt es als führendes maschinelles Übersetzungssystem. Abschließend unterzogen wir alle Versionen einer Qualitätsprüfung, in der wir die Art und die Häufigkeit der Fehler zählten.

Wie funktioniert ChatGPT?

Einige Grundlagen zum besseren Verständnis.

Bevor wir unsere Erfahrungen mit ChatGPT schildern, lohnt sich ein kurzer Blick auf die Technologie selbst. ChatGPT ist ein generatives Sprachmodell, im Englischen Large Language Model oder auch einfach LLM genannt. Solche Modelle können erstaunlich menschlich wirkende Texte erzeugen, indem sie eine plausible Fortsetzung des bisherigen Textes oder des Prompts errechnen.

Bedenkt man, dass es nahezu unendlich viele mögliche Fragen und Prompts seitens der Nutzer gibt, liegt die Frage nahe: Wie ist das möglich? Indem man das System mit sehr vielen Daten zu vielen verschiedenen Themen antrainiert. GPT-4 etwa wurde mit über 100 Billionen Parametern trainiert. Das sind Millionen von Webseiten, Büchern usw.

Eine spezielle Art von neuronalem Netzwerk, Transformer, erkennt Muster und Zusammenhänge in diesen Daten. Über diese Muster errechnet das Sprachmodell dann Wahrscheinlichkeiten dafür, wie ein Textfragment fortgesetzt werden kann. Anders als herkömmliche Autovervollständigungssysteme wie man sie etwa vom Handy oder von anderen Textverarbeitungsprogrammen kennt, berücksichtigt es dabei aber nicht nur einen Satz, sondern auch längere Textabschnitte und manchmal sogar den gesamten Text.

Eine Analogie mag hier hilfreich sein: Stellen Sie sich vor, Sie lesen einen Krimi. Ein rätselhafter Mord darf natürlich nicht fehlen. Um herauszufinden, wer der Täter ist, achten Sie beim Lesen auf jeden möglichen Hinweis. Sie sammeln diese Hinweise und fügen nach und nach die Teile des Puzzles zusammen, bis sie eine Vermutung haben, wer der Mörder ist. Vielleicht gibt es einen klaren Hauptverdächtigen, aber zumindest am Anfang gibt es viele mögliche Täter. Transformer gehen ähnlich mit Text um, um das nächste Wort vorherzusagen – nur eben auf mathematischer Ebene.

Das System wählt nicht einfach nur stumpf das wahrscheinlichste Wort, den Hauptverdächtigen. Stattdessen berücksichtigt es viele Optionen mit unterschiedlichen Wahrscheinlichkeiten und wählt regelmäßig auch niedriger eingestufte Wörter. Dadurch wirken die erstellten Texte weniger vorhersagbar und deshalb kreativer. Menschlicher eben. Aus diesem Grund gibt ChatGPT auch bei gleichen Prompts unterschiedliche Texte aus. Es ist gerade diese Flexibilität, die ChatGPT so interessant für Übersetzungen macht. Denn herkömmliche maschinellen Übersetzungssysteme wie DeepL oder Google Translate sind starrer und berücksichtigen den Kontext kaum.

Übrigens: Falls Sie die Technologie genauer verstehen möchten, empfehlen wir Stephen Wolframs „What Is ChatGPT Doing… and Why Does It Work?“ zur Einführung. Unsere grobe Erklärung basiert unter anderem auf seinem Artikel.

Die Qualität von ChatGPT-Übersetzungen:
Fehlergewichtung

Generell fällt sowohl bei DeepL als auch bei ChatGPT die hohe Fehlerzahl auf. 67 bis 101 Fehler bei etwa drei Seiten Text wären für kein Unternehmen akzeptabel. Um ein Post-Editing durch einen menschlichen Übersetzer kommt man also nicht herum.

Bei unserem Beispieltext konnte ChatGPT die Anzahl schwerer Fehler gegenüber DeepL zwar etwas reduzieren, allerdings hatte das einen Preis: eine deutliche Zunahme leichter und mittelschwerer Fehler. Ein Pre-Editing konnte in diesem Fall allerdings auch die Anzahl mittelschwerer Fehler etwas reduzieren.

Die Auswertung oben berücksichtigte zwar, wie schwer die Fehler waren, sie unterschied aber noch nicht zwischen Fehlerarten. Im Rahmen einer Qualitätsprüfung werden diese normalerweise gewichtet. Für die meisten Kunden ist zum Beispiel die richtige Schreibweise ihrer Produkte wichtiger als richtig gesetzte Kommas. Beziehen wir unserer Standardgewichtung mit ein, bekommen wir folgende Fehlerwerte:

Auch hier sehen wir, dass schwere Fehler sich durch ChatGPT zwar nicht vermeiden lassen, diese aber gegenüber DeepL etwas reduziert werden können.

Stil und Textfluss

Ein Vorteil mit Nachteilen.

Beinahe 40 Prozent der Segmente, die ChatGPT übersetzt hatte, stimmten mit der Übersetzung von DeepL exakt überein. Das war auch für uns eine Überraschung. Nahezu 80 Prozent waren sehr ähnlich. Diese Ähnlichkeit verringerte sich durch ein vorgeschaltetes Pre-Editing auf 67 Prozent und durch ein nachgeschaltetes Post-Editing auf 55 Prozent – im Guten wie im Schlechten.

Bei Produktbeschreibungen, die als Fließtext vorlagen, brillierte ChatGPT. Die Texte klangen flüssiger und weniger holprig als die von DeepL. Das Sprachniveau ist insbesondere mit einem Post-Editing gegenüber DeepL deutlich gestiegen. Während DeepL von den Satzstrukturen her sehr eng am Ausgangstext blieb, löste sich ChatGPT gelegentlich davon und erzeugte so einen für einen Muttersprachler natürlicher klingenden Text.

Allerdings hatte dieser flexible Umgang mit dem Ausgangstext einen Preis. Zum Beispiel wurden einige Sätze ausgelassen, vermutlich weil sie inhaltlich als redundant eingestuft wurden. Das kann für die Lesbarkeit positiv, bei einem Webshop aber problematisch sein, etwa wenn die Texte zu unterschiedlichen Elementen auf der Webseite gehören und dort präsent sein müssen.

Ein weiteres Problem von ChatGPT war die Groß- und Kleinschreibung bei Listeneinträgen. So schrieb es Materialien wie „90% cotton“, „10% viscose“ machmal groß, auch wenn die Einträge vorher und nachher klein geschrieben wurden. Solche Inkonsistenzen lassen sich zwar einfach beheben, da sie kein Umschreiben ganzer Sätze erfordern, in Summe machen sie aber viel Arbeit.

ChatGPT vs. DeepL:
Stil und Fachbegriffe

Arbeitsaufwand und Kosten, die nötig sind, um eine Übersetzung von ChatGPT auf ein professionelles Niveau zu heben, hängen auch von der Anzahl der Fehler ab. Schließlich machen viele kleine Fehler in Summe auch viel Arbeit, wenn der Text glattgezogen werden soll. Aber auch die Art der Fehler ist wichtig. Ein Komma hinzuzufügen ist eine Sache, einen Satz umschreiben zu müssen ist eine andere.

Gegenüber DeepL überzeugte ChatGPT vor allem stilistisch. Schwere Fehler machte es gar nicht. Mittelschwere Fehler machte es deutlich seltener. Dafür häuften sich aber leichte Probleme. Dargestellt sind die Fehler inklusive unserer Standardgewichtung.

Man sieht sehr schön, dass sich sowohl Pre-Editing als auch Post-Editing positiv auf schwere Terminologiefehler auswirken. Gleichzeitig stieg die Anzahl leichter Fehler. ChatGPT ging mit Produktnamen tendenziell besser um, mit Materialbezeichnungen und Produkteigenschaften aber schlechter. Wer einen fehlerfreien Text wünscht, reduziert den Überarbeitungsaufwand kaum.

Eine technische Herausforderung

Wie CAT-Software mit maschinellen Übersetzungssystemen umgeht.

Nicht jeder Fehler kann ChatGPT angelastet werden. Ob und wie zum Beispiel neue Produkte übersetzt werden sollen, lässt sich oft nicht ohne Rücksprache mit dem Kunden entscheiden. In der Praxis bauen wir daher oft Termdatenbanken auf, die wir dann der maschinellen Übersetzung vorschalten, sofern eine solche vom Kunden gewünscht wird. So lassen sich schwere Terminologiefehler sowohl bei DeepL als auch bei ChatGPT vermeiden. Damit steigt aber auch der Aufwand.

Die Pflege und das Einbinden von Terminologiedatenbanken und Übersetzungsspeichern läuft in der Regel über CAT-Software (CAT = Computer Aided Translation). Steuert man maschinelle Übersetzungsyssteme wie DeepL und ChatGPT allerdings über diese an, ergibt sich ein technisches Problem: CAT-Tools wie memoQ oder Trados schicken den Ausgangstext meist Segment für Segment zum maschinellen Übersetzungssystem. Dieses übersetzt dann jedes Segment einzeln.

Die Qualität von DeepL schränkt das kaum ein. Selbst in der Online-Version scheint es nur den jeweils vorhergehenden Satz zu berücksichtigen. Für ein großes Sprachmodell wie GPT-4 ist das aber Gift. Wichtiger Kontext geht verloren. Der bessere Stil und die sprachliche Flexibität verdankt sich gerade der Fähigkeit, satzübergreifene Zusammenhänge verarbeiten zu können. Die Funktionsweise von CAT-Software reduziert also gelegentlich die Qualität des ChatGPT-Outputs und macht Anschlussfehler und Inkonsistenzen wahrscheinlicher.

Was tun? Übersetzungsbüros wie DialogTicket hoffen natürlich, dass die Entwickler der CAT-Tools die Software entsprechend anpassen. So könnten wir auch große Sprachmodelle ähnlich wie herkömmliche MÜ-Systeme in unsere Übersetzungsprozesse einbinden. Wer die Stärken von ChatGPT voll ausschöpfen möchte, sollte vorerst allerdings alternative Lösungen, zum Beispiel über eine API-Schnittstelle, erwägen.

ChatGPT vs. DeepL:
Auslassfehler und Rechtschreibung

Wie oben bereits angesprochen, neigt ChatGPT dazu, Passagen zu löschen, die es als redundant „empfindet“, zumindest wenn man die Segmente nicht einzeln via CAT-Software übermittelt. Auch bei der Nutzung einer CAT-Software kann es unabhängig vom genutzten Übersetzungsystem passieren, dass beim Einlesen eines Dokuments bestimmte Passagen übersehen und dann nicht übersetzt werden. Die gewichteten Auslassfehler, die in der Auswertungen unten gelistet sind, sind nicht dieser Art.

Bittet man ChatGPT nur um eine Übersetzung, verschlechtern sich Rechtschreibung und Interpunktion gegenüber DeepL. Pre-Editing und Post-Editing machen einen wirklichen Unterschied. Schade, dass gerade während des Pre-Editings und Post-Editings Auslassfehler auftauchten. Immerhin: Beide Systeme konnten schwere und mittelschwere Grammatikfehler vermeiden. Da hat sich in den letzten zehn Jahren sehr viel bei MÜ-Systemen getan.

Fazit: ChatGPT versus MÜ-Industriestandard

Vorteile und Nachteile auf einen Blick.

Abschließend möchten wir Ihnen eine Liste der Stärken und Schwächen von ChatGPT mitgeben. Beginnen wir mit den Vorteilen:

  1. Flexibilität: Anders als DeepL oder Google Translate ist ChatGPT in der Lage, Vorgaben zu berücksichtigen, die über eine reine Übersetzung hinausgehen. Pre-Editing und Post-Editing lassen sich direkt in den Übersetzungsprozess integrieren. Stilistische Änderungen können ebenfalls schnell umgesetzt werden.
  2. Stil: ChatGPT kann Texte erzeugen, die flüssig und natürlich klingen. Gerade bei Marketingtexten, an denen herkömmliche Systeme oft scheitern, sehen wir hier Chancen. Wo es nicht auf eine wörtliche Übersetzung ankommt oder wo diese unangemessen wäre, hat ChatGPT die Nase vorn.
  3. Kontextverständnis: Anders als DeepL kann ChatGPT den Kontext eines Textes berücksichtigen und in die Übersetzung einbeziehen – allerdings nur, wenn es nicht über eines der gängigen CAT-Tools angesteuert wird. Das kann Anschlussfehler vermeiden, die klassische MÜ-Systeme häufig machen.
  4. Lernfähigkeit: Gibt es Probleme mit einer Übersetzung, kann man mit einem Prompt direkt nachfassen. Das funktioniert nicht immer, aber manchmal eben doch. Und „manchmal“ ist immer noch besser als „nie“, denn klassische MÜ-Systeme bieten diese Möglichkeit gar nicht.
  5. Allgemeines Wissen: ChatGPT kann bei der Übersetzung auf Informationen zurückgreifen, die über den Ausgangstext hinausgehen. Das verbessert die Übersetzung mitunter, erzeugt manchmal aber auch Probleme.

Damit kommen wir auch schon zu den Nachteilen:

  1. Compliance: Viele Texte dürfen derzeit aus
    Compliance-Gründen nicht hochgeladen werden. Wer ChatGPT für Übersetzungen nutzen möchte, benötigt auch einen Freigabeprozess. Viele Text dürfen prinzipiell nicht an dritte Parteien weitergeleitet werden, besonders nicht an Parteien außerhalb Europas.
  2. Sprachen: Die Qualität einer ChatGPT-Übersetzung variiert stark von Sprache zu Sprache. Deutsch, Englisch, Spanisch funktionieren relativ gut, andere Sprachen noch nicht. DeepL und Google sind deutlich breiter aufgestellt.
  3. Akkuratheit: Gerade weil ChatGPT auf textexterne Informationen zugreift, können sich falsche Informationen einschleichen. Weil es auf einen guten Sprachfluss achtet, löscht es mitunter Passagen.
  4. Zeit: DeepL und Google Translate können auch große Textmengen schnell übersetzen. ChatGPT ist hier vergleichsweise langsam. Außerdem akzeptiert es längere Texte derzeit noch nicht in einem Rutsch.

Fazit: Es bleibt zu hoffen, dass ChatGPT und ähnliche Sprachmodelle in naher Zukunft auch auf lokalen Servern laufen. So könnten Unternehmen die mit diesen Systemen verbundenden Risiken besser navigieren. ChatGPT ist stilistisch sehr gut, eignet sich als Übersetzungssystem in der jetzigen Version nur bedingt. Wir sehen es derzeit eher als sinnvolle Ergänzung zu bestehenden Systemen, aber nicht als einen Ersatz. Viel hängt davon ab, welche Verbesserung zukünftige Updates bringen werden.

 

Ihr kostenloses Angebot

Fragen kostet nicht. Nicht fragen schon.

Persönliche Beratung

Sie haben Interesse an einem Angebot oder einfach ein paar Fragen? Dann rufen Sie uns an. Wir beraten Sie gern.​​

E-Mail-Anfrage

Sie haben Fragen zu ChatGPT-Übersetzungen? Eine kurze Nachricht genügt und wir melden uns schnellstmöglich zurück.

Anfrageformular

Sie wünschen ein Angebot für eine KI-gestützte Übersetzung eines Textes? Hier geht's zur Anfrage.
Jetzt anfragen!
Persönliche Beratung
Sie haben Interesse an einem Angebot oder einfach ein paar Fragen? Dann rufen Sie uns an. Wir beraten Sie gern.​​
E-Mail-Anfrage
Sie haben Fragen zu ChatGPT-Übersetzungen? Eine kurze Nachricht genügt und wir melden uns schnellstmöglich zurück.
Anfrageformular
Sie wünschen ein Angebot für eine KI-gestützte Übersetzung eines Textes? Hier geht's zur Anfrage.
Jetzt anfragen!
Wie können wir Ihnen helfen?
Bitte beachten Sie, dass dieses Formular keinen Dateiupload bietet und sich daher nur für Anfragen allgemeiner Natur eignet. Für eine genaue Preisberechnung müssen wir den Text sichten. Falls Sie den Text parat haben, empfehlen wir, die entsprechende Datei gleich mitzusenden. Falls Sie statt dieser Formularanfrage eine E-Mail mit Anhang senden möchten, klicken Sie hier.

Diese Website ist durch reCAPTCHA geschützt. Deshalb gelten zudem die Datenschutz­bedingungen and Nutzungs­bedingungen von Google.