ChatGPT im Deutschtest: Wie gut ist die KI aus Lektoratssicht?
Seit der Einführung Ende 2022 sorgt ChatGPT für jede Menge Aufregung. Wer diese künstliche Intelligenz ausprobiert, dürfte zunächst einmal sprachlos sein angesichts der Texte, die die Maschine auswirft. Doch wie gut sind die Textergebnisse von ChatGPT eigentlich aus sprachlicher Sicht und wie weit ist ihnen zu trauen?
Um diese neue Technologie besser einordnen zu können, haben wir von ChatGPT generierte Texte einmal genauer unter die Lupe genommen und auf typische Lektoratsaspekte hin geprüft. Unser Fazit: Die Maschine kann viel, aber es ist auch nicht alles Gold, was glänzt.
Orthografie, Grammatik & Co.: ChatGPT auf den Zahn gefühlt
Um unsere eigene Neugier auf ChatGPT zu stillen, haben wir Wortgefährt:innnen das gemacht, was wir am besten können, nämlich lektoriert. Und zwar die Texte, die die KI generiert. Für diesen mehrwöchigen Praxistext haben wir uns deutschsprachige Texte generieren lassen und diese wie normale Lektoratsaufträge behandelt. Die Bandbreite reichte dabei von allgemeinen Wissensthemen über branchenindividuelle Fachartikel bis hin zu eher kreativen Aufgaben wie Werbeanzeigen oder fiktiven Produktbeschreibungen. Schwerpunkt waren vor allem solche Textarten, die für uns Arbeitsalltag sind, also Texte aus den Bereichen Marketing, Wirtschafts- und Unternehmenskommunikation. Die Resultate sind natürlich keineswegs repräsentativ und lediglich eine Momentaufnahme, da sich die Möglichkeiten künstlicher Intelligenzen ständig verändern.
Das Ergebnis vorweggenommen
Das Resultat unseres Tests war, wie könnte es anders sein, zwiespältig. Zunächst überwog Sprachlosigkeit: Der Chatbot schien unbeirrbar und sprachlich einwandfrei auf all unsere Fragen und Aufgaben zu reagieren. An dieser Faszination hat sich bis heute nichts geändert, allerdings relativierte sich dieses Bild – wohlgemerkt immer unter dem Gesichtspunkt von lektoratsrelevanten Kriterien – bei näherem Hinsehen. Nicht nur die teilweise hohe Anzahl an Fehlern war überraschend, auch stilistisch konnte uns der Textoutput nicht so überzeugen, wie es der allgemeine Wirbel um ChatGPT derzeit vermittelt. Zumindest nicht, wenn Kriterien wie Kohärenz, Lebendigkeit und Originalität herangezogen werden. Auf Dauer machte sich bei uns jedenfalls relativ schnell Ermüdung breit. In Hinblick auf die fachliche Richtigkeit und inhaltliche Plausibilität waren die Ergebnisse von ChatGPT teilweise sogar derart haarsträubend, dass wir diesem Thema einen eigenen Beitrag widmen möchten.
Wir fassen im Folgenden unsere Eindrücke zusammen, gegliedert nach den für ein professionelles Lektorat wichtigsten Kriterien:
Prüfkriterium 1: Rechtschreibung/Orthografie
In der ersten Zeit, in der wir uns mit ChatGPT beschäftigt haben, waren wir fast schon erschüttert darüber, wie viele offensichtliche Rechtschreibfehler die KI-Texte enthielten. Im Laufe der Zeit, so unser Eindruck, scheinen verheerende orthografische Ausrutscher deutlich weniger geworden zu sein. Die Maschine lernt hinzu, und das offenbar rasend schnell. Was sie auswirft, ist unter dem Aspekt Rechtschreibung zwar nach wie vor nicht fehlerfrei, aber die Fehler sind anders als die von Menschen. Typische Fehler, die einem bei der Eingabe unterlaufen, wie etwa Buchstabendreher oder fehlende Buchstaben, konnten wir nicht entdecken. Auch mit Stolperfallen der deutschen Sprache geht die KI gut um: Zwischen „das“ und „dass“ etwa kann sie mittlerweile korrekt unterscheiden, Substantivierungen schreibt sie inzwischen weitestgehend groß und bei der Getrennt- und Zusammenschreibung trifft sie mehrheitlich die richtige Entscheidung.
Mit der Zusammenschreibung bzw. Koppelung von Komposita steht die Software hingegen häufig auf Kriegsfuß: Immer wieder stießen wir auf Merkwürdigkeiten wie Taschen-Rechner (statt Taschenrechner), Kriegs-Fuß (statt Kriegsfuß) oder Verbands-Kasten (statt Verbandskasten).
Auch wenn ChatGPT also inzwischen selbst weniger Rechtschreibfehler macht als früher, reproduziert die KI interessanterweise durchaus Fehler, die einem/einer User:in (möglicherweise versehentlich) bei der Eingabe unterlaufen:
Frage: Was verstehst du unter einer Katastrofe?
ChatGPT: Eine Katastrofe ist ein Ereignis, das plötzlich und unerwartet eintritt und große Schäden oder Verluste verursacht.
Dass im weiteren Verlauf der Textantwort dann „Katastrophe“ richtig geschrieben wird, beruhigt zwar etwas, ändert aber nichts an dem anfänglichen Fehler.
Erkennbare Schwierigkeiten hat das System auch im Umgang mit Anglizismen oder Fremdwörtern, etwa bei abweichenden Schreibungen (state-of-the-art statt richtig State-of-the-Art oder makeup statt Make-up) oder bei der nach deutscher Rechtschreibung vorgeschriebenen Koppelung bei Komposita (AI Modelle statt richtig AI-Modelle, Deep Learning-Technologie statt Deep-Learning-Technologie oder Deja Vu Effekt statt Déjà-vu-Effekt).
In Bezug auf Groß-/Kleinschreibung kann ChatGPT überraschend gut unterscheiden, ob ein Adjektiv Teil eines Eigennamens ist oder nicht (Neuer Markt, aber betreutes Wohnen). Doch auch dies gelingt nicht immer, wie das Beispiel erneuerbare Energien zeigt (vgl. dazu Prüfkriterium 5, Einheitlichkeit).
Prüfkriterium 2: Grammatik und sprachliche Richtigkeit
Eine insgesamt größere Fehlerquelle als die Rechtschreibung sind grammatikalische Unrichtigkeiten. So sind wir regelmäßig etwa auf falsche Deklinationen und Beugungen gestoßen.
Frage: Was war der Neue Markt?
ChatGPT: Der Neue Markt war ein Segment der Deutschen Börse, das 1999 eingeführt wurde, um junge, schnell wachsende Unternehmen, insbesondere aus den Bereichen Technologie, Medien und Telekommunikation, den Zugang zu Kapital zu erleichtern. Es war Teil des globalen Boom der Dotcom-Unternehmen (…).
Und auch Fehler bei der Erkennung des richtigen Geschlechts mischten sich in die Texte:
Frage: Definiere EBITDA
ChatGPT: EBITDA steht für “Ergebnis vor Zinsen, Steuern, Abschreibungen und Amortisation” (engl. Earnings Before Interest, Taxes, Depreciation and Amortization). Es ist ein Finanzkennzahl, die angibt, wie viel (...)
Pluralformen stimmen in der Regel, aber nicht immer:
Frage: Wovon träumt unser Igel?
ChatGPT: (…) Es ist nicht bekannt, ob Igels träumen, da ihre Schlafmuster und Gehirnaktivitäten während des Schlafs anders sind als die von Säugetieren, einschließlich Menschen. Es gibt keine Untersuchungen, die zeigen, dass Igels träumen oder dass sie im Schlaf die gleiche Art von Gehirnaktivität aufweisen wie Säugetiere, die träumen.
Abgesehen davon, dass Igel durchaus zu den Säugetieren zählen: Die Mehrzahl muss natürlich „Igel“ lauten. Es ist davon auszugehen, dass im Laufe der Zeit solche simplen Grammatikfehler recht schnell behoben werden. Manchmal scheint sich die Maschine allerdings am eigenen Output regelrecht zu verschlucken. Das Ergebnis sind entstellte Aussagen wie:
(…) Es ist wichtig zu beachten, dass es auch hier Unterschiede in der Verwendung und den Regeln je nachdem welche Schreibweise oder Quelle verwendet wird.
(…) EBITDA berechnet sich, indem man den Umsatzerlös (Einnahmen des Unternehmens aus dem Verkauf von Waren oder Dienstleistungen) mit den betrieblichen Aufwendungen (Materialaufwand, Personalaufwand) und dann subtrahieren die Abschreibungen und Amortisationen verrechnet.
Verunglückte Sätze dieser Art sind ein Phänomen, das sich bis heute auch bei anderen neuronalen KI-Systemen wie DeepL beobachten lässt.
Prüfkriterium 3: Zeichensetzung/Interpunktion
ChatGPT kennt alle gängigen Satzzeichen und geht in der Regel korrekt mit ihnen um. Dass wir in keinem der Fließtexte ein Semikolon finden konnten, untermauert Untersuchungen, die das allmähliche Aussterben dieses Satzzeichens belegen. Auch hier bildet der Chatbot nur das ab, was er von uns vorgesetzt bekommt.
Mit den Kommaregeln allerdings hat die KI ihre Schwierigkeiten, wobei sie tendenziell eher zu wenig als zu viele Kommas setzt. Regelmäßig stießen wir auf Kommafehler wie diese:
(…) EBITDA wird oft als ein Indikator für die operativen Erfolg eines Unternehmens betrachtet und hilft Investoren und Analysten [Komma fehlt] die Effizienz des Unternehmens zu bewerten.
(…) Es gibt auch internationale und nationale Vorschriften und Standards [Komma fehlt] die Unternehmen dazu verpflichten, die Informationen zu ihren Geschäftssegmenten zu veröffentlichen, (…)
(…) Es ist eine unterhaltende fiktive Fernsehserie und die Schöpfer können sich eine gewisse Freiheit genommen haben [Komma fehlt] um die Spannungen und Konflikte zu überspitzen, um die Zuschauer zu unterhalten.
(…) Während des Küssens, [falsches Komma] senden die Nervenenden in den Lippen Signale an das Gehirn, (…)
Das alles sind Fehler, denen man auch bei „menschlichen“ Texten regelmäßig begegnet. Unsere Vermutung: Die KI reproduziert Fehler, solange diese sich in der durchsuchten Datenbasis nur oft genug finden, oder erzeugt sogar eigene. In Bezug auf Rechtschreibung ist das natürlich relativ harmlos – solange es anschließend jemanden gibt, der es korrigiert. Bei Kommas hingegen, die je nach ihrer Platzierung den Sinn und die inhaltliche Aussage verändern können, kann so etwas verheerende Auswirkungen haben – etwa in juristischen oder medizinischen Texten.
Auffällig ist weiterhin, dass Satzzeichen wie Doppelpunkte, Gedankenstriche oder Klammern in Fließtexten extrem statisch eingesetzt werden, das heißt, vor allem für Aufzählungen, Erklärungen oder Hervorhebungen bzw. wörtliche Rede. Gleiches gilt für den Gebrauch von Ausrufe- und Fragezeichen. Von der Fülle an Möglichkeiten, diese Satzzeichen zu verwenden, um Sätze aufzulockern oder ihnen Struktur zu verleihen, macht das System wenig bis keinen Gebrauch – sicherlich ist dies einer der Gründe dafür, dass die Texte von ChatGPT keine Spannung erzeugen und nicht neugierig machen. Sie lassen keinerlei Individualität erkennen – es sind Texte von der Stange.
Empfohlen von LinkedIn
Prüfkriterium 4: Typografie
Wer ChatGPT nutzt, sollte wissen, dass das Tool nicht in der Lage ist, Satzzeichen typografisch korrekt auszugeben. Apostrophe und Anführungszeichen sind immer nur maschinelle, hochgestellte gerade Striche.
Der (gegenüber dem Bindestrich längere) Gedankenstrich ist im Zeichensatz von ChatGPT zwar grundsätzlich vorhanden. Doch auch, wenn ChatGPT selbst anderer Meinung ist: Auf die korrekte Unterscheidung zwischen Binde- und Gedankenstrichen ist kein Verlass:
Frage: Zeig mir den Unterschied zwischen Binde- und Gedankenstrich
ChatGPT: Der Bindestrich und der Gedankenstrich sind beide Satzzeichen, die in der deutschen Sprache verwendet werden. (…) Beispiele für die Verwendung des Bindestrichs sind Wörter wie “Taschen-Rechner” oder “E-Mail-Adresse”. (…) Beispiele für die Verwendung des Gedankenstriches sind Sätze wie “Ich weiß nicht genau - [falscher Strich] vielleicht morgen?” oder “Ich wollte eigentlich - [falscher Strich] aber dann habe ich es mir anders überlegt”.
Leerzeichen werden von ChatGPT richtig gesetzt, allerdings fehlen sie meist vor Auslassungspunkten oder bei Zahlenwerten mit Prozentzeichen. Und auch innerhalb von mehrteiligen Abkürzungen („z.B.“) verzichtet ChatGPT auf die vorgeschriebenen Abstände. Naturgemäß kann es in einem solchen Maschinensystem keine typografischen Feinheiten wie unterschiedliche Abstände, verminderte Zwischenräume etc. geben. Texte müssen daher immer typografisch nachgearbeitet werden, für ein lesefreundliches, ansprechendes Schriftbild braucht es andere Tools. Außerdem wird in diesem Beispiel der Genitiv von „Strich“ uneinheitlich gebildet („Bindestrichs“, aber „Gedankenstriches“). Doch dazu mehr im folgenden Prüfkriterium.
Prüfkriterium 5: Einheitlichkeit und Konsistenz
Eine wesentliche Aufgabe eines Lektorats besteht in der Sicherstellung von Textkonsistenz: etwa dafür zu sorgen, dass zentrale Begriffe, Wordings oder Fachausdrücke stets einheitlich geschrieben sind, genauso wie Abkürzungen, Maßeinheiten, Prozent-, Währungs- oder Zahlenangaben. Der Aufwand für solche Vereinheitlichungen bei ChatGPT-Texten wäre nicht geringer, vermutlich sogar höher als bei menschlichen Texten.
Beispiel Variantenvielfalt, also die Möglichkeit im Deutschen, gleiche Begriffe unterschiedlich zu schreiben: ChatGPT ist nicht in der Lage, sich für eine Schreibweise zu entscheiden, schon gar nicht, den Empfehlungen des Dudens zu folgen. Das System lässt beide Schreibweisen zu und liefert dafür am Beispiel des Wortes „geografisch“ sogar eine erstaunliche Begründung:
Frage: Wann schreibst du “geografisch” und wann “geographisch”?
ChatGPT: “Geografisch” und “geographisch” sind beide korrekte Schreibweisen, die jedoch unterschiedliche Bedeutungen haben. “Geografisch” bezieht sich auf die Beschreibung von Ländern, Regionen und Orten und ihrer geographischen Merkmale. (…) “Geographisch” bezieht sich auf die Wissenschaft der Geographie, die sich mit der Erforschung der Erde und ihrer Bevölkerung beschäftigt. (…) Ich verwende die Schreibweise, die am besten zur gegebenen Kontext und Bedeutung passt.
Die Aussage, die beiden Schreibweisen hätten unterschiedliche Bedeutungen, ist schlichtweg Unfug; „graf“ ist lediglich die neue, heute allgemein übliche Schreibweise der fremdsprachigen Silbe „graph“ (Gleiches gilt für die Bestandteile „fon/phon“ oder „fot/phot“). „Geografisch“ ist die Variante, die sich allgemein durchgesetzt hat und vom Duden empfohlen wird.
Insgesamt haben wir den Eindruck, dass ChatGPT nach beliebigen Kriterien verschiedene Schreibweisen zusammenwürfelt. Ein möglicher Grund: Die KI verarbeitet Texte unterschiedlichster Quellen. Selbst wenn ein Begriff mehrmals unmittelbar hintereinandersteht, wählt die Maschine keine einheitliche Schreibweise:
(…) Der Erfolg von Onlineshops hängt von vielen Faktoren ab. Ein erfolgreicher Online-Shop benötigt eine gut durchdachte Strategie, um potenzielle Kunden anzuziehen und zu halten.
Gerade bei Ausdrücken, die häufig falsch geschrieben werden, wird deutlich, dass der Chatbot durchaus auch Fehler reproduziert: Beispielsweise wird der Begriff „erneuerbare Energien“ in vielen Quellen häufig fälschlicherweise großgeschrieben („Erneuerbare Energien“). In unseren Tests stießen wir erfreulicherweise zwar mehrheitlich auf die richtige Kleinschreibung, aber eben leider nicht immer.
Grundsätzlich bietet ChatGPT unseres Wissens keine Möglichkeit, eigene feste Vorgaben für einen geregelten Umgang mit Schreibweisen einzubinden, also etwa Unternehmens- oder Markenwordings, Glossare oder Ähnliches. Die Konsistenz von Texten sicherzustellen bzw. die Vereinheitlichung von Sprachen und Schreibungen ist daher eine Aufgabe, die auch durch KIs wie ChatGPT perspektivisch nicht abnehmen wird.
Prüfkriterium 6: Sprachstil und Ausdruck
Da ChatGPT in der Lage ist, Texte sämtlicher Gattungen zu generieren, gestaltet sich angesichts der unterschiedlichen Textarten eine übergreifende Beurteilung des Sprachstils schwierig. Zumal die Einschätzung von Stil und Ausdruck nie frei von Subjektivität ist. Ohne Frage, die Beschäftigung mit ChatGPT macht Spaß. Bei uns im Büro hat das Ganze jedenfalls schon für viel Heiterkeit gesorgt. Aber nicht, weil die Text so anregend formuliert sind, sondern weil die Technologie fasziniert. Zu sehen, wie nüchtern die Maschine auf unsere Fragen, und seien sie noch so unsinnig, reagiert, ist teilweise extrem unterhaltsam.
Frage: Wo kann ich Pelzmäntel für Hamster kaufen?
ChatGPT: Es gibt keine Pelzmäntel speziell für Hamster, da dies unnötig und unangemessen wäre. Die Bedürfnisse eines Hamsters in Bezug auf Wärme und Schutz können durch andere Materialien wie Baumwolle, Schafwolle oder synthetischen Materialien erfüllt werden. (…)
(Antwort auf dieselbe Frage, aber anders formuliert): Es ist wichtig zu beachten, dass Hamster empfindliche Tiere sind und dass ihre Haut und ihr Fell besonders geschützt werden müssen. Ein natürliches Material, das für Hamster geeignet ist, ist Baumwolle. Baumwolle ist weich und atmungsaktiv, so dass der Hamster in seinem Pelzmantel nicht überhitzen wird. Es ist auch wichtig darauf zu achten, dass der Pelzmantel nicht zu eng sitzt und dass der Hamster genug Bewegungsfreiheit hat.
Der Unterhaltungswert unserer Tests rührte vor allem daher, dass es eine Maschine ist, die einem hier Rede und Antwort steht. Die Neugier darauf, wie sie wohl auf verschiedene, durchaus absurde Fragen antworten würde, war für uns die treibende Kraft. Aus ästhetischer Sicht dagegen überzeugten die Texte nicht. Lesevergnügen sieht anders aus: Die Formulierungen wirkten überwiegend statisch, leblos und austauschbar. Spannungsbögen, die echte Emotionen auslösen und die Lust aufs Weiterlesen wecken – Fehlanzeige. Genau das sind aber entscheidende Kriterien, wenn es darum geht, Leser:innen zu begeistern oder Kund:innen zu überzeugen.
In den meisten Fällen waren die Texte eher schematisch aufgebaut, häufig nach dem Muster:
Auffällig war, dass über verschiedene Texte hinweg die Einleitungs- oder Schlussfloskeln oftmals identisch formuliert waren, nur mit wechselnden Vokabeln.
Auch wenn tiefer gehende sprachstilistische Analysen im Rahmen unseres Praxistests nicht möglich waren und die Bandbreite der generierten Text- und Themenarten naturgemäß zu unterschiedlichen Resultaten führte, lassen sich unsere Einschätzungen grob wie folgt zusammenfassen:
Selbstverständlich stellt sich bei jedem Text die Frage, welche Anforderungen er erfüllen soll. Grundsätzlich gehen wir allerdings immer davon aus, dass Content gerne gelesen werden sollte. Und hierfür ist es erforderlich, dass Texte über Orthografie hinaus auch in stilistischer Hinsicht ein gewisses Maß an Qualität aufweisen.
Prüfkriterium 7: Inhaltliche Richtigkeit
Last but not least die Gretchenfrage: Wie hat es ChatGPT mit der Wahrheit? Kann man ChatGPT inhaltlich vertrauen? Die Antwort ist ein eindeutiges Nein. Die fachlichen und inhaltlichen Mängel bei unseren Tests waren derart gravierend, dass dass wir auf diese Frage in einen eigenen Beitrag eingehen müssten..
Fazit
ChatGPT überrascht, schockiert und fasziniert. Diese und sicher auch andere KI-Bots werden sich, davon ist auszugehen, perspektivisch massiv auf Gesellschaft und Ökonomie auswirken.
Das Resultat unseres kleinen Deutschtests ist die Erkenntnis, dass ChatGPT vollkommen unberechenbar ist. Manchmal produziert der Bot nahezu fehlerfreie Texte, an anderen Stellen macht er wiederum die absurdesten Patzer – oft gut versteckt. Nach welchen Regeln Fehler generiert werden, war für uns nicht zu erkennen. Oft ließen sie sich nicht mehr reproduzieren, was zeigt, dass jeder Text ein einmaliges, zufallsabhängiges Ergebnis ist, das einzig auf statistischen Wahrscheinlichkeiten basiert.
Mensch und Maschine arbeiten unterschiedlich und machen unterschiedliche Fehler. Darin ähnelt ChatGPT neuronalen Übersetzungsmaschinen wie DeepL oder Systran: Auch hier wirken die Übersetzungen auf den ersten Blick zunächst absolut glaubwürdig. Erst wenn menschliche Übersetzer:innen und Posteditor:innen den Text genauer unter die Lupe nehmen, zeigen sich die logischen, stilistischen, terminologischen – kurz übersetzerischen – Defizite der Maschine. Weil sich die Fehler der KI nicht jedem sofort erschließen, ist genauso wie bei DeepL & Co. auch bei ChatGPT Aufklärungsarbeit extrem wichtig.
Wären die Texte von ChatGPT wirklich als reale Lektoratsaufträge auf unserem Schreibtisch gelandet, hätte es für uns jede Menge Korrektur- und Verbesserungsarbeit gegeben. Möglicherweise ist bei ChatGPT der Korrekturaufwand sogar höher als bei menschlich erzeugten Texten. Während sich aber formale Fehler glücklicherweise noch recht gut korrigieren lassen, sind Mängel in Bezug auf Konsistenz, Sprachstil und Formulierungen deutlich schwerer zu beheben. Dort, wo Textcontent nicht der reinen Informationsvermittlung dient, sondern lesenswert und lesefreundlich sein und professionell erscheinen soll, sind substanziellere Eingriffe unumgänglich (von der Tatsache, dass sich aus Stroh kein Gold spinnen lässt, ganz abgesehen). Wer ChatGPT künftig nutzen will, muss sich hierüber im Klaren sein.
In seiner gegenwärtigen Form ist ChatGPT aus sprachlicher Sicht also ein Hilfsmittel, etwa für die Erstellung von Rohtexten. Aber jeder Output muss in seiner Ganzheit stets genauestens geprüft werden – nicht nur fachlich-inhaltlich, sondern eben auch orthografisch und stilistisch.
Dieser Beitrag wurde ganz ohne ChatGPT-Unterstützung erstellt. Dazu wäre die KI auch (noch?) nicht in der Lage gewesen. Dennoch gehen wir davon aus, dass wir langfristig nicht mehr nur von Menschen geschriebene, sondern zunehmend auch maschinelle Texte korrigieren werden.
Wenn Sie also künftig Ihre KI-Erzeugnisse kontrollieren lassen oder sich einmal fachlich zu den Themen ChatGPT und Sprachqualität austauschen möchten, nehmen Sie doch einfach Kontakt mit uns auf. Bei uns haben Sie übrigens weiterhin mit Menschen zu tun, nicht mit Maschinen.
Diesen und weitere Beiträge zu den Themen Lektorat und Übersetzungen finden Sie auch in unserem Magazin Die bunte Welt der Sprache(n).
Gerade findet man sehr viel Hype um ChatGPT. Ich habe mich daher darüber gefreut, dass ihr den aktuellen Stand von ChatGPT kritisch unter die Lupe genommen habt und einen umfangreichen Beitrag darüber erstellt habt.