Wie gut verstehen KI-Tools eigentlich komplexe Texte? – Die Washington Post hat’s getestet.

In einer aufwendigen Analyse hat die Washington Post fünf bekannte KI-Modelle auf Herz und Nieren geprüft – darunter ChatGPT (GPT‑4o), Claude 3.7, Microsoft Copilot, Gemini 2 und Meta AI. Getestet wurde nicht etwa das Schreiben von Posts oder E-Mails – sondern etwas viel Anspruchsvolleres: das Verstehen und Interpretieren komplexer Originaltexte aus Literatur, Wissenschaft, Recht und Politik.

Insgesamt 115 Fragen mussten die KIs beantworten – zu einem Roman, juristischen Verträgen, wissenschaftlichen Studien und einer Rede von Donald Trump. Bewertet wurden die Antworten durch Fachexpert:innen, darunter Jurist:innen, Wissenschaftler:innen und sogar der Autor des untersuchten Romans.

📘 Literarische Analyse

Gewinner: ChatGPT (7,8/10), gefolgt von Claude (7,3).
ChatGPT lieferte die beste Gesamtzusammenfassung, übersah aber wichtige Charaktere (z. B. ehemals versklavte Personen)
Gemini lieferte fehlerhafte Interpretationen (z. B. falsch platzierte Szene) .

⚖️ Juristische Dokumente

Claude siegte (6,9/10) durch detaillierte, nuancierte Antworten zu Vertragsfragen.
ChatGPT verpasste zentrale Klauseln – z. B. zur Erfindungszuordnung oder Zutrittsregelungen im Mietvertrag .
Meta AI und Copilot lieferten vielfach zu vereinfachte oder fragmentarische Antworten .

🧬 Wissenschaftliche Arbeiten

Top-Performer: Claude (7,7), als einzige KI mit 10/10 für eine Studie zum Long‑Covid aus der Sicht von Eric Topol .
Gemina blendete oft relevante Studiendetails aus, obwohl sie nicht halluzinierte .

🗣️ Politische Reden

Sieger: ChatGPT (7,2) – erkannte z. B. echte vs. unspezifische Aussagen in Trumps Rede.
ChatGPT konnte auch Falschbehauptungen faktisch einordnen – etwa zu angeblichen Wahlerfolgen .
Andere Tools versagten bei Tonalitäts- und Detailübertragung .

🏆 Gesamtfazit

1️⃣Claude - Starke Leistungen in Jura & Wissenschaft, keine Halluzinationen - Weniger stark in Literatur & Politik

2️⃣ChatGPT - Top bei Literatur & Politik, gute analytische Tiefe - Schwächen bei juristischen Dokumenten

Andere: Teils gute Einzelleistungen - Inkonsistenzen, häufig Halluzinationen

Claude ist der einzige Chatbot, der keine erfundenen Informationen generierte .
Keine KI erreichte über 70 % Genauigkeit, was in vielen Fällen nur ein „D‑Niveau“ ist .
Gemeinsame Limitierungen: Überschätzen Nuancen, lassen Kontext aus, reagieren oft mit über positiver Wortwahl auf komplexe Inhalte .

Claude zeigt sich ausgewogen und zuverlässig – besonders in komplexen Bereichen wie Wissenschaft und Recht. ChatGPT überzeugt stark in Textverständnis und rhetorischer Analyse. Trotzdem bleibt menschliches Lesen und kritische Prüfung unerlässlich, da keine KI fehlerfrei ist und alle ihre Grenzen haben.

✅ Praxistipps & Empfehlungen der Experten

KI ist ein Hilfsmittel, kein Ersatz für kritische Eigenlektüre – besonders bei wichtigen Dokumenten .
Mindestens zwei Tools parallel nutzen, um unterschiedliche Perspektiven zu erhalten .
Vorsicht bei sensiblen Kontexten – Jura, komplexe Wissenschaft oder Strategie müssen von Mensch geprüft werden .

5 comments

Wie gut verstehen KI-Tools eigentlich komplexe Texte? – Die Washington Post hat’s getestet.