Wie gut verstehen KI-Tools eigentlich komplexe Texte? – Die Washington Post hat’s getestet.
In einer aufwendigen Analyse hat die Washington Post fünf bekannte KI-Modelle auf Herz und Nieren geprüft – darunter ChatGPT (GPT‑4o), Claude 3.7, Microsoft Copilot, Gemini 2 und Meta AI. Getestet wurde nicht etwa das Schreiben von Posts oder E-Mails – sondern etwas viel Anspruchsvolleres: das Verstehen und Interpretieren komplexer Originaltexte aus Literatur, Wissenschaft, Recht und Politik. Insgesamt 115 Fragen mussten die KIs beantworten – zu einem Roman, juristischen Verträgen, wissenschaftlichen Studien und einer Rede von Donald Trump. Bewertet wurden die Antworten durch Fachexpert:innen, darunter Jurist:innen, Wissenschaftler:innen und sogar der Autor des untersuchten Romans. 📘 Literarische Analyse - Gewinner: ChatGPT (7,8/10), gefolgt von Claude (7,3). - ChatGPT lieferte die beste Gesamtzusammenfassung, übersah aber wichtige Charaktere (z. B. ehemals versklavte Personen) - Gemini lieferte fehlerhafte Interpretationen (z. B. falsch platzierte Szene) . ⚖️ Juristische Dokumente - Claude siegte (6,9/10) durch detaillierte, nuancierte Antworten zu Vertragsfragen. - ChatGPT verpasste zentrale Klauseln – z. B. zur Erfindungszuordnung oder Zutrittsregelungen im Mietvertrag . - Meta AI und Copilot lieferten vielfach zu vereinfachte oder fragmentarische Antworten . 🧬 Wissenschaftliche Arbeiten - Top-Performer: Claude (7,7), als einzige KI mit 10/10 für eine Studie zum Long‑Covid aus der Sicht von Eric Topol . - Gemina blendete oft relevante Studiendetails aus, obwohl sie nicht halluzinierte . 🗣️ Politische Reden - Sieger: ChatGPT (7,2) – erkannte z. B. echte vs. unspezifische Aussagen in Trumps Rede. - ChatGPT konnte auch Falschbehauptungen faktisch einordnen – etwa zu angeblichen Wahlerfolgen . - Andere Tools versagten bei Tonalitäts- und Detailübertragung . 🏆 Gesamtfazit 1️⃣Claude - Starke Leistungen in Jura & Wissenschaft, keine Halluzinationen - Weniger stark in Literatur & Politik 2️⃣ChatGPT - Top bei Literatur & Politik, gute analytische Tiefe - Schwächen bei juristischen Dokumenten