Eine neue Studie von Microsoft Research enthüllt ein gravierendes Problem: Künstliche Intelligenz verliert bei der kontinuierlichen Bearbeitung von Unternehmensdokumenten zunehmend an Genauigkeit. Die als DELEGATE-52 bezeichnete Benchmark-Untersuchung analysierte, wie große Sprachmodelle (LLMs) bei wiederholten Lese-, Interpretations- und Änderungsaufgaben abschneiden. Das Ergebnis: Selbst bei kurzen Eingriffen wirken sie beeindruckend, doch über längere Bearbeitungsketten entfernen sie relevante Inhalte, verfälschen korrekte Daten und erzeugen schrittweise Verzerrungen. Die Befunde untergraben die Annahme, dass autonome KI-Dokumentenbearbeitung ohne menschliche Kontrolle verlässlich sei.
Dokumentendegradation: Wenn sich kleine Fehler lawinenartig verstärken
Die Forscher bezeichnen das zentrale Phänomen als Dokumentendegradation. Dabei handelt es sich um den allmählichen Verlust an Präzision, sobald ein Dokument mehrere Überarbeitungen durch eine KI durchläuft. Eine Information, die bei einer Revision leicht verändert wird, gilt in späteren Schritten oft als korrekt – daraus entstehen fortschreitende Verzerrungen. Dieses Verhalten erinnert an das stille Post-Spiel, bei dem kleine Abweichungen in jeder Runde zu einem völlig anderen Ergebnis führen. Die Studie beobachtete dieses Muster bei verschiedenen modernen Modellen auf dem Markt.
Warum Sprachmodelle an ihre Grenzen stoßen
Große Sprachmodelle funktionieren im Kern, indem sie die wahrscheinlichste nächste Wortsequenz vorhersagen – sie besitzen jedoch kein echtes Verständnis für die Bedeutung der Informationen. Wenn ein Dokument mehrfach editiert wird, muss das System entscheiden, was es behalten, entfernen oder ändern soll. In vielen Fällen werden wichtige Inhalte zu stark zusammengefasst, falsch interpretiert oder durch scheinbar plausible, aber falsche Informationen ersetzt. Besonders lange Texte stellen eine Herausforderung dar, da das Modell gleichzeitig ein umfangreiches Kontextfenster berücksichtigen muss.
Python-Coding als positive Ausnahme
Interessanterweise erzielte die Programmierung in Python in der Studie relativ bessere Ergebnisse. Die Forscher stellten fest, dass Aufgaben zur Code-Generierung und -Modifikation von automatischen Prüfmechanismen profitieren: Fehler lassen sich durch Tests, Compiler und Validatoren erkennen – etwas, das bei konventionellen Texten nicht möglich ist. Dies erklärt den beachtlichen Erfolg der KI-Automation im Softwareentwicklungsbereich. Dennoch warnen Experten, dass KI-generierter Code vor dem Produktiveinsatz einer technischen Prüfung bedarf.
Die unersetzbare Rolle des menschlichen Urteils
Die Hauptschlussfolgerung der DELEGATE-52-Studie lautet, dass menschliche Aufsicht weiterhin unverzichtbar ist. Keines der aktuellen Modelle verfügt über ein wirkliches Verständnis für den Kontext, die Absichten oder die Konsequenzen der Daten, die es bearbeitet. Erfahrene Fachleute übernehmen die entscheidende Aufgabe der Faktenprüfung, kritischen Analyse, Identifikation von Inkonsistenzen und Validierung von Resultaten. In der Praxis erzielt die Kombination aus KI und menschlicher Kontrolle bessere Ergebnisse als jeder isolierte Ansatz. Für kritische Anwendungen wie Finanzberichte, juristische Verträge oder wissenschaftliche Arbeiten muss KI ein Hilfsmittel bleiben, kein Ersatz.
Zukunftsperspektiven: Evolution statt Revolution
Trotz der aktuellen Einschränkungen sind die Forscher überzeugt, dass KI-Agenten sich rasant weiterentwickeln werden. Neue Architekturen mit größeren Kontextfenstern, die Anbindung an externe Datenbanken sowie fortschrittliche Verifikationsmechanismen könnten die beobachteten Probleme deutlich reduzieren. Viele Fachleute setzen auf Systeme, die ihre eigenen Antworten kontinuierlich überprüfen – etwa mit mehreren unabhängigen Agenten oder integrierten Validierungsschritten. Der vielversprechendste Weg ist laut Studie die Kooperation von Mensch und Maschine, die Rechengeschwindigkeit mit menschlichem Urteilsvermögen vereint.
