Generatieve kunstmatige intelligentie verliest systematisch aan precisie wanneer het langdurig wordt ingezet voor het bewerken van bedrijfsdocumenten. Dat blijkt uit een nieuw onderzoek van Microsoft Research, getiteld DELEGATE-52. De studie evalueerde hoe grote taalmodellen presteren bij opeenvolgende taken van lezen, interpreteren en wijzigen van complexe teksten. Hoewel de tools indrukwekkend zijn bij korte opdrachten, kunnen zij zonder constante menselijke supervisie relevante gegevens verwijderen, correcte informatie veranderen en progressieve vervormingen veroorzaken.
De realiteit van autonome AI in bedrijfsomgevingen
Het DELEGATE-52-benchmark is speciaal ontworpen om reële professionele werkzaamheden na te bootsen, verspreid over tientallen kennisdomeinen. In tegenstelling tot traditionele evaluaties, die zich richten op geïsoleerde vragen, meet deze nieuwe test wat er gebeurt wanneer een AI-systeem autonomie krijgt om uitgebreide workflows uit te voeren. Denk aan het opstellen van rapporten, maken van presentaties en samenvatten van inhoud in meerdere stappen. De onderzoekers constateerden dat de problemen toenemen naarmate het aantal interacties van de intelligentie binnen één document stijgt. Kleine fouten, hoe onopvallend ook per stap, stapelen zich in de loop van de tijd op.
Foutencumulatie als sluipend gevaar
Dit cumulatieve effect vormt de kern van een fenomeen dat de onderzoekers documentdegradatie noemen. Het betreft het geleidelijk verlies van nauwkeurigheid naarmate een document meerdere revisies door AI ondergaat. Een licht gewijzigde informatie in een eerdere beurt kan in latere fasen als correct worden beschouwd, wat leidt tot steeds grotere afwijkingen. Het gedrag doet denken aan het doorgeven van boodschappen tussen mensen, waarbij kleine veranderingen samen een totaal ander resultaat opleveren. Volgens het onderzoek werd dit patroon waargenomen bij diverse geavanceerde modellen die momenteel op de markt zijn.
Waarom grote taalmodellen tekortschieten bij herhaalde bewerkingen
De werking van grote taalmodellen is gebaseerd op het voorspellen van de meest waarschijnlijke woorden in een reeks, binnen een gegeven context. Hoewel deze aanpak verfijnde teksten kan produceren, garandeert hij geen perfect begrip van de betekenis van de informatie. Wanneer een document herhaaldelijk wordt bewerkt, moet het model beslissen wat te behouden, verwijderen of wijzigen. In veel gevallen worden belangrijke gegevens te sterk samengevat, onjuist geherinterpreteerd of vervangen door schijnbaar plausibele maar incorrecte inhoud. Lange documenten vormen een extra uitdaging, omdat het systeem een grote hoeveelheid context tegelijkertijd moet verwerken.
Python-programmering als uitzondering
Opvallend is dat programmeren in Python relatief beter presteerde in het onderzoek. De onderzoekers merkten op dat taken voor het genereren en wijzigen van code eigenschappen hebben die automatische evaluatie bevorderen: fouten kunnen worden opgespoord door tests, compilers en validators. Dit in tegenstelling tot traditionele teksten, waar dergelijke automatische controles ontbreken. Dat verklaart mede het aanzienlijke succes van AI-automatisering in softwareontwikkeling. Toch waarschuwen deskundigen dat door AI gegenereerde code technische beoordeling moet ondergaan voordat deze in productie wordt genomen.
Onmisbare menselijke supervisie in kritische processen
De belangrijkste conclusie van het DELEGATE-52-onderzoek is dat menselijk toezicht essentieel blijft. De huidige modellen beschikken niet over een werkelijk begrip van context, intenties of de gevolgen van de informatie die ze manipuleren. Ervaren professionals spelen een cruciale rol bij feitencontrole, kritische analyse, het identificeren van inconsistenties en het valideren van resultaten. In de praktijk levert de combinatie van AI en menselijke supervisie betere resultaten op dan elk van beide afzonderlijk. De studie benadrukt dat voor kritische activiteiten zoals financiële rapporten, juridische contracten en wetenschappelijk onderzoek AI een ondersteunend hulpmiddel moet zijn, geen vervanging.
Ondanks de huidige beperkingen verwachten experts dat AI-agenten snel zullen blijven evolueren. Nieuwe architecturen, grotere contextvensters, integratie met externe databases en geavanceerde verificatiemechanismen kunnen de geobserveerde problemen aanzienlijk verminderen. Velen pleiten voor een toekomst waarin automatisering afhankelijk is van systemen die continu hun eigen antwoorden controleren, mogelijk met meerdere agenten die samenwerken en onafhankelijke validaties uitvoeren. De meest veelbelovende weg, aldus de onderzoekers, is samenwerking tussen mens en machine, waarbij computatiesnelheid wordt gecombineerd met menselijk oordeelsvermogen.
