Microsoft-onderzoek toont aan: AI verliest precisie bij…

Generatieve kunstmatige intelligentie verliest systematisch aan precisie wanneer het langdurig wordt ingezet voor het bewerken van bedrijfsdocumenten. Dat blijkt uit een nieuw onderzoek van Microsoft Research, getiteld DELEGATE-52. De studie evalueerde hoe grote taalmodellen presteren bij opeenvolgende taken van lezen, interpreteren en wijzigen van complexe teksten. Hoewel de tools indrukwekkend zijn bij korte opdrachten, kunnen zij zonder constante menselijke supervisie relevante gegevens verwijderen, correcte informatie veranderen en progressieve vervormingen veroorzaken.

De realiteit van autonome AI in bedrijfsomgevingen

Het DELEGATE-52-benchmark is speciaal ontworpen om reële professionele werkzaamheden na te bootsen, verspreid over tientallen kennisdomeinen. In tegenstelling tot traditionele evaluaties, die zich richten op geïsoleerde vragen, meet deze nieuwe test wat er gebeurt wanneer een AI-systeem autonomie krijgt om uitgebreide workflows uit te voeren. Denk aan het opstellen van rapporten, maken van presentaties en samenvatten van inhoud in meerdere stappen. De onderzoekers constateerden dat de problemen toenemen naarmate het aantal interacties van de intelligentie binnen één document stijgt. Kleine fouten, hoe onopvallend ook per stap, stapelen zich in de loop van de tijd op.

Foutencumulatie als sluipend gevaar

Dit cumulatieve effect vormt de kern van een fenomeen dat de onderzoekers documentdegradatie noemen. Het betreft het geleidelijk verlies van nauwkeurigheid naarmate een document meerdere revisies door AI ondergaat. Een licht gewijzigde informatie in een eerdere beurt kan in latere fasen als correct worden beschouwd, wat leidt tot steeds grotere afwijkingen. Het gedrag doet denken aan het doorgeven van boodschappen tussen mensen, waarbij kleine veranderingen samen een totaal ander resultaat opleveren. Volgens het onderzoek werd dit patroon waargenomen bij diverse geavanceerde modellen die momenteel op de markt zijn.

Waarom grote taalmodellen tekortschieten bij herhaalde bewerkingen

De werking van grote taalmodellen is gebaseerd op het voorspellen van de meest waarschijnlijke woorden in een reeks, binnen een gegeven context. Hoewel deze aanpak verfijnde teksten kan produceren, garandeert hij geen perfect begrip van de betekenis van de informatie. Wanneer een document herhaaldelijk wordt bewerkt, moet het model beslissen wat te behouden, verwijderen of wijzigen. In veel gevallen worden belangrijke gegevens te sterk samengevat, onjuist geherinterpreteerd of vervangen door schijnbaar plausibele maar incorrecte inhoud. Lange documenten vormen een extra uitdaging, omdat het systeem een grote hoeveelheid context tegelijkertijd moet verwerken.

Python-programmering als uitzondering

Opvallend is dat programmeren in Python relatief beter presteerde in het onderzoek. De onderzoekers merkten op dat taken voor het genereren en wijzigen van code eigenschappen hebben die automatische evaluatie bevorderen: fouten kunnen worden opgespoord door tests, compilers en validators. Dit in tegenstelling tot traditionele teksten, waar dergelijke automatische controles ontbreken. Dat verklaart mede het aanzienlijke succes van AI-automatisering in softwareontwikkeling. Toch waarschuwen deskundigen dat door AI gegenereerde code technische beoordeling moet ondergaan voordat deze in productie wordt genomen.

Onmisbare menselijke supervisie in kritische processen

De belangrijkste conclusie van het DELEGATE-52-onderzoek is dat menselijk toezicht essentieel blijft. De huidige modellen beschikken niet over een werkelijk begrip van context, intenties of de gevolgen van de informatie die ze manipuleren. Ervaren professionals spelen een cruciale rol bij feitencontrole, kritische analyse, het identificeren van inconsistenties en het valideren van resultaten. In de praktijk levert de combinatie van AI en menselijke supervisie betere resultaten op dan elk van beide afzonderlijk. De studie benadrukt dat voor kritische activiteiten zoals financiële rapporten, juridische contracten en wetenschappelijk onderzoek AI een ondersteunend hulpmiddel moet zijn, geen vervanging.

Ondanks de huidige beperkingen verwachten experts dat AI-agenten snel zullen blijven evolueren. Nieuwe architecturen, grotere contextvensters, integratie met externe databases en geavanceerde verificatiemechanismen kunnen de geobserveerde problemen aanzienlijk verminderen. Velen pleiten voor een toekomst waarin automatisering afhankelijk is van systemen die continu hun eigen antwoorden controleren, mogelijk met meerdere agenten die samenwerken en onafhankelijke validaties uitvoeren. De meest veelbelovende weg, aldus de onderzoekers, is samenwerking tussen mens en machine, waarbij computatiesnelheid wordt gecombineerd met menselijk oordeelsvermogen.

Redactioneel standpunt van The Premise News: Het onderzoek van Microsoft Research komt op een cruciaal moment, nu bedrijven wereldwijd miljarden investeren in AI op zoek naar productiviteitswinst. De ontdekking van documentdegradatie toont aan dat blind vertrouwen in autonome systemen gevaarlijk kan zijn, vooral in sectoren waar precisie ononderhandelbaar is. Wat op het spel staat, is niet alleen de kwaliteit van rapporten, maar beslissingen die worden genomen op basis van potentieel vervormde informatie – met financiële, regelgevende en zelfs juridische gevolgen. De belangrijkste spanning die wordt onthuld is die tussen de belofte van volledige automatisering en de realiteit dat AI nog niet begrijpt wat het manipuleert. In de komende maanden moeten lezers nauwlettend volgen hoe technologiebedrijven op deze beperkingen reageren: door te investeren in nieuwe validatiemethoden of door hun marktbeloften bij te stellen. Voor nu is de belangrijkste les dat kunstmatige intelligentie de kritische menselijke blik niet vervangt – het slechts aanvult.

Microsoft-onderzoek toont aan: AI verliest precisie bij langdurig bewerken van bedrijfsdocumenten

De realiteit van autonome AI in bedrijfsomgevingen

Foutencumulatie als sluipend gevaar

Waarom grote taalmodellen tekortschieten bij herhaalde bewerkingen

Python-programmering als uitzondering

Onmisbare menselijke supervisie in kritische processen

Wat vond u ervan?