Un nuovo studio condotto da Microsoft Research ha rivelato che l'intelligenza artificiale generativa, quando impiegata per modificare e riscrivere documenti aziendali per periodi prolungati, tende a introdurre errori e compromettere la qualità delle informazioni. La ricerca, denominata DELEGATE-52, ha valutato le prestazioni di grandi modelli linguistici (LLM) in compiti successivi di lettura, interpretazione e modifica di testi complessi. I risultati indicano che, sebbene questi strumenti siano impressionanti in attività brevi, possono rimuovere dati rilevanti, alterare informazioni corrette e generare distorsioni progressive quando operano senza una supervisione umana costante. Lo studio rappresenta un campanello d'allarme per tutte le organizzazioni che stanno integrando l'IA nei flussi di lavoro quotidiani.
Il benchmark DELEGATE-52: simulare la realtà professionale
Il benchmark DELEGATE-52 è stato creato per simulare attività professionali reali, coprendo decine di aree del sapere. A differenza delle valutazioni tradizionali, che si concentrano su domande isolate, questo nuovo test misura ciò che accade quando un sistema di IA riceve autonomia per eseguire flussi estesi — come redigere rapporti, creare presentazioni e riassumere contenuti — in molteplici fasi. I ricercatori hanno osservato che i problemi si intensificano all'aumentare del numero di interazioni eseguite dall'intelligenza artificiale all'interno dello stesso documento. Questo accade perché piccoli errori, anche impercettibili in ogni passaggio, si accumulano nel tempo, portando a deterioramenti significativi.
Degradazione documentale: il lento accumulo di imprecisioni
Uno dei fenomeni centrali emersi è la cosiddetta degradazione documentale. Si tratta della perdita graduale di accuratezza man mano che un documento viene sottoposto a diverse revisioni condotte dall'IA. Un'informazione leggermente modificata in una revisione può essere considerata corretta in fasi successive, generando distorsioni progressive. Questo comportamento ricorda l'effetto della trasmissione successiva di messaggi tra persone, dove piccole alterazioni sommate producono un risultato molto diverso dall'originale. Secondo la ricerca, tale modello è stato osservato in numerosi modelli avanzati attualmente disponibili sul mercato.
Perché l'intelligenza artificiale perde precisione?
I grandi modelli linguistici funzionano prevedendo quali parole hanno la maggiore probabilità di apparire in sequenza, all'interno di un contesto dato. Sebbene questo approccio generi testi sofisticati, non garantisce una comprensione perfetta del significato delle informazioni. Quando un documento viene modificato ripetutamente, il modello deve decidere cosa mantenere, rimuovere o modificare — e in molti casi, informazioni importanti vengono eccessivamente riassunte, reinterpretate in modo inadeguato o sostituite con contenuti apparentemente plausibili ma errati. I documenti estesi rappresentano una sfida ulteriore, poiché richiedono che il sistema consideri un grande volume di contesto simultaneamente.
Programmazione in Python: un margine di vantaggio
Tra le aree valutate, la programmazione in Python ha mostrato prestazioni relativamente superiori. I ricercatori hanno notato che i compiti di generazione e modifica del codice hanno caratteristiche che favoriscono la valutazione automatica: gli errori possono essere identificati tramite test, compilatori e validatori, cosa che non avviene nei testi tradizionali. Ciò aiuta a spiegare il successo considerevole dell'automazione tramite IA nello sviluppo software. Tuttavia, gli esperti avvertono che i codici prodotti dall'intelligenza artificiale devono comunque essere sottoposti a revisione tecnica prima di essere messi in produzione.
Il ruolo insostituibile della supervisione umana
La principale conclusione del DELEGATE-52 è che la supervisione umana rimane essenziale. I modelli attuali, per quanto avanzati, non possiedono una comprensione reale del contesto, delle intenzioni o delle conseguenze associate alle informazioni che manipolano. I professionisti esperti svolgono un ruolo fondamentale nella verifica dei fatti, nell'analisi critica, nell'identificazione di incongruenze e nella validazione dei risultati. Nella pratica, la combinazione tra intelligenza artificiale e supervisione umana tende a offrire risultati migliori rispetto a qualsiasi approccio isolato. Lo studio rafforza l'idea che per attività critiche come relazioni finanziarie, contratti legali e ricerche scientifiche, l'IA debba essere uno strumento di supporto, non un sostituto.
Nonostante le limitazioni attuali, gli esperti ritengono che gli agenti di IA continueranno a evolversi rapidamente. Nuove architetture, finestre di contesto più ampie, integrazione con database esterni e meccanismi avanzati di verifica potrebbero ridurre significativamente i problemi osservati oggi. Molti sostengono che il futuro dell'automazione dipenderà dalla creazione di sistemi capaci di verificare continuamente le proprie risposte — magari con molteplici agenti che lavorano insieme e validazioni indipendenti. Il percorso più promettente, secondo la ricerca, è la collaborazione tra umani e macchine, che combina velocità computazionale e giudizio umano.
