A degradação documental é o fenómeno central de um novo estudo da Microsoft Research que expõe como os grandes modelos de linguagem (LLMs) perdem precisão quando encarregados de editar e reescrever documentos corporativos durante longos períodos. A investigação, batizada de DELEGATE-52, analisou o desempenho destes sistemas em tarefas sucessivas de leitura, interpretação e modificação de textos complexos, revelando que, apesar do seu impressionante desempenho em atividades curtas, a autonomia prolongada pode introduzir erros e comprometer a qualidade da informação. Os resultados indicam que, sem supervisão humana constante, a IA pode remover dados relevantes, alterar informações corretas e gerar distorções progressivas. Este alerta surge num momento em que empresas de todo o mundo confiam cada vez mais em ferramentas generativas para redigir relatórios, criar apresentações e resumir conteúdos.
O benchmark DELEGATE-52 e a simulação de fluxos profissionais
Desenvolvido para reproduzir atividades profissionais reais, o DELEGATE-52 abrange dezenas de áreas do conhecimento e diferencia-se das avaliações tradicionais, que geralmente se concentram em perguntas isoladas. O novo teste mede o que acontece quando um sistema de inteligência artificial recebe autonomia para executar fluxos extensos — como redigir relatórios, criar apresentações e resumir conteúdos — em múltiplas etapas. Os investigadores observaram que os problemas se intensificam à medida que o número de interações realizadas pela IA dentro de um mesmo documento aumenta. Isto ocorre porque pequenos erros, mesmo que impercetíveis em cada etapa, acumulam-se ao longo do tempo, gerando um efeito de bola de neve.
O mecanismo da degradação documental
Um dos fenómenos centrais identificados é a chamada degradação documental, ou seja, a perda gradual de precisão à medida que um documento passa por várias revisões conduzidas por inteligência artificial. Uma informação ligeiramente modificada numa revisão pode ser tratada como correta em estágios posteriores, provocando distorções progressivas. Este comportamento lembra o efeito de transmissão sucessiva de mensagens entre pessoas, onde pequenas alterações somadas produzem um resultado muito diferente do original. Segundo a pesquisa, este padrão foi observado em diversos modelos avançados disponíveis no mercado, independentemente da sua sofisticação.
As razões técnicas por detrás da perda de precisão
Os grandes modelos de linguagem funcionam prevendo quais palavras têm maior probabilidade de aparecer em sequência dentro de um contexto dado. Embora esta abordagem gere textos sofisticados, ela não garante uma compreensão perfeita do significado das informações. Quando um documento é editado repetidamente, o modelo precisa decidir o que manter, remover ou modificar — e, em muitos casos, informações importantes são excessivamente resumidas, reinterpretadas de forma inadequada ou substituídas por conteúdo aparentemente plausível, mas incorreto. Documentos extensos representam um desafio adicional, pois exigem que o sistema considere um grande volume de contexto simultaneamente, aumentando a probabilidade de erros.
Exceção na programação em Python
Entre as áreas avaliadas, a programação em Python apresentou um desempenho relativamente superior. Os investigadores notaram que tarefas de geração e modificação de código têm características que favorecem a avaliação automática, uma vez que erros podem ser identificados por testes, compiladores e validadores — algo que não ocorre em textos tradicionais. Isto ajuda a explicar o sucesso considerável da automação por inteligência artificial no desenvolvimento de software. Ainda assim, especialistas alertam que códigos produzidos por IA precisam passar por revisão técnica antes de irem para produção, evidenciando que mesmo neste domínio a supervisão humana continua essencial.
O papel insubstituível da supervisão humana
A principal conclusão do DELEGATE-52 é que a supervisão humana continua essencial. Os modelos atuais, por mais avançados que sejam, não possuem compreensão real do contexto, das intenções ou das consequências associadas às informações que manipulam. Profissionais experientes desempenham um papel fundamental na verificação de factos, análise crítica, identificação de inconsistências e validação de resultados. Na prática, a combinação entre inteligência artificial e supervisão humana tende a oferecer melhores resultados do que qualquer abordagem isolada. O estudo reforça que, para atividades críticas como relatórios financeiros, contratos jurídicos e pesquisas científicas, a IA deve ser uma ferramenta de apoio, não substituta.
Apesar das limitações atuais, especialistas acreditam que os agentes de IA continuarão a evoluir rapidamente. Novas arquiteturas, janelas de contexto maiores, integração com bases de dados externas e mecanismos avançados de verificação podem reduzir significativamente os problemas observados hoje. Muitos defendem que o futuro da automação dependerá da criação de sistemas capazes de verificar continuamente as suas próprias respostas — talvez com múltiplos agentes trabalhando em conjunto e validações independentes. O caminho mais promissor, segundo a pesquisa, é a colaboração entre humanos e máquinas, combinando velocidade computacional com julgamento humano.
