The Premise News
Tecnología

Estudio de Microsoft muestra cómo la IA pierde precisión al editar documentos corporativos extensos

David Wendel Batista
Estudio de Microsoft muestra cómo la IA pierde precisión al editar documentos corporativos extensos PHOTO BY The Premise News | IA OPENAI

La inteligencia artificial generativa, cuando se utiliza para editar y reescribir documentos corporativos durante períodos prolongados, tiende a introducir errores y comprometer la calidad de la información, según un nuevo estudio de Microsoft Research. La investigación, denominada DELEGATE-52, evaluó el rendimiento de grandes modelos de lenguaje (LLM) en tareas sucesivas de lectura, interpretación y modificación de textos complejos. Los resultados indican que, aunque estas herramientas son impresionantes en tareas cortas, pueden eliminar datos relevantes, alterar información correcta y generar distorsiones progresivas cuando operan sin supervisión humana constante. Este hallazgo representa una advertencia directa para empresas que confían en la automatización total de sus flujos documentales.

El fenómeno de la degradación documental

Uno de los conceptos centrales que emergen del estudio es la degradación documental, una pérdida gradual de precisión a medida que un documento pasa por varias revisiones realizadas por IA. Los investigadores observaron que pequeños errores, incluso imperceptibles en cada etapa, se acumulan con el tiempo. Una información ligeramente modificada en una revisión puede ser tratada como correcta en fases posteriores, generando distorsiones progresivas. Este comportamiento recuerda al efecto de transmisión sucesiva de mensajes entre personas, donde pequeñas alteraciones sumadas producen un resultado muy diferente del original. El patrón se repitió en diversos modelos avanzados disponibles en el mercado, según la publicación.

El benchmark DELEGATE-52 y su metodología

Para simular actividades profesionales reales, el equipo de Microsoft creó el DELEGATE-52, un benchmark que abarca decenas de áreas del conocimiento. A diferencia de evaluaciones tradicionales centradas en preguntas aisladas, esta prueba mide lo que ocurre cuando un sistema de IA recibe autonomía para ejecutar flujos extensos —como redactar informes, crear presentaciones y resumir contenidos— en múltiples etapas. Los investigadores detectaron que los problemas se intensifican conforme aumenta el número de interacciones de la inteligencia artificial dentro de un mismo documento. La metodología refleja condiciones de trabajo reales, donde un mismo texto puede ser retocado decenas de veces.

Áreas donde la IA falla y donde resiste

Entre los campos evaluados, la programación en Python destacó por su desempeño relativamente superior. Los expertos notaron que las tareas de generación y modificación de código tienen características que favorecen la evaluación automática: los errores pueden identificarse mediante pruebas, compiladores y validadores, algo que no ocurre con textos tradicionales. Esto ayuda a explicar el éxito considerable de la automatización por IA en el desarrollo de software. Sin embargo, los especialistas advierten que los códigos producidos por inteligencia artificial deben pasar por revisión técnica antes de ser implementados en producción. La edición de documentos narrativos, contratos legales o reportes financieros presenta desafíos mucho mayores.

El desafío de los textos extensos y el contexto

Los grandes modelos de lenguaje operan prediciendo qué palabras tienen mayor probabilidad de aparecer en secuencia dentro de un contexto dado. Aunque esta aproximación genera textos sofisticados, no garantiza una comprensión perfecta del significado de la información. Cuando un documento se edita repetidamente, el modelo debe decidir qué mantener, qué eliminar y qué modificar. En muchos casos, información importante es excesivamente resumida, reinterpretada de forma inadecuada o reemplazada por contenido aparentemente plausible pero incorrecto. Los documentos extensos representan un reto adicional porque exigen que el sistema considere un gran volumen de contexto simultáneamente, aumentando la probabilidad de errores.

La principal conclusión del DELEGATE-52 es que la supervisión humana sigue siendo esencial en tareas críticas. Los modelos actuales, por avanzados que sean, carecen de comprensión real del contexto, las intenciones o las consecuencias asociadas a la información que manipulan. Los profesionales con experiencia desempeñan un papel fundamental en la verificación de hechos, el análisis crítico, la identificación de inconsistencias y la validación de resultados. En la práctica, la combinación entre inteligencia artificial y supervisión humana ofrece mejores resultados que cualquier enfoque aislado. Para actividades como informes financieros, contratos jurídicos e investigaciones científicas, la IA debe ser una herramienta de apoyo, no un sustituto, según el estudio.

Perspectivas futuras: de la autonomía a la colaboración

A pesar de las limitaciones actuales, los especialistas creen que los agentes de IA continuarán evolucionando rápidamente. Nuevas arquitecturas, ventanas de contexto más amplias, integración con bases de datos externas y mecanismos avanzados de verificación podrían reducir significativamente los problemas observados. Muchos defienden que el futuro de la automatización dependerá de sistemas capaces de verificar continuamente sus propias respuestas, tal vez con múltiples agentes trabajando en conjunto y validaciones independientes. El camino más prometedor, según la investigación, es la colaboración entre humanos y máquinas, combinando la velocidad computacional con el juicio humano. Este enfoque permitiría aprovechar las ventajas de la IA sin caer en los riesgos de la autonomía total.

Nuestra perspectiva — The Premise News: El estudio de Microsoft Research llega en un momento crucial, cuando empresas de todo el mundo invierten miles de millones en inteligencia artificial buscando ganancias de productividad. El hallazgo de la degradación documental demuestra que la confianza ciega en sistemas autónomos puede ser peligrosa, especialmente en sectores donde la precisión es innegociable. Lo que está en juego no es solo la calidad de los informes, sino las decisiones basadas en información potencialmente distorsionada, con consecuencias financieras, regulatorias e incluso judiciales. La principal tensión que revela el estudio es la contradicción entre la promesa de automatización total y la realidad de que la IA aún no comprende el significado de lo que manipula. En los próximos meses, los lectores deben seguir de cerca cómo las empresas tecnológicas responden a estas limitaciones: invirtiendo en nuevos métodos de validación o ajustando sus promesas de mercado. Por ahora, la lección más clara es que la inteligencia artificial no reemplaza el ojo crítico humano, sino que lo complementa.

¿Qué te pareció?