마이크로소프트 연구, 생성형 AI의 장기 문서 편집 시 정확도 급감 확인… '문서 열화' 경고

새로운 연구 결과, 생성형 인공지능(AI)이 기업 문서를 장기간 편집할수록 오류가 누적되어 정보 품질이 심각하게 저하된다는 사실이 확인됐다. 마이크로소프트 리서치의 이번 연구 'DELEGATE-52'는 대형 언어 모델(LLM)이 복잡한 텍스트를 반복적으로 읽고 해석하며 수정할 때 어떤 문제가 발생하는지 집중적으로 분석했다. 단기적인 작업에서는 인상적인 성능을 보이지만, 지속적인 인간 감독 없이 여러 단계를 거치면 관련 데이터가 제거되고 올바른 정보가 변경되는 현상이 관찰됐다. 이 과정에서 점진적 왜곡이 발생하며 최종 문서의 신뢰성이 크게 떨어질 위험이 있다.

DELEGATE-52: 실제 업무 시나리오를 재현한 척도

이번 연구를 위해 개발된 DELEGATE-52 벤치마크는 수십 개의 지식 영역을 아우르는 실제 전문 활동을 모의하도록 설계되었다. 기존 평가가 단독 질문에 초점을 맞춘 반면, 새 테스트는 AI 시스템이 보고서 작성, 프레젠테이션 제작, 콘텐츠 요약 등 여러 단계에 걸친 광범위한 작업 흐름을 자율적으로 수행할 때 어떤 일이 일어나는지 측정한다. 연구진은 동일 문서 내에서 인공지능이 수행하는 상호작용 횟수가 늘어날수록 문제가 심화된다는 점을 관찰했다. 이는 각 단계에서 미미한 오류라도 시간이 지나면서 누적되기 때문이다.

'문서 열화' 현상: 작은 오류의 연쇄

중심적으로 확인된 현상 중 하나는 이른바 문서 열화(document degradation)다. 이는 AI가 여러 차례 교정 작업을 수행하면서 점차 정확성을 잃어가는 현상을 가리킨다. 한 번의 교정에서 살짝 바뀐 정보가 이후 단계에서 올바른 것으로 간주되어 왜곡이 점점 커진다. 이러한 패턴은 사람 간 메시지 전달에서 발생하는 효과와 유사하여, 작은 변화가 누적되면 원본과 크게 다른 결과를 초래한다. 연구에 따르면 이러한 패턴은 시중에 나와 있는 다양한 고급 모델에서 관찰되었다.

대형 언어 모델의 정확도 저하 원인

대형 언어 모델은 주어진 문맥 내에서 어떤 단어가 나올 확률이 높은지 예측하는 방식으로 작동한다. 이런 접근법은 정교한 텍스트를 생성할 수 있지만 정보의 의미를 완벽하게 이해하지는 못한다. 문서가 반복적으로 편집될 때 모델은 무엇을 유지하고 제거하며 수정할지 결정해야 하는데, 종종 중요한 정보가 지나치게 요약되거나 부적절하게 재해석되거나 그럴듯하지만 틀린 내용으로 대체된다. 특히 방대한 문서는 시스템이 동시에 많은 문맥을 고려해야 하므로 추가적인 도전 과제가 된다.

파이썬 프로그래밍의 상대적 강점

평가된 분야 중 파이썬 프로그래밍은 비교적 우수한 성능을 보였다. 연구진은 코드 생성 및 수정 작업이 자동 평가에 유리한 특성을 지닌다고 지적했다. 오류는 테스트, 컴파일러, 검증기를 통해 식별될 수 있어 일반 텍스트에서는 불가능한 피드백이 제공된다. 이는 AI를 통한 소프트웨어 개발 자동화가 상당한 성공을 거둔 이유를 설명해 준다. 그럼에도 전문가들은 AI가 생산한 코드가 실제 운영에 투입되기 전에 기술 검토를 거쳐야 한다고 경고한다.

인간 감독의 필수성

DELEGATE-52 연구의 주요 결론은 인간의 감독이 여전히 필수적이라는 점이다. 현재의 모델은 아무리 발전했다 해도 자신이 다루는 정보의 맥락, 의도, 결과를 진정으로 이해하지 못한다. 숙련된 전문가는 사실 확인, 비판적 분석, 불일치 식별, 결과 검증에서 근본적인 역할을 수행한다. 실제로 인공지능과 인간 감독의 조합은 어떤 단일 접근 방식보다 더 나은 결과를 제공하는 경향이 있다. 연구는 재무 보고서, 법률 계약, 과학 연구 같은 중요한 업무에서 AI는 보조 도구이지 대체자가 되어서는 안 된다고 강조한다.

한계에도 불구하고 전문가들은 AI 에이전트가 빠르게 진화할 것이라고 믿는다. 새로운 아키텍처, 더 큰 컨텍스트 윈도우, 외부 데이터베이스와의 통합, 고급 검증 메커니즘은 현재 관찰된 문제를 크게 줄일 수 있다. 많은 이들은 자동화의 미래가 자신의 답변을 지속적으로 검증할 수 있는 시스템—아마도 여러 에이전트가 협력하고 독립적 검증을 수행하는 방식—을 구축하는 데 달려 있다고 주장한다. 연구에 따르면 가장 유망한 길은 인간과 기계의 협력이며, 이는 컴퓨터의 속도와 인간의 판단을 결합하는 것이다. 이러한 협력 모델이야말로 AI의 잠재력을 최대한 활용하면서도 위험을 최소화하는 방안으로 평가된다.

The Premise News 편집부의 시각: 이번 마이크로소프트 리서치의 연구는 전 세계 기업들이 생산성 향상을 위해 AI에 막대한 투자를 하고 있는 시점에서 매우 시의적절하다. 문서 열화 현상의 발견은 자율 시스템에 대한 맹목적 신뢰가 위험할 수 있음을 보여주며, 특히 정확성이 절대적인 금융 보고서나 법률 계약, 과학 연구와 같은 분야에서 더욱 그렇다. 위태로운 것은 보고서의 품질뿐 아니라 잠재적으로 왜곡된 정보에 기반한 의사 결정이며, 이는 재정적, 규제적, 심지어 법적 결과를 초래할 수 있다. 이 이야기가 드러내는 핵심 긴장은 완전 자동화의 약속과 AI가 여전히 자신이 다루는 정보의 의미를 이해하지 못한다는 현실 사이에 존재한다. 앞으로 몇 주 및 몇 달 동안 독자들은 기술 기업들이 이러한 한계에 어떻게 대응하는지 주목해야 할 것이다—새로운 검증 방법에 투자하거나 시장 약속을 조정하는지. 현재로서 가장 중요한 교훈은 인공지능이 인간의 비판적 시선을 대체하지 않으며 단지 보완할 뿐이라는 점이다.