새로운 연구 결과, 생성형 인공지능(AI)이 기업 문서를 장기간 편집할수록 오류가 누적되어 정보 품질이 심각하게 저하된다는 사실이 확인됐다. 마이크로소프트 리서치의 이번 연구 'DELEGATE-52'는 대형 언어 모델(LLM)이 복잡한 텍스트를 반복적으로 읽고 해석하며 수정할 때 어떤 문제가 발생하는지 집중적으로 분석했다. 단기적인 작업에서는 인상적인 성능을 보이지만, 지속적인 인간 감독 없이 여러 단계를 거치면 관련 데이터가 제거되고 올바른 정보가 변경되는 현상이 관찰됐다. 이 과정에서 점진적 왜곡이 발생하며 최종 문서의 신뢰성이 크게 떨어질 위험이 있다.
DELEGATE-52: 실제 업무 시나리오를 재현한 척도
이번 연구를 위해 개발된 DELEGATE-52 벤치마크는 수십 개의 지식 영역을 아우르는 실제 전문 활동을 모의하도록 설계되었다. 기존 평가가 단독 질문에 초점을 맞춘 반면, 새 테스트는 AI 시스템이 보고서 작성, 프레젠테이션 제작, 콘텐츠 요약 등 여러 단계에 걸친 광범위한 작업 흐름을 자율적으로 수행할 때 어떤 일이 일어나는지 측정한다. 연구진은 동일 문서 내에서 인공지능이 수행하는 상호작용 횟수가 늘어날수록 문제가 심화된다는 점을 관찰했다. 이는 각 단계에서 미미한 오류라도 시간이 지나면서 누적되기 때문이다.
'문서 열화' 현상: 작은 오류의 연쇄
중심적으로 확인된 현상 중 하나는 이른바 문서 열화(document degradation)다. 이는 AI가 여러 차례 교정 작업을 수행하면서 점차 정확성을 잃어가는 현상을 가리킨다. 한 번의 교정에서 살짝 바뀐 정보가 이후 단계에서 올바른 것으로 간주되어 왜곡이 점점 커진다. 이러한 패턴은 사람 간 메시지 전달에서 발생하는 효과와 유사하여, 작은 변화가 누적되면 원본과 크게 다른 결과를 초래한다. 연구에 따르면 이러한 패턴은 시중에 나와 있는 다양한 고급 모델에서 관찰되었다.
대형 언어 모델의 정확도 저하 원인
대형 언어 모델은 주어진 문맥 내에서 어떤 단어가 나올 확률이 높은지 예측하는 방식으로 작동한다. 이런 접근법은 정교한 텍스트를 생성할 수 있지만 정보의 의미를 완벽하게 이해하지는 못한다. 문서가 반복적으로 편집될 때 모델은 무엇을 유지하고 제거하며 수정할지 결정해야 하는데, 종종 중요한 정보가 지나치게 요약되거나 부적절하게 재해석되거나 그럴듯하지만 틀린 내용으로 대체된다. 특히 방대한 문서는 시스템이 동시에 많은 문맥을 고려해야 하므로 추가적인 도전 과제가 된다.
파이썬 프로그래밍의 상대적 강점
평가된 분야 중 파이썬 프로그래밍은 비교적 우수한 성능을 보였다. 연구진은 코드 생성 및 수정 작업이 자동 평가에 유리한 특성을 지닌다고 지적했다. 오류는 테스트, 컴파일러, 검증기를 통해 식별될 수 있어 일반 텍스트에서는 불가능한 피드백이 제공된다. 이는 AI를 통한 소프트웨어 개발 자동화가 상당한 성공을 거둔 이유를 설명해 준다. 그럼에도 전문가들은 AI가 생산한 코드가 실제 운영에 투입되기 전에 기술 검토를 거쳐야 한다고 경고한다.
인간 감독의 필수성
DELEGATE-52 연구의 주요 결론은 인간의 감독이 여전히 필수적이라는 점이다. 현재의 모델은 아무리 발전했다 해도 자신이 다루는 정보의 맥락, 의도, 결과를 진정으로 이해하지 못한다. 숙련된 전문가는 사실 확인, 비판적 분석, 불일치 식별, 결과 검증에서 근본적인 역할을 수행한다. 실제로 인공지능과 인간 감독의 조합은 어떤 단일 접근 방식보다 더 나은 결과를 제공하는 경향이 있다. 연구는 재무 보고서, 법률 계약, 과학 연구 같은 중요한 업무에서 AI는 보조 도구이지 대체자가 되어서는 안 된다고 강조한다.
한계에도 불구하고 전문가들은 AI 에이전트가 빠르게 진화할 것이라고 믿는다. 새로운 아키텍처, 더 큰 컨텍스트 윈도우, 외부 데이터베이스와의 통합, 고급 검증 메커니즘은 현재 관찰된 문제를 크게 줄일 수 있다. 많은 이들은 자동화의 미래가 자신의 답변을 지속적으로 검증할 수 있는 시스템—아마도 여러 에이전트가 협력하고 독립적 검증을 수행하는 방식—을 구축하는 데 달려 있다고 주장한다. 연구에 따르면 가장 유망한 길은 인간과 기계의 협력이며, 이는 컴퓨터의 속도와 인간의 판단을 결합하는 것이다. 이러한 협력 모델이야말로 AI의 잠재력을 최대한 활용하면서도 위험을 최소화하는 방안으로 평가된다.
