Một nghiên cứu mới từ Microsoft Research cho thấy trí tuệ nhân tạo tạo sinh, khi được sử dụng để chỉnh sửa và viết lại tài liệu doanh nghiệp trong thời gian dài, có xu hướng tạo ra lỗi và làm giảm chất lượng thông tin. Nghiên cứu mang tên DELEGATE-52 đã đánh giá hiệu suất của các mô hình ngôn ngữ lớn (LLM) trong các nhiệm vụ đọc, hiểu và sửa đổi văn bản phức tạp liên tiếp. Kết quả chỉ ra rằng, dù các công cụ này ấn tượng trong các tác vụ ngắn, chúng có thể loại bỏ dữ liệu quan trọng, thay đổi thông tin chính xác và gây ra biến dạng tiến triển khi hoạt động không có sự giám sát của con người. Những phát hiện này đặt ra câu hỏi cấp thiết về độ tin cậy của AI trong môi trường doanh nghiệp.
Phát hiện cốt lõi: Sự thoái hóa tài liệu
Một trong những hiện tượng trung tâm được xác định là sự thoái hóa tài liệu – sự mất độ chính xác dần dần khi một văn bản trải qua nhiều lần sửa đổi do AI thực hiện. Thông tin bị thay đổi nhẹ trong một lần chỉnh sửa có thể được coi là đúng ở các giai đoạn sau, tạo ra những biến dạng ngày càng lớn. Hành vi này giống hiệu ứng truyền tin liên tiếp giữa người với người, nơi những thay đổi nhỏ cộng dồn tạo ra kết quả rất khác so với bản gốc. Theo nghiên cứu, mô hình này được quan sát thấy ở nhiều mô hình tiên tiến hiện có trên thị trường. Các nhà khoa học nhấn mạnh rằng đây là một thách thức cố hữu chứ không phải lỗi cá biệt của một hệ thống cụ thể.
Nguyên nhân AI mất chính xác khi biên tập dài hạn
Các mô hình ngôn ngữ lớn hoạt động bằng cách dự đoán từ nào có khả năng xuất hiện tiếp theo trong một ngữ cảnh nhất định. Dù cách tiếp cận này tạo ra văn bản tinh vi, nó không đảm bảo sự hiểu biết hoàn hảo về ý nghĩa thông tin. Khi một tài liệu được chỉnh sửa nhiều lần, mô hình phải quyết định giữ, loại bỏ hay sửa đổi nội dung – trong nhiều trường hợp, thông tin quan trọng bị tóm tắt quá mức, được diễn giải lại không phù hợp hoặc bị thay thế bằng nội dung có vẻ hợp lý nhưng sai. Tài liệu dài đặt ra thách thức bổ sung vì yêu cầu hệ thống xem xét một lượng lớn bối cảnh đồng thời. Điều này giải thích tại sao các lỗi nhỏ ở mỗi bước lại tích lũy thành vấn đề nghiêm trọng theo thời gian.
Ngoại lệ đáng chú ý: Lập trình Python
Trong số các lĩnh vực được đánh giá, lập trình Python cho thấy hiệu suất tương đối vượt trội. Các nhà nghiên cứu nhận thấy các nhiệm vụ tạo và sửa đổi mã code có đặc điểm hỗ trợ đánh giá tự động: lỗi có thể được xác định qua kiểm thử, trình biên dịch và trình xác thực, điều không xảy ra với văn bản truyền thống. Điều này giải thích sự thành công đáng kể của tự động hóa AI trong phát triển phần mềm. Tuy nhiên, các chuyên gia cảnh báo rằng mã code do AI tạo ra vẫn cần được xem xét kỹ thuật trước khi đưa vào sản xuất. Ngay cả trong lĩnh vực này, sự giám sát của con người vẫn là điều kiện tiên quyết để đảm bảo chất lượng và an toàn.
Vai trò không thể thay thế của con người
Kết luận chính từ DELEGATE-52 là sự giám sát của con người vẫn là yếu tố cốt lõi. Các mô hình hiện tại, dù tiên tiến đến đâu, không sở hữu sự hiểu biết thực sự về bối cảnh, ý định hay hậu quả liên quan đến thông tin chúng xử lý. Các chuyên gia giàu kinh nghiệm đóng vai trò quan trọng trong việc xác minh dữ kiện, phân tích phản biện, phát hiện mâu thuẫn và xác nhận kết quả. Trên thực tế, sự kết hợp giữa AI và giám sát con người có xu hướng mang lại kết quả tốt hơn so với bất kỳ cách tiếp cận đơn lẻ nào. Nghiên cứu nhấn mạnh rằng đối với các hoạt động quan trọng như báo cáo tài chính, hợp đồng pháp lý và nghiên cứu khoa học, AI nên là công cụ hỗ trợ, không phải người thay thế. Các doanh nghiệp cần thiết lập quy trình kiểm tra chéo trước khi áp dụng AI vào các quy trình nhạy cảm.
Tương lai của AI và sự hợp tác với con người
Bất chấp những hạn chế hiện tại, các chuyên gia tin rằng các tác nhân AI sẽ tiếp tục phát triển nhanh chóng. Các kiến trúc mới, cửa sổ ngữ cảnh lớn hơn, tích hợp với cơ sở dữ liệu bên ngoài và cơ chế xác minh tiên tiến có thể giảm đáng kể các vấn đề được quan sát hôm nay. Nhiều người cho rằng tương lai của tự động hóa sẽ phụ thuộc vào việc tạo ra các hệ thống có thể liên tục kiểm tra phản hồi của chính mình – có thể với nhiều tác nhân làm việc cùng nhau và các xác thực độc lập. Con đường hứa hẹn nhất, theo nghiên cứu, là sự cộng tác giữa con người và máy móc, kết hợp tốc độ tính toán với phán đoán của con người. Điều này đòi hỏi các tổ chức phải đầu tư vào đào tạo nhân viên để sử dụng AI một cách hiệu quả và có trách nhiệm.
