Nghiên cứu của Microsoft: AI mất độ chính xác khi chỉnh sửa…

Một nghiên cứu mới từ Microsoft Research cho thấy trí tuệ nhân tạo tạo sinh, khi được sử dụng để chỉnh sửa và viết lại tài liệu doanh nghiệp trong thời gian dài, có xu hướng tạo ra lỗi và làm giảm chất lượng thông tin. Nghiên cứu mang tên DELEGATE-52 đã đánh giá hiệu suất của các mô hình ngôn ngữ lớn (LLM) trong các nhiệm vụ đọc, hiểu và sửa đổi văn bản phức tạp liên tiếp. Kết quả chỉ ra rằng, dù các công cụ này ấn tượng trong các tác vụ ngắn, chúng có thể loại bỏ dữ liệu quan trọng, thay đổi thông tin chính xác và gây ra biến dạng tiến triển khi hoạt động không có sự giám sát của con người. Những phát hiện này đặt ra câu hỏi cấp thiết về độ tin cậy của AI trong môi trường doanh nghiệp.

Phát hiện cốt lõi: Sự thoái hóa tài liệu

Một trong những hiện tượng trung tâm được xác định là sự thoái hóa tài liệu – sự mất độ chính xác dần dần khi một văn bản trải qua nhiều lần sửa đổi do AI thực hiện. Thông tin bị thay đổi nhẹ trong một lần chỉnh sửa có thể được coi là đúng ở các giai đoạn sau, tạo ra những biến dạng ngày càng lớn. Hành vi này giống hiệu ứng truyền tin liên tiếp giữa người với người, nơi những thay đổi nhỏ cộng dồn tạo ra kết quả rất khác so với bản gốc. Theo nghiên cứu, mô hình này được quan sát thấy ở nhiều mô hình tiên tiến hiện có trên thị trường. Các nhà khoa học nhấn mạnh rằng đây là một thách thức cố hữu chứ không phải lỗi cá biệt của một hệ thống cụ thể.

Nguyên nhân AI mất chính xác khi biên tập dài hạn

Các mô hình ngôn ngữ lớn hoạt động bằng cách dự đoán từ nào có khả năng xuất hiện tiếp theo trong một ngữ cảnh nhất định. Dù cách tiếp cận này tạo ra văn bản tinh vi, nó không đảm bảo sự hiểu biết hoàn hảo về ý nghĩa thông tin. Khi một tài liệu được chỉnh sửa nhiều lần, mô hình phải quyết định giữ, loại bỏ hay sửa đổi nội dung – trong nhiều trường hợp, thông tin quan trọng bị tóm tắt quá mức, được diễn giải lại không phù hợp hoặc bị thay thế bằng nội dung có vẻ hợp lý nhưng sai. Tài liệu dài đặt ra thách thức bổ sung vì yêu cầu hệ thống xem xét một lượng lớn bối cảnh đồng thời. Điều này giải thích tại sao các lỗi nhỏ ở mỗi bước lại tích lũy thành vấn đề nghiêm trọng theo thời gian.

Ngoại lệ đáng chú ý: Lập trình Python

Trong số các lĩnh vực được đánh giá, lập trình Python cho thấy hiệu suất tương đối vượt trội. Các nhà nghiên cứu nhận thấy các nhiệm vụ tạo và sửa đổi mã code có đặc điểm hỗ trợ đánh giá tự động: lỗi có thể được xác định qua kiểm thử, trình biên dịch và trình xác thực, điều không xảy ra với văn bản truyền thống. Điều này giải thích sự thành công đáng kể của tự động hóa AI trong phát triển phần mềm. Tuy nhiên, các chuyên gia cảnh báo rằng mã code do AI tạo ra vẫn cần được xem xét kỹ thuật trước khi đưa vào sản xuất. Ngay cả trong lĩnh vực này, sự giám sát của con người vẫn là điều kiện tiên quyết để đảm bảo chất lượng và an toàn.

Vai trò không thể thay thế của con người

Kết luận chính từ DELEGATE-52 là sự giám sát của con người vẫn là yếu tố cốt lõi. Các mô hình hiện tại, dù tiên tiến đến đâu, không sở hữu sự hiểu biết thực sự về bối cảnh, ý định hay hậu quả liên quan đến thông tin chúng xử lý. Các chuyên gia giàu kinh nghiệm đóng vai trò quan trọng trong việc xác minh dữ kiện, phân tích phản biện, phát hiện mâu thuẫn và xác nhận kết quả. Trên thực tế, sự kết hợp giữa AI và giám sát con người có xu hướng mang lại kết quả tốt hơn so với bất kỳ cách tiếp cận đơn lẻ nào. Nghiên cứu nhấn mạnh rằng đối với các hoạt động quan trọng như báo cáo tài chính, hợp đồng pháp lý và nghiên cứu khoa học, AI nên là công cụ hỗ trợ, không phải người thay thế. Các doanh nghiệp cần thiết lập quy trình kiểm tra chéo trước khi áp dụng AI vào các quy trình nhạy cảm.

Tương lai của AI và sự hợp tác với con người

Bất chấp những hạn chế hiện tại, các chuyên gia tin rằng các tác nhân AI sẽ tiếp tục phát triển nhanh chóng. Các kiến trúc mới, cửa sổ ngữ cảnh lớn hơn, tích hợp với cơ sở dữ liệu bên ngoài và cơ chế xác minh tiên tiến có thể giảm đáng kể các vấn đề được quan sát hôm nay. Nhiều người cho rằng tương lai của tự động hóa sẽ phụ thuộc vào việc tạo ra các hệ thống có thể liên tục kiểm tra phản hồi của chính mình – có thể với nhiều tác nhân làm việc cùng nhau và các xác thực độc lập. Con đường hứa hẹn nhất, theo nghiên cứu, là sự cộng tác giữa con người và máy móc, kết hợp tốc độ tính toán với phán đoán của con người. Điều này đòi hỏi các tổ chức phải đầu tư vào đào tạo nhân viên để sử dụng AI một cách hiệu quả và có trách nhiệm.

Quan điểm của The Premise News: Nghiên cứu của Microsoft Research ra mắt vào thời điểm then chốt, khi các doanh nghiệp trên toàn thế giới đầu tư hàng tỷ đô la vào AI để tăng năng suất. Khám phá về sự thoái hóa tài liệu cho thấy sự tin tưởng mù quáng vào các hệ thống tự động có thể nguy hiểm, đặc biệt trong những lĩnh vực đòi hỏi độ chính xác tuyệt đối. Điều đang bị đặt cược không chỉ là chất lượng của các báo cáo, mà còn là những quyết định dựa trên thông tin có khả năng bị bóp méo – với các hậu quả tài chính, quy định và thậm chí pháp lý. Căng thẳng chính được phơi bày là giữa lời hứa về tự động hóa hoàn toàn và thực tế rằng AI vẫn chưa hiểu được ý nghĩa của những gì nó thao túng. Trong những tháng tới, độc giả nên theo dõi sít sao cách các công ty công nghệ phản ứng với những hạn chế này: đầu tư vào các phương pháp xác nhận mới hay điều chỉnh lời hứa thị trường của họ. Bài học cho các nhà lãnh đạo doanh nghiệp là không nên giao phó hoàn toàn các quy trình quan trọng cho AI mà thiếu cơ chế giám sát chặt chẽ. Cho đến nay, bài học quan trọng nhất là trí tuệ nhân tạo không thay thế được con mắt phê bình của con người – nó chỉ bổ sung cho nó mà thôi.

Nghiên cứu của Microsoft: AI mất độ chính xác khi chỉnh sửa tài liệu doanh nghiệp dài hạn

Phát hiện cốt lõi: Sự thoái hóa tài liệu

Nguyên nhân AI mất chính xác khi biên tập dài hạn

Ngoại lệ đáng chú ý: Lập trình Python

Vai trò không thể thay thế của con người

Tương lai của AI và sự hợp tác với con người

Bạn nghĩ sao?