Sebuah studi baru dari Microsoft Research mengungkap bahwa kecerdasan buatan generatif, ketika digunakan untuk mengedit dan menulis ulang dokumen perusahaan dalam jangka waktu lama, cenderung memperkenalkan kesalahan dan menurunkan kualitas informasi. Penelitian bertajuk DELEGATE-52 ini mengevaluasi kinerja model bahasa besar dalam tugas membaca, menafsirkan, dan memodifikasi teks kompleks secara beruntun. Hasilnya menunjukkan bahwa meskipun alat-alat ini impresif dalam tugas singkat, mereka dapat menghapus data relevan, mengubah informasi yang benar, dan menghasilkan distorsi progresif saat beroperasi tanpa pengawasan manusia yang konstan.
Benchmark DELEGATE-52: Mengukur Akurasi dalam Tugas Berkelanjutan
DELEGATE-52 dirancang untuk menyimulasikan aktivitas profesional nyata, mencakup puluhan bidang pengetahuan. Berbeda dengan evaluasi tradisional yang berfokus pada pertanyaan terisolasi, tes baru ini mengukur apa yang terjadi ketika sistem AI mendapat otonomi untuk menjalankan alur kerja ekstensif – seperti menyusun laporan, membuat presentasi, dan meringkas konten – dalam beberapa tahap. Para peneliti mengamati bahwa masalah semakin parah seiring bertambahnya jumlah interaksi yang dilakukan AI dalam satu dokumen. Ini terjadi karena kesalahan kecil, meskipun tak tampak pada setiap langkah, terakumulasi seiring waktu.
Fenomena Degradasi Dokumental
Salah satu fenomena sentral yang diidentifikasi adalah apa yang disebut degradasi dokumental – hilangnya presisi secara bertahap saat dokumen melalui beberapa revisi yang dilakukan oleh AI. Informasi yang sedikit dimodifikasi dalam satu revisi dapat dianggap benar pada tahap selanjutnya, menghasilkan distorsi progresif. Perilaku ini mengingatkan pada efek transmisi pesan berantai antarmanusia, di mana perubahan kecil yang terkumpul menghasilkan hasil yang sangat berbeda dari aslinya. Menurut studi, pola ini diamati pada berbagai model canggih yang tersedia di pasar.
Mengapa AI Generatif Kehilangan Presisi?
Model bahasa besar bekerja dengan memprediksi kata mana yang paling mungkin muncul dalam urutan, dalam konteks tertentu. Meskipun pendekatan ini menghasilkan teks yang canggih, ia tidak menjamin pemahaman sempurna tentang makna informasi. Ketika sebuah dokumen diedit berulang kali, model harus memutuskan apa yang dipertahankan, dihapus, atau dimodifikasi – dan dalam banyak kasus, informasi penting diringkas secara berlebihan, ditafsirkan ulang secara tidak tepat, atau digantikan dengan konten yang tampak masuk akal tetapi salah. Dokumen yang panjang menimbulkan tantangan tambahan karena sistem harus mempertimbangkan volume konteks yang besar secara bersamaan.
Python Menunjukkan Performa Lebih Baik
Di antara bidang yang dievaluasi, pemrograman Python menunjukkan kinerja yang relatif lebih unggul. Para peneliti mencatat bahwa tugas pembuatan dan modifikasi kode memiliki karakteristik yang mendukung evaluasi otomatis: kesalahan dapat diidentifikasi melalui pengujian, kompiler, dan validator – sesuatu yang tidak terjadi pada teks tradisional. Ini membantu menjelaskan keberhasilan otomatisasi AI yang cukup besar dalam pengembangan perangkat lunak. Meskipun demikian, para ahli memperingatkan bahwa kode yang dihasilkan AI tetap perlu melalui tinjauan teknis sebelum digunakan dalam produksi.
Peran Kritis Pengawasan Manusia
Kesimpulan utama dari studi DELEGATE-52 adalah bahwa pengawasan manusia tetap penting. Model saat ini, secanggih apa pun, tidak memiliki pemahaman nyata tentang konteks, maksud, atau konsekuensi yang terkait dengan informasi yang mereka manipulasi. Profesional berpengalaman memainkan peran mendasar dalam verifikasi fakta, analisis kritis, identifikasi inkonsistensi, dan validasi hasil. Dalam praktiknya, kombinasi antara AI dan pengawasan manusia cenderung memberikan hasil yang lebih baik daripada pendekatan apa pun secara terpisah. Studi ini menegaskan bahwa untuk aktivitas kritis seperti laporan keuangan, kontrak hukum, dan riset ilmiah, AI harus menjadi alat pendukung, bukan pengganti.
Prospek Kolaborasi Masa Depan
Meskipun ada keterbatasan saat ini, para ahlipercaya bahwa agen AI akan terus berevolusi dengan cepat. Arsitektur baru, jendela konteks yang lebih luas, integrasi dengan basis data eksternal, dan mekanisme verifikasi canggih dapat mengurangi masalah yang diamati saat ini secara signifikan. Banyak pihak berpendapat bahwa masa depan otomatisasi akan bergantung pada penciptaan sistem yang mampu memverifikasi respons mereka sendiri secara terus-menerus – mungkin dengan beberapa agen yang bekerja bersama dan validasi independen. Menurut penelitian, jalur paling menjanjikan adalah kolaborasi antara manusia dan mesin, menggabungkan kecepatan komputasi dengan penilaian manusia.
