Microsoft Research tarafından yürütülen yeni bir çalışma, yapay zekanın kurumsal belgeleri düzenlerken zamanla doğruluk kaybettiğini ve hata biriktirdiğini ortaya koydu. DELEGATE-52 adı verilen araştırma, büyük dil modellerinin (LLM) ardışık okuma, yorumlama ve metin değiştirme görevlerindeki performansını değerlendirdi. Sonuçlar, bu araçların kısa süreli işlemlerde etkileyici olduğunu ancak insan müdahalesi olmadan uzun süre çalıştıklarında önemli bilgileri çıkarabildiğini ya da değiştirebildiğini gösteriyor. Araştırmacılar, küçük hataların birikerek giderek daha büyük çarpıtmalara yol açtığını vurguluyor.
DELEGATE-52: Gerçek İş Akışlarını Simüle Eden Yeni Bir Kıyaslama
DELEGATE-52 kıyaslaması, geleneksel testlerden farklı olarak yapay zekanın gerçek profesyonel ortamlardaki davranışını ölçmek üzere tasarlandı. Araştırmacılar, onlarca bilgi alanını kapsayan bu testte sistemlere rapor yazma, sunum hazırlama ve içerik özetleme gibi çok adımlı akışlar boyunca özerklik verdi. Gözlemler, aynı belge üzerinde yapılan etkileşim sayısı arttıkça hataların da belirginleştiğini ortaya koydu. Her aşamada neredeyse fark edilmeyen yanlışlıklar, zamanla ciddi bilgi bozulmalarına dönüşüyor.
Belgesel Bozulma: Küçük Hatalar Nasıl Birikir?
Çalışmanın temel bulgularından biri, belgesel bozulma olarak adlandırılan olgu. Bir belge yapay zeka tarafından birden çok kez revize edildiğinde, ufak bir değişiklik sonraki aşamalarda doğru kabul edilerek giderek büyüyen çarpıtmalara neden oluyor. Bu süreç, insanlar arasında ardışık mesaj iletiminde yaşanan bozulmalara benziyor. Araştırmacılar bu modeli piyasadaki çeşitli gelişmiş dil modellerinde tespit ettiklerini belirtiyor.
Dil Modellerinin Sınırlı Anlayışı
Büyük dil modelleri, bir bağlam içinde en olası kelimeleri tahmin ederek çalışıyor. Bu yaklaşım akıcı metinler üretse de, bilginin anlamını tam olarak kavramayı garanti etmiyor. Bir belge tekrar tekrar düzenlenirken model hangi bilgileri koruyacağına, kaldıracağına ya da değiştireceğine karar vermek zorunda kalıyor. Araştırmaya göre bu noktada önemli veriler aşırı özetleniyor, yanlış yorumlanıyor ya da görünüşte mantıklı ama aslında hatalı içerikle değiştiriliyor. Uzun belgeler, sistemin aynı anda büyük miktarda bağlamı değerlendirmesini gerektirdiği için ek bir zorluk oluşturuyor.
Python Kodlamada Görece Başarı
Değerlendirilen alanlar arasında Python programlama, diğerlerine kıyasla daha iyi bir performans sergiledi. Araştırmacılar, kod oluşturma ve değiştirme görevlerinin otomatik değerlendirmeye daha uygun olduğunu belirtiyor. Hatalar testler, derleyiciler ve doğrulayıcılar tarafından tespit edilebiliyor; bu durum geleneksel metinlerde mümkün olmuyor. Yine de uzmanlar, yapay zeka tarafından üretilen kodların üretime geçmeden önce teknik incelemeden geçmesi gerektiği konusunda uyarıyor.
İnsan Denetiminin Vazgeçilmez Rolü
DELEGATE-52'nin en önemli sonucu, insan denetiminin hâlâ kritik olduğudur. Mevcut modeller ne kadar gelişmiş olursa olsun, işledikleri bilgilerin bağlamını, amacını ya da sonuçlarını gerçek anlamda kavrayamıyor. Deneyimli profesyoneller, doğrulama, eleştirel analiz, tutarsızlıkların belirlenmesi ve sonuçların onaylanması gibi görevlerde hayati bir rol oynuyor. Araştırma, yapay zeka ile insan denetiminin birleştirilmesinin, her iki yaklaşımın tek başına kullanılmasından daha iyi sonuçlar verdiğini ortaya koyuyor. Finansal raporlar, hukuki sözleşmeler ve bilimsel çalışmalar gibi kritik alanlarda yapay zekanın bir destek aracı olarak kullanılması, asla bir ikame olarak görülmemesi gerektiği vurgulanıyor.
Uzmanlar, mevcut sınırlamalara rağmen yapay zeka ajanlarının hızla gelişmeye devam edeceğini öngörüyor. Daha büyük bağlam pencereleri, harici veri tabanlarıyla entegrasyon ve gelişmiş doğrulama mekanizmaları bugün gözlemlenen sorunları önemli ölçüde azaltabilir. Pek çok araştırmacı, otomasyonun geleceğinin, sistemlerin kendi yanıtlarını sürekli olarak denetleyebilmesine bağlı olduğunu düşünüyor. En umut verici yol, hesaplama hızı ile insan yargısını birleştiren insan-makine iş birliği olarak görülüyor.
