Microsoft Research เปิดเผยผลการศึกษาใหม่ที่ชี้ถึงความเสี่ยงของการพึ่งพาปัญญาประดิษฐ์เชิงสร้างสรรค์ในงานเอกสารองค์กร การวิจัยที่ใช้ชื่อว่า DELEGATE-52 ได้ประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในการอ่าน ตีความ และปรับเปลี่ยนเอกสารที่ซับซ้อนอย่างต่อเนื่อง ผลที่ได้บ่งชี้ว่า แม้เครื่องมือเหล่านี้จะมีประสิทธิภาพสูงในงานระยะสั้น แต่เมื่อทำงานโดยไม่มีการควบคุมจากมนุษย์เป็นระยะเวลานาน พวกมันอาจลบข้อมูลสำคัญ เปลี่ยนแปลงเนื้อหาที่ถูกต้อง และสร้างความคลาดเคลื่อนที่เพิ่มขึ้นเรื่อย ๆ ปรากฏการณ์นี้ถูกเรียกว่า 'การเสื่อมของเอกสาร' (document degradation) ซึ่งเป็นประเด็นสำคัญที่องค์กรควรตระหนัก
เกณฑ์วัด DELEGATE-52: การจำลองภาระงานจริง
ทีมวิจัยได้สร้างเกณฑ์วัดที่เรียกว่า DELEGATE-52 ขึ้นเพื่อจำลองกิจกรรมทางวิชาชีพในโลกแห่งความจริง ครอบคลุมหลายสาขาวิชา แตกต่างจากการประเมินแบบดั้งเดิมที่มักเน้นคำถามเดี่ยว ๆ เกณฑ์วัดใหม่นี้จะตรวจสอบว่าเกิดอะไรขึ้นเมื่อระบบปัญญาประดิษฐ์ได้รับอำนาจให้ทำงานในขั้นตอนที่ยาวนาน อาทิ การเขียนรายงาน การสร้างงานนำเสนอ และการสรุปเนื้อหา โดยงานเหล่านี้ต้องดำเนินการผ่านหลายขั้นตอน ผลการศึกษาพบว่าปัญหาต่าง ๆ ทวีความรุนแรงขึ้นตามจำนวนครั้งที่ระบบ AI โต้ตอบกับเอกสารเดียวกัน สาเหตุเกิดจากข้อผิดพลาดเล็กน้อยที่อาจมองไม่เห็นในแต่ละขั้นตอน แต่กลับสะสมและขยายตัวเมื่อเวลาผ่านไป
การสะสมของข้อผิดพลาด: กลไกสำคัญของการเสื่อมคุณภาพ
หนึ่งในปรากฏการณ์หลักที่ถูกระบุคือการเสื่อมของเอกสาร ซึ่งหมายถึงการสูญเสียความแม่นยำอย่างค่อยเป็นค่อยไปเมื่อเอกสารถูกตรวจสอบและแก้ไขโดย AI ซ้ำหลายครั้ง ข้อมูลที่ถูกปรับเปลี่ยนเพียงเล็กน้อยในการแก้ไขครั้งหนึ่งอาจถูกมองว่าถูกต้องในขั้นตอนต่อ ๆ มา ส่งผลให้เกิดความคลาดเคลื่อนที่เพิ่มขึ้นเรื่อย ๆ พฤติกรรมนี้คล้ายกับเกมส่งต่อข้อความที่คนเราส่งข้อมูลต่อกัน โดยการเปลี่ยนแปลงเล็กน้อยเมื่อรวมกันแล้วทำให้ผลลัพธ์แตกต่างจากต้นฉบับอย่างสิ้นเชิง การวิจัยชี้ว่ารูปแบบนี้ปรากฏในโมเดล AI ขั้นสูงหลายตัวที่มีจำหน่ายในตลาดปัจจุบัน
สาเหตุที่ปัญญาประดิษฐ์สูญเสียความแม่นยำ
โมเดลภาษาขนาดใหญ่ทำงานโดยการคาดเดาคำที่มีแนวโน้มจะปรากฏถัดไปตามบริบทที่กำหนด แม้วิธีการนี้จะสามารถสร้างข้อความที่ซับซ้อนและดูสมจริง แต่ก็ไม่รับประกันความเข้าใจที่สมบูรณ์แบบในความหมายของข้อมูล เมื่อเอกสารถูกแก้ไขซ้ำแล้วซ้ำเล่า โมเดลต้องตัดสินใจว่าจะคงไว้ ลบ หรือเปลี่ยนแปลงสิ่งใด ในหลายกรณี ข้อมูลสำคัญถูกสรุปสั้นเกินไป ตีความอย่างไม่เหมาะสม หรือถูกแทนที่ด้วยเนื้อหาที่ฟังดูเป็นไปได้แต่ผิดพลาด เอกสารที่มีความยาวยิ่งเพิ่มความท้าทาย เนื่องจากระบบต้องพิจารณาบริบทจำนวนมากพร้อมกัน ซึ่งเกินขีดความสามารถของโมเดลในปัจจุบัน
การเขียนโปรแกรม Python: จุดเด่นที่แตกต่าง
จากสาขาที่ถูกประเมินทั้งหมด การเขียนโปรแกรมด้วยภาษา Python แสดงผลลัพธ์ที่ค่อนข้างดีกว่า นักวิจัยสังเกตว่าภารกิจในการสร้างและแก้ไขโค้ดมีลักษณะที่เอื้อต่อการประเมินโดยอัตโนมัติ ข้อผิดพลาดสามารถตรวจพบได้ผ่านการทดสอบ คอมไพเลอร์ และเครื่องมือตรวจสอบความถูกต้อง ซึ่งไม่สามารถทำได้กับข้อความทั่วไป ลักษณะนี้ช่วยอธิบายความสำเร็จที่โดดเด่นของการใช้ AI ในการพัฒนาซอฟต์แวร์ อย่างไรก็ตาม ผู้เชี่ยวชาญเตือนว่าโค้ดที่ผลิตโดยปัญญาประดิษฐ์ยังคงต้องผ่านการตรวจสอบทางเทคนิคก่อนนำไปใช้งานจริง เพื่อป้องกันข้อผิดพลาดที่อาจส่งผลกระทบต่อระบบ
บทบาทของมนุษย์ที่ไม่อาจทดแทนได้
ข้อสรุปหลักจาก DELEGATE-52 คือการกำกับดูแลของมนุษย์ยังคงมีความจำเป็นอย่างยิ่ง โมเดล AI ในปัจจุบันไม่ว่าจะก้าวหน้าเพียงใดก็ไม่มีความเข้าใจอย่างแท้จริงในบริบท เจตนา หรือผลกระทบของข้อมูลที่พวกมันจัดการ ผู้เชี่ยวชาญที่มีประสบการณ์มีบทบาทสำคัญในการตรวจสอบข้อเท็จจริง วิเคราะห์อย่างมีวิจารณญาณ ระบุความไม่สอดคล้อง และยืนยันผลลัพธ์ ในทางปฏิบัติ การผสมผสานระหว่างปัญญาประดิษฐ์กับการดูแลของมนุษย์มีแนวโน้มให้ผลลัพธ์ที่ดีกว่าการใช้เพียงวิธีใดวิธีหนึ่ง การวิจัยเน้นย้ำว่าสำหรับงานที่สำคัญ เช่น รายงานทางการเงิน สัญญาทางกฎหมาย และงานวิจัยทางวิทยาศาสตร์ AI ควรเป็นเครื่องมือสนับสนุน ไม่ใช่สิ่งทดแทน
อนาคตของระบบอัตโนมัติ: ความร่วมมือระหว่างมนุษย์กับเครื่องจักร
แม้จะมีข้อจำกัดในปัจจุบัน ผู้เชี่ยวชาญเชื่อว่าตัวแทนปัญญาประดิษฐ์จะยังคงพัฒนาอย่างรวดเร็ว สถาปัตยกรรมใหม่ ๆ หน้าต่างบริบทที่ใหญ่ขึ้น การเชื่อมต่อกับฐานข้อมูลภายนอก และกลไกการตรวจสอบขั้นสูงอาจช่วยลดปัญหาที่พบในปัจจุบันลงได้อย่างมีนัยสำคัญ หลายฝ่ายเสนอว่าอนาคตของระบบอัตโนมัติจะขึ้นอยู่กับการสร้างระบบที่สามารถตรวจสอบคำตอบของตนเองอย่างต่อเนื่อง อาจใช้ตัวแทนหลายตัวทำงานร่วมกันและมีการตรวจสอบที่เป็นอิสระ เส้นทางที่มีแนวโน้มมากที่สุดตามการวิจัยคือการร่วมมือระหว่างมนุษย์กับเครื่องจักร ซึ่งผสมผสานความเร็วในการคำนวณเข้ากับวิจารณญาณของมนุษย์
