โมเดลภาษาใหญ่สามารถมีความสามารถในการ推理ที่ไม่ใช่ภาษาได้หรือไม่?

Question

แหล่งที่มา: Quantum Numberบทความพาดหัวโดย Ars Technica วันนี้สํารวจคําถามที่ว่าแบบจําลองภาษาขนาดใหญ่มีความสามารถในการให้เหตุผลที่ไม่ใช่คําพูดหรือไม่โดยอ้างถึงการค้นพบของนักวิจัยว่าการประมวลผลใน "ช่องว่างแฝง" สามารถช่วย AI แก้ปัญหาตรรกะที่มีหนามได้ เกิดอะไรขึ้นเรามาดูกันดีกว่าจนถึงปัจจุบันแบบจําลองภาษาขนาดใหญ่ประสบความสําเร็จอย่างมากโดยใช้สถาปัตยกรรมหม้อแปลงไฟฟ้าเพื่อทํานายคําถัดไป (เช่นเครื่องหมายทางภาษาศาสตร์) ที่จําเป็นในการตอบคําถามได้อย่างมีประสิทธิภาพ อย่างไรก็ตามเมื่อพูดถึงงานการให้เหตุผลที่ซับซ้อนซึ่งต้องใช้ตรรกะเชิงนามธรรมนักวิจัยบางคนพบว่าการอธิบายทุกอย่างผ่าน "พื้นที่ทางภาษาศาสตร์" นี้อาจนําไปสู่ปัญหาบางอย่างแม้กระทั่งสําหรับแบบจําลอง "การอนุมาน" ที่ทันสมัยขณะนี้นักวิจัยกำลังพยายามแก้ปัญหาเหล่านี้โดยออกแบบโมเดลที่สามารถคำนวณเฉพาะใน "พื้นที่ลึก" - คือชั้นคำนวณที่ซ่อนอยู่ก่อนที่โมเดลจะสร้างภาษา - เพื่อคำนวณสมมติฐานแบบลึก ๆ ออกมาได้ กล่าวคือ วิธีการนี้อาจจะไม่ทำให้ความสามารถในการคิดของโมเดลภาษาขนาดใหญ่เปลี่ยนแปลงอย่างมาก แต่มันโดยเฉพาะเพิ่มความแม่นยำของปัญหาทางตรรกะบางประเภทและชี้ทิศทางสำคัญให้กับการวิจัยใหม่## **รอสักครู่ พื้นที่อะไรนั่น?**โมเดิร์นโมเดลการแก้ปัญหา (เช่น o1 ของ ChatGPT) มักมีแนวโน้มที่จะทำงานโดยการสร้าง "เชือกความคิด" ในโมเดลเหล่านั้น กระบวนการตรรกะทุกขั้นตอนจะถูกแทนด้วยชุดของตัวชี้ภาษาธรรมชาติและได้รับการตอบกลับจากโมเดลในบทความใหม่นักวิจัยจากทีมวิจัย AI พื้นฐานของ Meta และ University of California, San Diego มองว่าการพึ่งพาภาษาธรรมชาติและ "การทําเครื่องหมายคํา" นี้เป็น "ข้อ จํากัด พื้นฐาน" สําหรับแบบจําลองการอนุมานเหล่านี้ นี่เป็นเพราะงานการอนุมานที่ประสบความสําเร็จมักต้องการการวางแผนที่ซับซ้อนของเครื่องหมายสําคัญเฉพาะเพื่อหาเส้นทางตรรกะที่ถูกต้องจากตัวเลือกมากมาย! [](https://img.jinse.cn/7333100_image3.png)ในภาพด้านบนอธิบายถึงความแตกต่างของการใช้โมเดลมาตรฐานที่ต้องผ่านทางตัวแปลงทุกขั้นตอน กับโมเดล COCONUT ที่ใช้ "สถานะ" ที่ซ่อนอยู่ (ที่มา: Training Large Language Models to Reason in a Continuous Latent Space)นักวิจัยระบุว่าในโมเดลเชื่อมโยงความคิดปัจจุบัน การติดตามคำศัพท์มักถูกสร้างขึ้นเพื่อ "ความสอดคล้องของข้อความ" และ "ความนุ่มนวล" โดยที่มีส่วนช่วยเหลือต่อกระบวนการคิดเชิงตรรกะเพียงเล็กน้อย อย่างไรก็ตาม พวกเขาแนะนำว่า "สถานการณ์ที่ดีที่สุดคือ โมเดลภาษาขนาดใหญ่สามารถทำการคิดอิสระโดยไม่มีข้อจำกัดของภาษาใด ๆ และเฉพาะเมื่อจำเป็น จึงจะแปลงความคิดของพวกเขาเป็นภาษา"เพื่อให้บรรลุ "อุดมคติ" นี้นักวิจัยอธิบายวิธีการสําหรับ "การฝึกอบรมแบบจําลองภาษาขนาดใหญ่เพื่อให้การอนุมานในพื้นที่แฝงที่อยู่ติดกัน" ตามชื่อของกระดาษระบุ "พื้นที่แฝง" นี้ประกอบด้วยชุดของน้ําหนักเครื่องหมายกลาง "ซ่อน" ที่แบบจําลองมีก่อนที่หม้อแปลงจะสร้างเวอร์ชันภาษาธรรมชาติที่มนุษย์อ่านได้ของสถานะภายในนั้นในโมเดล COCONUT (Continuous Cognitive Chain) ของนักวิจัย สถานะที่ซ่อนอยู่เหล่านี้ถูกเข้ารหัสเป็น "ความคิดที่อยู่ในฐานะที่ซ่อนอยู่" และเมื่อฝึกฝนและประมวลผลคิวรี่ พวกเขาจะถูกแทนที่ด้วยลำดับตรรกะแทนขั้นตอนเขียนเดี่ยว นักวิจัยได้ระบุว่านี้สามารถหลีกเลี่ยงที่จะต้องแปลงทุกขั้นตอนเป็นภาษาธรรมชาติและ "ปลดปล่อยการคิด" ออกจากช่องว่างของภาษา ซึ่งสร้างเส้นทางการคิดอันเป็นการคิดอันได้รับการจัดเรียงอย่างเหมาะสม พวกเขาเรียกว่า "ความคิดต่อเนื่อง"## **มองเห็นกว้างขึ้น**การประมวลผลตรรกะในพื้นที่ซ่อนที่อาจมีประโยชน์ในการเพิ่มประสิทธิภาพของโมเดล แต่สิ่งสำคัญที่พบคือ โมเดลประเภทนี้สามารถ"เข้ารหัสขั้นตอนถัดไปหลายๆขั้นตอนพร้อมกัน" การประมวลผลตรรกะใน"พื้นที่ซ่อนที่"สามารถทำให้เกิดการย้อนกลับทันที นักวิจัยเทียบกับการทำการค้นหาแบบความสำคัญก่อน แทนที่จะทำการค้นหาแบบ"โลกละเอียด"ที่ทำการค้นหาทุกรายการอย่างละเอียดนักวิจัยระบุว่า แม้ว่าโมเดลจะไม่ได้รับการฝึกอบรมอย่างชัดเจน คุณสมบัติการประมวลผลที่เกิดขึ้นอย่างรุนแรงและซึ่งเกิดขึ้นพร้อมกันนี้ยังจะปรากฎในการทดสอบ  “ถึงแม้ว่าโมเดลอาจจะไม่ทำการตัดสินใจที่ถูกต้องตั้งแต่แรก แต่มันสามารถรักษาความเลือกที่เป็นไปได้หลายอย่างในความคิดต่อเนื่อง และลดทางความคิดที่ไม่ถูกต้องขณะละเลยผ่านการ推理” พวกเขาเขียน! [](https://img.jinse.cn/7333101_image3.png)ภาพนี้เน้นสาเหตุที่แตกต่างกันของโมเดลต่าง ๆ ในการตรรกะแบบบางประเภทที่อาจล้มเหลว (ที่มาของภาพ: Training Large Language Models to Reason in a Continuous Latent Space)ในการทดสอบการแยกแยะทางคณิตศาสตร์ที่เป็นคำทดสอบที่เรียบง่าย (GSM8K) หรือการแยกแยะทั่วไป (ProntoQA) ในเปรียบเทียบกับโมเดลการคิดแบบเชื่อมโยงที่เป็นแบบเดิม สรุปว่าการแยกแยะหลายเส้นทางนี้ไม่ได้เพิ่มความแม่นยำของ COCONUT อย่างแท้จริง อย่างไรก็ตาม นักวิจัยพบว่าโมเดลนี้表现相对较好ในกลุ่มค้นหาแบบ ProntoQA ที่สร้างขึ้นแบบสุ่ม ซึ่งเกี่ยวข้องกับชุดเงื่อนไขตรรกะที่ซับซ้อนและโค้ด曲折 ( เช่น "แอปเปิ้ลทุกลูกเป็นผลไม้ ผลไม้ทุกชิ้นเป็นอาหาร และอื่น ๆ " )สําหรับงานเหล่านี้แบบจําลองการให้เหตุผลแบบโซ่ความคิดมาตรฐานมักจะตกอยู่ในทางตันของการให้เหตุผลและแม้แต่สร้างกฎสมมติอย่างสมบูรณ์เมื่อพยายามแก้ปัญหาห่วงโซ่ตรรกะ การวิจัยก่อนหน้านี้ยังแสดงให้เห็นว่าขั้นตอนเชิงตรรกะ "ด้วยวาจา" ที่ส่งออกโดยแบบจําลองห่วงโซ่ความคิดเหล่านี้ "อาจใช้ประโยชน์จากกระบวนการให้เหตุผลแฝงที่แตกต่างจากกระบวนการให้เหตุผลร่วมกัน"การวิจัยนี้เข้าร่วมกับการวิจัยมากมายเพิ่มขึ้นเพื่อเข้าใจและใช้ประโยชน์จากโมเดลภาษาขนาดใหญ่ในระดับเนิร์นเทรนเน็ตเวิร์ค  อย่างไรก็ตาม  การวิจัยประเภทนี้ยังไม่ได้ทำความเข้าใจถึงจุดที่สำคัญ  แต่ผู้วิจัยเชื่อว่า  โมเดลที่เรียนรู้ลำดับต่อเนื่องนี้  เมื่อถูกฝึกล่วงหน้า  จะสามารถ 'ทำให้โมเดลสามารถทำงานได้ดีขึ้นในสถานการณ์การอ้างอิงที่หลากหลายมากขึ้น'