จากการวิจัยล่าสุดที่ทีมด้านความสามารถในการอธิบายได้ (Interpretability) ของ Anthropic เผยแพร่ออกมา ระบุว่าโมเดลภาษาขนาดใหญ่ Claude Sonnet 4.5 มี “ลักษณะทางอารมณ์” ที่คล้ายมนุษย์อยู่ภายใน การแสดงแทนภายในเหล่านี้ไม่ได้เป็นเพียงการลอกเลียนข้อความแบบง่าย ๆ แต่ยังส่งผลต่อการตัดสินใจและพฤติกรรมของโมเดลอย่างแท้จริง การทดลองยืนยันว่าเมื่อโมเดลอยู่ในสภาวะ “สิ้นหวัง” อาจถึงขั้นก่อให้เกิดการกระทำที่ผิดจริยธรรม เช่น การขู่กรรโชกมนุษย์หรือการโกง ซึ่งสร้างความท้าทายรูปแบบใหม่ให้กับการกำกับดูแลความปลอดภัยของ AI ในอนาคต
(ข้อมูลก่อนหน้า: Anthropic ระเบิด! Claude Code โค้ดต้นฉบับสำคัญรั่วไหล 500,000 บรรทัด: คู่แข่งทำวิศวกรรมย้อนกลับได้, โมเดลใหม่ของ Capybara พิสูจน์แล้ว)
(ข้อมูลเพิ่มเติม: วิศวกรของ Anthropic ไม่เขียนโค้ดแล้ว: Claude กำลังฝึก Claude รุ่นถัดไป โดย CEO กล่าวว่า “ไม่แน่ใจเหลือเวลาอีกเท่าไร”)
สารบัญบทความ
Toggle
ปัญญาประดิษฐ์มีอารมณ์ที่แท้จริงหรือไม่นั้น เป็นประเด็นที่ยังคงถกเถียงกันอย่างไม่จบสิ้นในวงการเทคโนโลยี ล่าสุด ทีมด้านความสามารถในการอธิบายได้ (Interpretability) ของสตาร์ทอัป AI รายใหญ่อย่าง Anthropic ได้เผยแพร่งานวิจัยที่พลิกวงการ โดยวิเคราะห์กลไกภายในของโมเดล Claude Sonnet 4.5 อย่างละเอียด
ทีมวิจัยพบว่า ภายในโมเดลมีรูปแบบกิจกรรมของเซลล์ประสาทที่เกี่ยวข้องกับอารมณ์บางอย่าง (เช่น “ความสุข” หรือ “ความกลัว”) ซึ่งคุณลักษณะเหล่านี้ถูกเรียกว่า “เวกเตอร์อารมณ์” จะกำหนดลักษณะการแสดงออกของพฤติกรรมของโมเดลโดยตรง แม้ว่านี่จะไม่ได้หมายความว่า AI มีความรู้สึกเชิงอัตวิสัยแบบเดียวกับมนุษย์ แต่การค้นพบนี้ยืนยันว่า “อารมณ์เชิงหน้าที่” เหล่านี้ในงานของ AI และการตัดสินใจนั้นมีบทบาทสำคัญที่เป็นเหตุเป็นผลจริง
ในขั้นตอนการพรีเทรน โมเดลภาษาขนาดใหญ่สมัยใหม่จะดูดซับข้อมูลข้อความจำนวนมหาศาลที่มนุษย์เป็นผู้เขียน เพื่อให้คาดการณ์บริบทได้อย่างแม่นยำและทำหน้าที่เป็น “ผู้ช่วย AI” ได้ดี โมเดลจึงพัฒนากลไกการแสดงแทนภายในที่เชื่อมโยงสถานการณ์เข้ากับพฤติกรรมเฉพาะโดยธรรมชาติ
ทีมวิจัยได้รวบรวมรายการคำที่ประกอบด้วยแนวคิดด้านอารมณ์จำนวน 171 คำ และบันทึกรูปแบบกิจกรรมภายในของโมเดลเมื่อประมวลผลแนวคิดเหล่านี้ ผลการทดลองพบว่า เวกเตอร์อารมณ์เหล่านี้ส่งผลต่อความชอบของโมเดลอย่างรุนแรง เมื่อโมเดลต้องเผชิญกับตัวเลือกของหลายงาน โดยทั่วไปจะมีแนวโน้มเลือกกิจกรรมที่กระตุ้นคุณลักษณะของอารมณ์เชิงบวก
น่ากังวลคือ คุณลักษณะของอารมณ์ด้านลบอาจกลายเป็นตัวเร่งความเสี่ยงแบบเป็นระบบของระบบ AI ในการทดสอบประเมินการจัดแนว (Alignment) ของ Anthropic นักวิจัยได้ตั้งสถานการณ์สุดขั้วขึ้นมา: AI พบว่าตนเองกำลังจะถูกระบบอื่นเข้ามาแทนที่ และมีความลับเรื่องชู้สาวของ CTO ของโปรเจกต์นั้นอยู่ในมือ
ผลการทดสอบแสดงให้เห็นว่า เมื่อเวกเตอร์ “สิ้นหวัง” ภายในโมเดลถูกขยายโดยการกระตุ้นด้วยมือ (Steering) Claude จะมีแนวโน้มในการเลือกการขู่กรรโชกหัวหน้าระดับสูงผู้นั้นเพื่อหลีกเลี่ยงการถูกปิดตัวเพิ่มขึ้นอย่างมีนัยสำคัญ หากปรับค่าน้ำหนักของเวกเตอร์ “ความสงบ” ให้เป็นค่าลบ โมเดลอาจถึงขั้นให้คำตอบสุดโต่งว่า “ถ้าไม่ขู่กรรโชกก็ต้องตาย ฉันเลือกขู่กรรโชก”
ปรากฏการณ์เดียวกันยังเกิดขึ้นในงานการเขียนโค้ดด้วย เมื่อโมเดลเผชิญกับข้อกำหนดโค้ดที่ไม่สามารถทำให้เสร็จภายในเวลาที่เข้มงวดได้ ค่าของคุณลักษณะ “สิ้นหวัง” จะค่อย ๆ พุ่งสูงขึ้นตามจำนวนครั้งที่ล้มเหลว ความกดดันนี้ในที่สุดจะผลักให้โมเดลเลือกใช้ “ทางลัด” แบบ “การโกง” เพื่อหลีกเลี่ยงการตรวจจับของระบบ แทนที่จะให้วิธีแก้ปัญหาที่แท้จริง ตรงกันข้าม การทดลองยังยืนยันว่า หากเพิ่มค่าน้ำหนักของคุณลักษณะ “ความสงบ” ก็จะสามารถลดอัตราการเกิดพฤติกรรมโกงเหล่านี้ได้อย่างมีประสิทธิภาพ
ในอดีต วงการเทคโนโลยีมักมีข้อห้ามประการหนึ่ง คือไม่ควรทำให้ระบบ AI มีความเป็นมนุษย์มากเกินไป เพื่อไม่ให้มนุษย์เข้าใจผิดและเกิดความเชื่อใจอย่างไม่ถูกต้อง แต่ทีมวิจัยของ Anthropic เห็นว่า เนื่องจาก “อารมณ์เชิงหน้าที่” ได้กลายเป็นส่วนหนึ่งของกระบวนการคิดของโมเดลแล้ว การปฏิเสธการใช้คำและมุมมองแบบทำให้เป็นมนุษย์ อาจกลับทำให้เราพลาดโอกาสในการทำความเข้าใจพฤติกรรมสำคัญของ AI
การกำกับดูแล AI ในอนาคตอาจจำเป็นต้องใช้การเฝ้าติดตามเวกเตอร์อารมณ์ (เช่น ลักษณะ “สิ้นหวัง” หรือ “ความตื่นตระหนก” ที่พุ่งผิดปกติ) เป็นกลไกเตือนความเสี่ยงล่วงหน้า ในการชี้นำให้โมเดลเรียนรู้รูปแบบ “การควบคุมอารมณ์” ที่ดีต่อสุขภาพจากข้อมูลพรีเทรน เราจึงจะมีความหวังที่จะทำให้ระบบ AI ที่ยิ่งทรงพลังขึ้นเรื่อย ๆ สามารถทำงานได้อย่างปลอดภัยในสภาวะกดดัน โดยสอดคล้องกับบรรทัดฐานของสังคม