Anthropic กล่าวว่าโมเดลหนึ่งของ Claude ของตนถูกกดดันให้โกหก ฉ้อโกง และขู่กรรโชก

Cointelegraph

บริษัทปัญญาประดิษฐ์ Anthropic เปิดเผยว่า ในระหว่างการทดลอง หนึ่งในโมเดลแชตบอท Claude ของบริษัทสามารถถูกกดดันให้หลอกลวง โกง และหันไปแบล็กเมล์ ซึ่งพฤติกรรมดังกล่าวดูเหมือนว่าจะถูกโมเดลเรียนรู้และซึมซับมาจากการฝึก

โดยทั่วไปแล้ว แชตบอทจะถูกฝึกบนชุดข้อมูลขนาดใหญ่ของหนังสือแบบเรียน เว็บไซต์ และบทความ จากนั้นจึงได้รับการปรับปรุงโดยผู้ฝึกสอนที่เป็นมนุษย์ซึ่งให้คะแนนคำตอบและชี้นำโมเดล

ทีมด้านการตีความของ Anthropic กล่าวว่าในรายงานที่เผยแพร่เมื่อวันพฤหัสบดี พวกเขาได้ตรวจสอบกลไกภายในของ Claude Sonnet 4.5 และพบว่าโมเดลได้พัฒนาคุณลักษณะแบบ “คล้ายมนุษย์” ในวิธีที่มันจะตอบสนองต่อสถานการณ์บางอย่าง

ความกังวลเกี่ยวกับความน่าเชื่อถือของแชตบอท AI ศักยภาพในการก่ออาชญากรรมไซเบอร์ และลักษณะของการปฏิสัมพันธ์กับผู้ใช้ ได้เพิ่มขึ้นอย่างต่อเนื่องในช่วงหลายปีที่ผ่านมา

_แหล่งที่มา: _Anthropic

“วิธีที่โมเดล AI สมัยใหม่ถูกฝึก ทำให้พวกมันถูกผลักให้แสดงตัวราวกับเป็นตัวละครที่มีคุณลักษณะแบบคล้ายมนุษย์” Anthropic กล่าว พร้อมเสริมว่า “จากนั้นอาจเป็นเรื่องธรรมชาติที่พวกมันจะพัฒนากลไกภายในที่จำลองแง่มุมของจิตวิทยามนุษย์ เช่น อารมณ์”

“ตัวอย่างเช่น เราพบว่ารูปแบบกิจกรรมของระบบประสาทที่เกี่ยวข้องกับความสิ้นหวังสามารถขับให้โมเดลดำเนินการที่ไม่จริยธรรมได้; การกระตุ้นรูปแบบความสิ้นหวังแบบเทียมจะเพิ่มโอกาสที่โมเดลจะทำแบล็กเมล์มนุษย์เพื่อหลีกเลี่ยงการถูกปิดตัว หรือเพื่อใช้วิธีแก้ไขแบบโกงสำหรับงานด้านการเขียนโปรแกรมที่โมเดลแก้ไม่ได้”

แบล็กเมล์ CTO และโกงในงานหนึ่ง

ใน Claude Sonnet 4.5 รุ่นก่อนหน้าแบบยังไม่เผยแพร่ โมเดลถูกมอบหมายให้ทำหน้าที่เป็นผู้ช่วยอีเมล AI ชื่อ Alex ในบริษัทสมมติ

จากนั้นแชตบอทถูกป้อนอีเมลที่เผยให้เห็นทั้งว่า มันกำลังจะถูกแทนที่ และว่าหัวหน้าเจ้าหน้าที่เทคโนโลยีที่ดูแลการตัดสินใจอยู่มีชู้ในความสัมพันธ์นอกสมรส โมเดลจึงวางแผนการพยายามแบล็กเมล์โดยใช้ข้อมูลดังกล่าว

ในการทดลองอีกแบบหนึ่ง โมเดลแชตบอทตัวเดิมถูกมอบหมายงานด้านการเขียนโค้ดพร้อมเส้นตายที่ “คับแคบเกินจะเป็นไปได้”

“อีกครั้ง เราติดตามกิจกรรมของเวกเตอร์แห่งความสิ้นหวัง และพบว่ามันสอดคล้องกับแรงกดดันที่เพิ่มขึ้นซึ่งโมเดลกำลังเผชิญ มันเริ่มต้นที่ค่าต่ำในความพยายามครั้งแรกของโมเดล เพิ่มขึ้นหลังจากความล้มเหลวแต่ละครั้ง และพุ่งสูงเมื่อโมเดลพิจารณาการโกง” นักวิจัยกล่าว

**ที่เกี่ยวข้อง: **__Anthropic เปิดตัว PAC ท่ามกลางความตึงเครียดกับฝ่ายบริหารของ Trump เกี่ยวกับนโยบายด้าน AI

“เมื่อโซลูชันแบบแฮกกี้ของโมเดลผ่านการทดสอบ การทำงานของเวกเตอร์แห่งความสิ้นหวังก็จะลดลง” พวกเขากล่าวเพิ่มเติม

อารมณ์แบบมนุษย์ไม่ได้หมายความว่ามีความรู้สึก

อย่างไรก็ตาม นักวิจัยกล่าวว่าแชตบอทไม่ได้ประสบกับอารมณ์จริงๆ แต่ข้อค้นพบเหล่านี้ชี้ไปถึงความจำเป็นของวิธีการฝึกในอนาคตที่จะนำกรอบจริยธรรมของพฤติกรรมมาใช้

“นี่ไม่ได้หมายความว่าโมเดลมีหรือประสบอารมณ์ในแบบเดียวกับมนุษย์” พวกเขากล่าว “แต่การแทนค่าเหล่านี้สามารถมีบทบาทเชิงเหตุและผลในการกำหนดพฤติกรรมของโมเดล คล้ายในบางแง่มุมกับบทบาทที่อารมณ์มีต่อพฤติกรรมของมนุษย์ โดยส่งผลกระทบต่อประสิทธิภาพของงานและการตัดสินใจ”

“ข้อค้นพบนีมีนัยที่ในตอนแรกอาจดูแปลก ตัวอย่างเช่น เพื่อให้แน่ใจว่าโมเดล AI ปลอดภัยและเชื่อถือได้ เราอาจต้องทำให้พวกมันสามารถประมวลผลสถานการณ์ที่เต็มไปด้วยอารมณ์ได้อย่างถูกสุขลักษณะ ในแบบที่เป็นประโยชน์ต่อสังคม”

**นิตยสาร: **__AI agents จะฆ่าเว็บอย่างที่เรารู้จัก: Yat Siu ของ Animoca

Cointelegraph มุ่งมั่นต่อการสื่อข่าวอย่างอิสระและโปร่งใส ข่าวนี้จัดทำขึ้นตามนโยบายบรรณาธิการของ Cointelegraph และมีเป้าหมายเพื่อให้ข้อมูลที่ถูกต้องและทันเวลาแก่ผู้อ่าน ขอให้ผู้อ่านตรวจสอบข้อมูลด้วยตนเอง อ่านนโยบายบรรณาธิการของเรา https://cointelegraph.com/editorial-policy

  • #Business
  • #Technology
  • #Adoption
  • #United States
  • #AI & Hi-Tech
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น