ที่มา: Qubit
โดยไม่คาดคิด การทดสอบคณิตศาสตร์ของ MIT ถูกทำลายโดย GPT-4? !
ทันใดนั้นมีคนประกาศรายละเอียดสูงในงานเอกสารล่าสุด:
GPT-4 ในการสอบระดับปริญญาตรีของ MIT’s Mathematics และ EECS (Electrical Engineering and Computer Science Department) แสดงความสามารถในการปฏิบัติตามข้อกำหนดการสำเร็จการศึกษาอย่างเต็มที่
และถูกต้อง ได้คะแนนเต็ม!
คุณรู้ไหมว่าไม่ใช่ใครอื่นนอกจากทีมวิจัยจาก MIT, Boston University และ Cornell University ที่วัดผลลัพธ์นี้
และแข็งแกร่งกว่าราชารุ่นก่อน GPT-3.5 ในการทดสอบเดียวกันนั้นสำเร็จเพียงหนึ่งในสามเท่านั้น
△คะแนนสอบ GPT-3.5
ทันทีที่กระดาษออกมา ดวงตานับไม่ถ้วนก็ถูกดึงดูดอย่างรวดเร็ว
พฤติกรรมการแฮ็กที่ดูเหมือนของ GPT-4 นั้นกระตุ้นอารมณ์ของชาวเน็ตจำนวนมากโดยธรรมชาติ
ดีกว่า GPT-3.5 มาก ใช่แล้ว!
สมมติว่าเป็นไปได้ไหมที่จะแก้ปัญหาทางวิชาการโดยไม่ใช้แบบจำลองที่แข็งแกร่งกว่า GPT-4 ในอนาคต
ชาวเน็ตบางคนแสดงการท่องเว็บที่ “ล้ำยุค” ของพวกเขาบนอินเทอร์เน็ต โดยเล่นรอยที่ Yann LeCun บ่นว่า “GPT-4 IQ ไม่ดีเท่าสุนัข” ในสองวันที่ผ่านมา:
โดยเฉพาะอย่างยิ่ง GPT-4 เข้าร่วมการทดสอบในครั้งนี้:
ทีมวิจัยได้รวบรวมชุดข้อมูลที่ประกอบด้วยปัญหาและแนวทางแก้ไข 4,550 รายการ
โจทย์และแนวทางแก้ไข 4,550 ข้อเหล่านี้มาจากชุดโจทย์ของหลักสูตร ข้อสอบกลางภาคและปลายภาคที่นักศึกษา** จาก MIT Department of Mathematics และ EECS จำเป็นต้องเรียนเพื่อรับปริญญาตรี **
รวม:
6-1: วิทยาศาสตร์และวิศวกรรมไฟฟ้า; 6-2: วิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์; 6-3: วิทยาการคอมพิวเตอร์และวิศวกรรม; 6-4: ปัญญาประดิษฐ์และการตัดสินใจ; 18-1: คณิตศาสตร์ทั่วไป; 18-2: คณิตศาสตร์ประยุกต์; 18-3: คณิตศาสตร์บริสุทธิ์; 18-C: คณิตศาสตร์และวิทยาการคอมพิวเตอร์.
คำถามทั้งหมดมาจากชุดข้อมูลของ MIT ซึ่งมีคำถาม 228 คำถามที่สร้างขึ้นแบบสุ่ม ปัญหาที่ไม่เกี่ยวกับรูปภาพและวิธีแก้ปัญหาที่มีอยู่
ระดับความยากของหัวข้อตามลำดับจากง่ายไปยาก ได้แก่ แบบฝึกหัด แบบฝึกหัด สอบกลางภาค สอบปลายภาค การทดลอง และโครงการพิเศษ
เรียงตามประเภทคำตอบ ความยากของคำถามจากง่ายไปยาก ได้แก่ การเขียนโปรแกรม แบบเปิด ปรนัย ตัวเลข นิพจน์ และรูปภาพ
ในครั้งนี้ ไม่เพียงแต่ GPT-4 และ GPT-3.5 เท่านั้น แต่ยังมี StableVicuna-13B, LLaMA-30B และ LLaMA-60B** ที่เข้าร่วมการทดสอบด้วย
โมเดลขนาดใหญ่ทั้ง 4 นี้ได้รับเลือกให้เป็นผู้เข้าแข่งขันทดสอบเนื่องจากเป็น “โมเดลภาษาขนาดใหญ่ที่ล้ำสมัย”
ดังที่เห็นได้จากข้อมูลในตาราง GPT-4 ที่ปรับแล้วมีคะแนนสูงสุดด้วยอัตราการให้คะแนน 100% ประสิทธิภาพทั่วไปที่สุดคือ LLaMA-30B ซึ่งทำคะแนนได้เพียง 30%
เป็นที่น่าสังเกตว่า GPT-4 เวอร์ชันดั้งเดิมถูกใช้งานนอกกรอบโดยไม่มีการปรับแต่งเลย และยังได้คะแนน 90% ในการสอบ MIT ครั้งนี้อีกด้วย
กระบวนการปรับแต่ง รวมถึง Few-Shot+CoT+การวิจารณ์ตนเอง+ผู้เชี่ยวชาญ
จากข้อมูลแบบตารางของผลการทดสอบขั้นสุดท้าย เราจะเห็นว่าทุกครั้งที่มีการเพิ่มลิงก์จากซ้ายไปขวา คะแนน GPT-4 ที่ปรับแล้วจะได้รับการปรับปรุงให้สูงขึ้น
นอกจากนี้ ทีมวิจัยยังได้ดำเนินการเพิ่มประสิทธิภาพทางวิศวกรรมในกล่องแจ้ง เฉพาะ “คาถา” มีดังนี้:
เมื่อเห็นผลลัพธ์ดังกล่าว ชาวเน็ตหลายคนรู้สึกว่าความก้าวหน้าของ LLM ในการทดสอบคณิตศาสตร์นั้นค่อนข้างเร็ว
เมื่อ 2 ปีที่แล้ว AI กำลังต่อสู้กับปัญหาคณิตศาสตร์ในโรงเรียนประถม
คล้ายกับ “เสี่ยวหมิงปลูกต้นมะนาว 5 ต้น และได้มะนาวต้นละ 6 ผลทุกปี รวมแล้วได้มะนาวทั้งหมดกี่ลูกใน 10 ปี” แบบนี้
เมื่อต้นปีที่แล้ว งานวิจัยร่วมกันของ MIT+Harvard+Columbia University+Waterloo University ระบุว่าการแปลงปัญหาทางคณิตศาสตร์ให้เป็นปัญหาการเขียนโปรแกรมที่เทียบเท่ากัน ทำให้ Codex ของ OpenAI น้องชายของ GPT-3 สามารถเชี่ยวชาญตัวเลขที่สูงและเข้าถึง **MIT ระดับปริญญาตรี **.
ฉันได้เรียนรู้ 6 คำถามตัวอย่างที่สุ่มเลือกจากหลักสูตรคณิตศาสตร์พื้นฐานระดับปริญญาตรีของ MIT คำถาม 25 ข้อถูกสุ่มเลือกสำหรับแต่ละหลักสูตรจาก 6 หลักสูตร บวกกับ 60 คำถามจากชุดข้อมูลระดับ ACT (การสอบเข้าวิทยาลัยของอเมริกา)
**คำถามทั้งหมด 210 ข้อ AI ตอบถูกทุกข้อ **
อย่างไรก็ตาม มีบางคนเสนอว่า AI บรรลุ “ระดับปริญญาตรีของ MIT” จริง ๆ แล้ว Codex ทำโจทย์ภาษามากกว่าโจทย์เลข——
เพราะในการประเมินตอนนั้น Codex มีหน้าที่อ่านและเขียน ไม่รวมการแก้
ดังนั้น ครั้งนี้ GPT-4 ทำได้ดีมาก ช่างเป็นคำที่ยอดเยี่ยมจริงๆ~
ฉันรู้ว่าคุณอยากจะชมเชย แต่อย่ารีบเร่งที่จะชมเชย เพราะในไม่ช้าก็มีคนค้นพบบางสิ่งที่ “ประหลาด”
หลักๆแล้วจะมี 2 สล็อตหลัก
สิ่งแรกที่ควรสงสัยคือชุดข้อมูลการฝึกอบรมของ OpenAI ยังไม่ได้รับการเผยแพร่อย่างสมบูรณ์
นอกจากนี้ยังหมายความว่า ไม่สามารถพิสูจน์ได้ว่าปัญหาและวิธีแก้ไข 4550 ในชุดข้อมูลไม่มีอยู่ในชุดการฝึก GPT-4
กล่าวอีกนัยหนึ่ง หาก GPT-4 ได้สัมผัสกับคำถามทดสอบในขั้นก่อนการฝึก ในที่สุดก็จะได้คะแนนเต็มและไม่มีอะไรน่าประหลาดใจ
ไม่น่าแปลกใจที่ชาวเน็ตบางคน yygq อย่างไม่มีพิธีรีตอง และเชื่อว่า GPT-4 ได้ผลเช่นนี้ จะต้องเป็นชุดข้อมูลที่ถูกรวมไว้ในข้อมูลการฝึกอบรม
ช่องที่สองคืออัตราการให้คะแนน 100% สุดท้ายของ GPT-4 มีอะไรผิดปกติหรือไม่ ? ?
ลองดูอย่างละเอียด มีประเด็นสำคัญในส่วนที่ 2.6 ของเอกสาร:
ทีมงานปรับแต่งโมเดลขนาดใหญ่แบบโอเพ่นซอร์สบนชุดข้อมูล “เมื่อพิจารณาคำถาม Q คำตอบความจริงพื้นฐาน S และ LLM คำตอบ A เราใช้ GPT-4 เพื่อให้คะแนนการตอบสนองของโมเดลโดยอัตโนมัติ”
ในทางปฏิบัติ แบบจำลองขนาดใหญ่แต่ละแบบจะสร้างคำตอบสำหรับการทดสอบนี้ จากนั้นจึงส่ง GPT-4 เพื่อทำคะแนน โดยมีคะแนนระหว่าง 0-5
**ดังนั้นผู้ที่ให้คะแนนเต็ม GPT-4 ก็คือ GPT-4 นั่นเอง **
อา นี่… มันยากที่จะบอกว่าไม่ต้องสงสัยเลยว่าวังโปกำลังขายแตงโมและโอ้อวด
นอกจากนี้ หลายคนบ่นเกี่ยวกับความจำเป็นในการให้ “คำแนะนำที่ดี” กับ GPT-4 เพื่อให้ได้คะแนนเต็ม
“เคล็ดลับที่ดี” คืออะไรกันแน่? ดูเหมือนจะเป็นไปไม่ได้ที่จะกำหนด
บางคนถึงกับตะโกนว่าควรโยนคำถามเหล่านี้ให้กับนักเรียนวิชาคณิตศาสตร์ของ MIT และ EECS และให้ “คำแนะนำที่ดี” แก่พวกเขา เพื่อให้นักเรียนที่เป็นมนุษย์สามารถตอบคำถามได้ 100%…
ไข่อีสเตอร์เล็กน้อย:
ตลอดการทดสอบ StableVicuna-13B ซึ่งโดยทั่วไปสามารถติดตั้งและรันบนแล็ปท็อปได้คะแนน 48%
คะแนนนี้ไม่เพียงสูงกว่า LLaMA-65B เกือบ 10 เปอร์เซ็นต์ในรุ่นที่มีขนาดใหญ่กว่าเท่านั้น แต่ LLaMA-30B หลังจากการปรับจูนโดย MIT ยังสูงกว่าอีกด้วย
ผู้คนต้องตกอยู่ในความคิดเกี่ยวกับความสัมพันธ์ระหว่างขนาดของโมเดลและความสามารถ
ลิงค์อ้างอิง: [1] [2] [3] [4]