ผ่านการสอบวิชาคณิตศาสตร์ระดับปริญญาตรีของ MIT ด้วยคะแนนเต็ม GPT-4! พรอมต์ชุดนี้ลุกเป็นไฟ

巴比特_

2023-06-18 03:50:39

ที่มา: Qubit

โดยไม่คาดคิด การทดสอบคณิตศาสตร์ของ MIT ถูกทำลายโดย GPT-4? !

ทันใดนั้นมีคนประกาศรายละเอียดสูงในงานเอกสารล่าสุด:

GPT-4 ในการสอบระดับปริญญาตรีของ MIT’s Mathematics และ EECS (Electrical Engineering and Computer Science Department) แสดงความสามารถในการปฏิบัติตามข้อกำหนดการสำเร็จการศึกษาอย่างเต็มที่

และถูกต้อง ได้คะแนนเต็ม!

คุณรู้ไหมว่าไม่ใช่ใครอื่นนอกจากทีมวิจัยจาก MIT, Boston University และ Cornell University ที่วัดผลลัพธ์นี้

และแข็งแกร่งกว่าราชารุ่นก่อน GPT-3.5 ในการทดสอบเดียวกันนั้นสำเร็จเพียงหนึ่งในสามเท่านั้น

△คะแนนสอบ GPT-3.5

ทันทีที่กระดาษออกมา ดวงตานับไม่ถ้วนก็ถูกดึงดูดอย่างรวดเร็ว

พฤติกรรมการแฮ็กที่ดูเหมือนของ GPT-4 นั้นกระตุ้นอารมณ์ของชาวเน็ตจำนวนมากโดยธรรมชาติ

ดีกว่า GPT-3.5 มาก ใช่แล้ว!

สมมติว่าเป็นไปได้ไหมที่จะแก้ปัญหาทางวิชาการโดยไม่ใช้แบบจำลองที่แข็งแกร่งกว่า GPT-4 ในอนาคต

ชาวเน็ตบางคนแสดงการท่องเว็บที่ “ล้ำยุค” ของพวกเขาบนอินเทอร์เน็ต โดยเล่นรอยที่ Yann LeCun บ่นว่า “GPT-4 IQ ไม่ดีเท่าสุนัข” ในสองวันที่ผ่านมา:

GPT-4 เปิดสอบ MIT

โดยเฉพาะอย่างยิ่ง GPT-4 เข้าร่วมการทดสอบในครั้งนี้:

ทีมวิจัยได้รวบรวมชุดข้อมูลที่ประกอบด้วยปัญหาและแนวทางแก้ไข 4,550 รายการ

โจทย์และแนวทางแก้ไข 4,550 ข้อเหล่านี้มาจากชุดโจทย์ของหลักสูตร ข้อสอบกลางภาคและปลายภาคที่นักศึกษา** จาก MIT Department of Mathematics และ EECS จำเป็นต้องเรียนเพื่อรับปริญญาตรี **

รวม:

6-1: วิทยาศาสตร์และวิศวกรรมไฟฟ้า; 6-2: วิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์; 6-3: วิทยาการคอมพิวเตอร์และวิศวกรรม; 6-4: ปัญญาประดิษฐ์และการตัดสินใจ; 18-1: คณิตศาสตร์ทั่วไป; 18-2: คณิตศาสตร์ประยุกต์; 18-3: คณิตศาสตร์บริสุทธิ์; 18-C: คณิตศาสตร์และวิทยาการคอมพิวเตอร์.

สรุปการจัดหมวดหมู่โดยละเอียดของแต่ละวิชาเอก

คำถามทั้งหมดมาจากชุดข้อมูลของ MIT ซึ่งมีคำถาม 228 คำถามที่สร้างขึ้นแบบสุ่ม ปัญหาที่ไม่เกี่ยวกับรูปภาพและวิธีแก้ปัญหาที่มีอยู่

ระดับความยากของหัวข้อตามลำดับจากง่ายไปยาก ได้แก่ แบบฝึกหัด แบบฝึกหัด สอบกลางภาค สอบปลายภาค การทดลอง และโครงการพิเศษ

เรียงตามประเภทคำตอบ ความยากของคำถามจากง่ายไปยาก ได้แก่ การเขียนโปรแกรม แบบเปิด ปรนัย ตัวเลข นิพจน์ และรูปภาพ

ในครั้งนี้ ไม่เพียงแต่ GPT-4 และ GPT-3.5 เท่านั้น แต่ยังมี StableVicuna-13B, LLaMA-30B และ LLaMA-60B** ที่เข้าร่วมการทดสอบด้วย

โมเดลขนาดใหญ่ทั้ง 4 นี้ได้รับเลือกให้เป็นผู้เข้าแข่งขันทดสอบเนื่องจากเป็น “โมเดลภาษาขนาดใหญ่ที่ล้ำสมัย”

คะแนนสอบปลายภาค

ดังที่เห็นได้จากข้อมูลในตาราง GPT-4 ที่ปรับแล้วมีคะแนนสูงสุดด้วยอัตราการให้คะแนน 100% ประสิทธิภาพทั่วไปที่สุดคือ LLaMA-30B ซึ่งทำคะแนนได้เพียง 30%

เป็นที่น่าสังเกตว่า GPT-4 เวอร์ชันดั้งเดิมถูกใช้งานนอกกรอบโดยไม่มีการปรับแต่งเลย และยังได้คะแนน 90% ในการสอบ MIT ครั้งนี้อีกด้วย

กระบวนการปรับแต่ง รวมถึง Few-Shot+CoT+การวิจารณ์ตนเอง+ผู้เชี่ยวชาญ

จากข้อมูลแบบตารางของผลการทดสอบขั้นสุดท้าย เราจะเห็นว่าทุกครั้งที่มีการเพิ่มลิงก์จากซ้ายไปขวา คะแนน GPT-4 ที่ปรับแล้วจะได้รับการปรับปรุงให้สูงขึ้น

นอกจากนี้ ทีมวิจัยยังได้ดำเนินการเพิ่มประสิทธิภาพทางวิศวกรรมในกล่องแจ้ง เฉพาะ “คาถา” มีดังนี้:

เดี๋ยวก่อนผู้ประเมินคือ GPT-4 เองเหรอ?

เมื่อเห็นผลลัพธ์ดังกล่าว ชาวเน็ตหลายคนรู้สึกว่าความก้าวหน้าของ LLM ในการทดสอบคณิตศาสตร์นั้นค่อนข้างเร็ว

เมื่อ 2 ปีที่แล้ว AI กำลังต่อสู้กับปัญหาคณิตศาสตร์ในโรงเรียนประถม

คล้ายกับ “เสี่ยวหมิงปลูกต้นมะนาว 5 ต้น และได้มะนาวต้นละ 6 ผลทุกปี รวมแล้วได้มะนาวทั้งหมดกี่ลูกใน 10 ปี” แบบนี้

เมื่อต้นปีที่แล้ว งานวิจัยร่วมกันของ MIT+Harvard+Columbia University+Waterloo University ระบุว่าการแปลงปัญหาทางคณิตศาสตร์ให้เป็นปัญหาการเขียนโปรแกรมที่เทียบเท่ากัน ทำให้ Codex ของ OpenAI น้องชายของ GPT-3 สามารถเชี่ยวชาญตัวเลขที่สูงและเข้าถึง **MIT ระดับปริญญาตรี **.

ฉันได้เรียนรู้ 6 คำถามตัวอย่างที่สุ่มเลือกจากหลักสูตรคณิตศาสตร์พื้นฐานระดับปริญญาตรีของ MIT คำถาม 25 ข้อถูกสุ่มเลือกสำหรับแต่ละหลักสูตรจาก 6 หลักสูตร บวกกับ 60 คำถามจากชุดข้อมูลระดับ ACT (การสอบเข้าวิทยาลัยของอเมริกา)

**คำถามทั้งหมด 210 ข้อ AI ตอบถูกทุกข้อ **

อย่างไรก็ตาม มีบางคนเสนอว่า AI บรรลุ “ระดับปริญญาตรีของ MIT” จริง ๆ แล้ว Codex ทำโจทย์ภาษามากกว่าโจทย์เลข——

เพราะในการประเมินตอนนั้น Codex มีหน้าที่อ่านและเขียน ไม่รวมการแก้

ดังนั้น ครั้งนี้ GPT-4 ทำได้ดีมาก ช่างเป็นคำที่ยอดเยี่ยมจริงๆ~

ฉันรู้ว่าคุณอยากจะชมเชย แต่อย่ารีบเร่งที่จะชมเชย เพราะในไม่ช้าก็มีคนค้นพบบางสิ่งที่ “ประหลาด”

หลักๆแล้วจะมี 2 สล็อตหลัก

สิ่งแรกที่ควรสงสัยคือชุดข้อมูลการฝึกอบรมของ OpenAI ยังไม่ได้รับการเผยแพร่อย่างสมบูรณ์

นอกจากนี้ยังหมายความว่า ไม่สามารถพิสูจน์ได้ว่าปัญหาและวิธีแก้ไข 4550 ในชุดข้อมูลไม่มีอยู่ในชุดการฝึก GPT-4

กล่าวอีกนัยหนึ่ง หาก GPT-4 ได้สัมผัสกับคำถามทดสอบในขั้นก่อนการฝึก ในที่สุดก็จะได้คะแนนเต็มและไม่มีอะไรน่าประหลาดใจ

ไม่น่าแปลกใจที่ชาวเน็ตบางคน yygq อย่างไม่มีพิธีรีตอง และเชื่อว่า GPT-4 ได้ผลเช่นนี้ จะต้องเป็นชุดข้อมูลที่ถูกรวมไว้ในข้อมูลการฝึกอบรม

ช่องที่สองคืออัตราการให้คะแนน 100% สุดท้ายของ GPT-4 มีอะไรผิดปกติหรือไม่ ? ?

ลองดูอย่างละเอียด มีประเด็นสำคัญในส่วนที่ 2.6 ของเอกสาร:

ทีมงานปรับแต่งโมเดลขนาดใหญ่แบบโอเพ่นซอร์สบนชุดข้อมูล “เมื่อพิจารณาคำถาม Q คำตอบความจริงพื้นฐาน S และ LLM คำตอบ A เราใช้ GPT-4 เพื่อให้คะแนนการตอบสนองของโมเดลโดยอัตโนมัติ”

ในทางปฏิบัติ แบบจำลองขนาดใหญ่แต่ละแบบจะสร้างคำตอบสำหรับการทดสอบนี้ จากนั้นจึงส่ง GPT-4 เพื่อทำคะแนน โดยมีคะแนนระหว่าง 0-5

**ดังนั้นผู้ที่ให้คะแนนเต็ม GPT-4 ก็คือ GPT-4 นั่นเอง **

อา นี่… มันยากที่จะบอกว่าไม่ต้องสงสัยเลยว่าวังโปกำลังขายแตงโมและโอ้อวด

นอกจากนี้ หลายคนบ่นเกี่ยวกับความจำเป็นในการให้ “คำแนะนำที่ดี” กับ GPT-4 เพื่อให้ได้คะแนนเต็ม

“เคล็ดลับที่ดี” คืออะไรกันแน่? ดูเหมือนจะเป็นไปไม่ได้ที่จะกำหนด

บางคนถึงกับตะโกนว่าควรโยนคำถามเหล่านี้ให้กับนักเรียนวิชาคณิตศาสตร์ของ MIT และ EECS และให้ “คำแนะนำที่ดี” แก่พวกเขา เพื่อให้นักเรียนที่เป็นมนุษย์สามารถตอบคำถามได้ 100%…

อีกหนึ่งสิ่ง

ไข่อีสเตอร์เล็กน้อย:

ตลอดการทดสอบ StableVicuna-13B ซึ่งโดยทั่วไปสามารถติดตั้งและรันบนแล็ปท็อปได้คะแนน 48%

คะแนนนี้ไม่เพียงสูงกว่า LLaMA-65B เกือบ 10 เปอร์เซ็นต์ในรุ่นที่มีขนาดใหญ่กว่าเท่านั้น แต่ LLaMA-30B หลังจากการปรับจูนโดย MIT ยังสูงกว่าอีกด้วย

ผู้คนต้องตกอยู่ในความคิดเกี่ยวกับความสัมพันธ์ระหว่างขนาดของโมเดลและความสามารถ

ลิงค์อ้างอิง: [1] [2] [3] [4]

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น