OpenAI กล่าวว่ามาตรฐานวัดทักษะการเขียนโค้ด AI ที่ใช้เป็น 'ปนเปื้อน'—นี่คือเหตุผล

Decrypt

สรุปโดยย่อ

  • OpenAI โต้แย้งว่า SWE-bench Verified ไม่สะท้อนความสามารถในการเขียนโค้ดจริงอีกต่อไป เพราะการทดสอบถูกปนเปื้อน
  • ขณะนี้กำลังผลักดัน SWE-bench Pro ซึ่งเป็นเวอร์ชันที่ยากกว่าเป็นทดแทน
  • คะแนนลดลงจากประมาณ 70% เหลือประมาณ 23% ในการทดสอบใหม่

ตัวเลขที่ทุกห้องปฏิบัติการ AI ชั้นนำใช้เพื่ออ้างความเป็นผู้นำด้านการเขียนโค้ด ถูกประกาศว่าไม่มีความหมายอีกต่อไป OpenAI เผยแพร่โพสต์ในสัปดาห์นี้ประกาศว่า SWE-bench Verified ซึ่งเป็นเกณฑ์วัดความสามารถในการเขียนโค้ดของ AI ที่เป็นที่นิยม ถูกปนเปื้อนด้วยการทดสอบที่ผิดพลาดและข้อมูลการฝึกอบรมรั่วไหล จนไม่สามารถบอกอะไรได้อีกต่อไปว่าโมเดลสามารถเขียนซอฟต์แวร์ได้จริงหรือไม่ เกณฑ์นี้ทำงานแบบนี้: ให้ AI จัดการกับปัญหา GitHub จริงจากโปรเจกต์ Python โอเพ่นซอร์สยอดนิยม แล้วถามให้แก้บัคโดยไม่ดูการทดสอบ และตรวจสอบว่าการแก้ไขของมันทำให้การทดสอบที่ล้มเหลวผ่านได้โดยไม่ทำให้สิ่งอื่นพัง

 OpenAI สร้าง SWE-bench Verified ในเดือนสิงหาคม 2024 เป็นเวอร์ชันที่สะอาดขึ้นของเกณฑ์มาตรฐานในปี 2023 โดยรวบรวมวิศวกรซอฟต์แวร์ 93 คน เพื่อคัดกรองงานที่เป็นไปไม่ได้หรือออกแบบไม่ดี การทำความสะอาดนี้ได้ผลดีพอที่ห้องปฏิบัติการชั้นนำต่างๆ เริ่มอ้างอิงคะแนนจากมันเป็นหลักฐานความก้าวหน้า เมื่อ Anthropic เปิดตัว Claude Opus 4 ในเดือนพฤษภาคม 2025 Decrypt รายงาน ว่าโมเดลนี้ได้คะแนน 72.5% บน SWE-bench Verified ซึ่งสูงกว่า GPT-4.1 ที่ได้ 54.6% และ Gemini 2.5 Pro ที่ได้ 63.2% ซึ่งเป็นเกณฑ์วัดการเขียนโค้ดที่สำคัญ ตั้งแต่นั้นมา ทุกห้องปฏิบัติการ AI ตั้งแต่สหรัฐอเมริกาจนถึงจีน ต่างก็แสดงผลการทำงานบน SWE เพื่ออ้างสิทธิ์เป็นโมเดลที่ดีที่สุดด้านความสามารถในการเขียนโค้ด

ภาพ: Minimax

ตอนนี้ OpenAI ระบุว่าการแข่งนั้นเป็นภาพลวงบางส่วน รายงานระบุว่าทีมได้ตรวจสอบ 138 งานที่ GPT-5.2 ล้มเหลวอย่างต่อเนื่องใน 64 การรันอิสระ และมีวิศวกร 6 คนรีวิวแต่ละงาน สรุปได้ว่าส่วนใหญ่ 59.4% ของงานเหล่านั้นมีปัญหา ประมาณ 35.5% มีการทดสอบที่เขียนมาอย่างแคบมาก ต้องใช้ชื่อฟังก์ชันเฉพาะที่ไม่เคยกล่าวถึงในคำอธิบายปัญหา อีก 18.8% ตรวจสอบคุณสมบัติที่ไม่เคยเป็นส่วนหนึ่งของปัญหาเดิมเลย ซึ่งรวบรวมจาก pull request ที่ไม่เกี่ยวข้อง ปัญหาการปนเปื้อนนี้ทำงานประมาณนี้: SWE-bench ดึงโจทย์จากรีโพซิทอรีโอเพ่นซอร์สที่บริษัท AI ส่วนใหญ่นำไปใช้สร้างชุดข้อมูลฝึกอบรม OpenAI ทดสอบว่า GPT-5.2, Claude Opus 4.5 และ Gemini 3 Flash Preview เคยเห็นวิธีแก้ปัญหาบนเกณฑ์นี้ในระหว่างการฝึกหรือไม่ ทั้งสามมี โดยให้แค่รหัสงานและคำใบ้สั้นๆ แต่โมเดลแต่ละตัวสามารถสร้างโค้ดแก้ปัญหาได้จากหน่วยความจำ รวมถึงชื่อแปรและคอมเมนต์ในบรรทัดที่ไม่เคยปรากฏในคำอธิบายปัญหา ในกรณีหนึ่ง บันทึก chain-of-thought ของ GPT-5.2 แสดงให้เห็นว่ามีการวิเคราะห์ว่าพารามิเตอร์เฉพาะต้องถูก “เพิ่มใน Django 4.1” ซึ่งเป็นรายละเอียดที่พบในบันทึกการปล่อยเวอร์ชันของ Django เท่านั้น ไม่ใช่ในคำอธิบายงาน มันตอบคำถามที่เคยเห็นคำตอบแล้ว OpenAI แนะนำให้ใช้ SWE-bench Pro ซึ่งเป็นเกณฑ์ใหม่จาก Scale AI ที่ใช้ฐานโค้ดและใบอนุญาตที่หลากหลายมากขึ้น ซึ่งลดการเปิดเผยข้อมูลการฝึกอบรม ผลการทำงานลดลงอย่างชัดเจน: โมเดลที่เคยทำคะแนนเกิน 70% บนเกณฑ์ Verified เดิม ตอนนี้ทำได้ประมาณ 23% บน SWE-bench Pro เวอร์ชันสาธารณะ และน้อยกว่านั้นบนงานส่วนตัว บนกระดานผู้นำ SWE-bench Verified สาธารณะในปัจจุบัน OpenAI ยังอยู่ห่างไกลจากตำแหน่งบนสุดของเกณฑ์ การยกเลิกเกณฑ์ที่แพ้และสนับสนุนเกณฑ์ที่ทุกคนเริ่มต้นที่ 23% เป็นการรีเซ็ตคะแนนในช่วงเวลาที่สะดวกและทำให้คำอ้างของคู่แข่งดูน้อยน้อยลง

สิ่งนี้สำคัญเป็นพิเศษเมื่อเวอร์ชันใหม่ของ DeepSeek ที่คาดหวังกันอย่างมาก ถูกลือว่าจะสามารถเอาชนะหรือเข้าใกล้โมเดล AI อเมริกัน โดยเฉพาะในงานด้านเอเจนต์และการเขียนโค้ดด้วยโมเดลโอเพ่นซอร์สที่ฟรีและเปิดเผย โมเดลนี้อาจเปิดตัวในอีกไม่กี่วันข้างหน้า และ SWE-bench Verified อาจเป็นเกณฑ์สำคัญในการวัดคุณภาพของมัน

OpenAI กล่าวว่ากำลังสร้างการประเมินผลที่เขียนโดยเอกชน ซึ่งจะไม่เปิดเผยก่อนการทดสอบ โดยชี้ไปที่โครงการ GDPVal ซึ่งผู้เชี่ยวชาญด้านโดเมนเขียนโจทย์ต้นฉบับและให้คะแนนโดยผู้รีวิวที่ได้รับการฝึกฝน ปัญหาเกณฑ์นี้ไม่ใช่เรื่องใหม่ และไม่ใช่เฉพาะด้านการเขียนโค้ดเท่านั้น ห้องปฏิบัติการ AI ได้ผ่านการประเมินหลายรอบ ซึ่งแต่ละรอบก็มีประโยชน์จนกว่าจะมีการฝึกโมเดลบนมันหรือจนกว่าภารกิจจะกลายเป็นเรื่องแคบเกินไป แต่สิ่งที่ทำให้กรณีนี้โดดเด่นคือ OpenAI ได้โปรโมต SWE-bench Verified อย่างเต็มที่ ส่งเสริมมันในแต่ละเวอร์ชันของโมเดล และตอนนี้ก็ได้บันทึกอย่างเป็นทางการว่ามันล้มเหลวอย่างละเอียด รวมถึงแสดงให้เห็นโมเดลของตนเองที่โกงบนมันด้วย

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น