ChainCatcher รายงานว่า ตามรายงานจาก Jinshi OpenAI พนักงานหนึ่งของบริษัท xAI ภายใต้การคุมของ Elon Musk กล่าวถึงผลการทดสอบเกณฑ์เปรียบเทียบสมรรถนะของโมเดล AI ล่าสุด Grok3 ซึ่งมีความเท็จของมัน ในขณะเดียวกัน ผู้ร่วมก่อตั้งของ xAI Igor Babushkin ยืนกรานว่า บริษัทไม่ได้กระทำผิดกราฟ xAI แสดงให้เห็นว่ารุ่น Grok3 ทั้งสองรุ่น คือ Grok3 Reasoning Beta และ Grok3 mini Reasoning มีผลงานที่ดีกว่ารุ่น o3-mini-high ที่แข็งแกร่งที่สุดของ OpenAI ใน AIME 2025 อย่างไรก็ตาม พนักงานของ OpenAI รีบชี้แจงในแพลตฟอร์ม X ว่า กราฟ xAI ไม่ได้รวมคะแนน AIME 2025 ของ o3-mini-high ภายใต้เงื่อนไข "cons@64"บูชคินอ้างว่าในแพลตฟอร์ม X OpenAI ยังเคยมีการเผยแพร่กราฟทดสอบที่เปรียบเทียบเกณฑ์เปรียบเทียบสมรรถนะที่สร้างความเข้าใจผิด ๆ อย่างเดียว แม้ว่ากราฟเหล่านั้นจะถูกใช้เปรียบเทียบประสิทธิภาพโมเดลของตนเอง
พนักงาน OpenAI ประชุมสาธารณะว่า xAI รุ่นล่าสุดโมเดล AI ชื่อ Grok3 มีผลทดสอบเกณฑ์เปรียบเทียบสมรรถนะที่สร้างความเข้าใจผิด
ChainCatcher รายงานว่า ตามรายงานจาก Jinshi OpenAI พนักงานหนึ่งของบริษัท xAI ภายใต้การคุมของ Elon Musk กล่าวถึงผลการทดสอบเกณฑ์เปรียบเทียบสมรรถนะของโมเดล AI ล่าสุด Grok3 ซึ่งมีความเท็จของมัน ในขณะเดียวกัน ผู้ร่วมก่อตั้งของ xAI Igor Babushkin ยืนกรานว่า บริษัทไม่ได้กระทำผิด กราฟ xAI แสดงให้เห็นว่ารุ่น Grok3 ทั้งสองรุ่น คือ Grok3 Reasoning Beta และ Grok3 mini Reasoning มีผลงานที่ดีกว่ารุ่น o3-mini-high ที่แข็งแกร่งที่สุดของ OpenAI ใน AIME 2025 อย่างไรก็ตาม พนักงานของ OpenAI รีบชี้แจงในแพลตฟอร์ม X ว่า กราฟ xAI ไม่ได้รวมคะแนน AIME 2025 ของ o3-mini-high ภายใต้เงื่อนไข "cons@64" บูชคินอ้างว่าในแพลตฟอร์ม X OpenAI ยังเคยมีการเผยแพร่กราฟทดสอบที่เปรียบเทียบเกณฑ์เปรียบเทียบสมรรถนะที่สร้างความเข้าใจผิด ๆ อย่างเดียว แม้ว่ากราฟเหล่านั้นจะถูกใช้เปรียบเทียบประสิทธิภาพโมเดลของตนเอง