ديبسيك V4 تحقق الدرجة الكاملة 120 في بوتنام-2025، مطابقة أُكسيم في الاستدلال الرياضي الرسمي

وفقًا للمراقبة التي أجرتها Dongcha Beating، أصدرت DeepSeek V4 مجموعتين من التقييمات الرسمية للمنطق الرياضي. مسابقة بوتنام هي أعلى مسابقة رياضيات جامعية في أمريكا الشمالية. في النظام العملي، سجل V4-Flash-Max 81.00 نقطة على معيار Pass@8 الخاص بـ Putnam-200، باستخدام أداة LeanExplore مفتوحة المصدر والعينة المقيدة. بالمقارنة، سجل Seed-2.0-Prover 35.50، بينما سجل كل من Gemini 3 Pro و Seed-1.5-Prover 26.50. في نظام الحدود، استخدم V4 نهجًا هجينًا بين المنطق الرسمي وغير الرسمي، حيث قام أولاً بتوليد حلول مرشحة باللغة الطبيعية من خلال التفكير غير الرسمي، ثم تم تصفيتها من خلال التحقق الذاتي قبل أن يتم إثباتها بدقة بواسطة وكيل رسمي في Lean. حقق V4 درجة كاملة 120/120 في Putnam-2025، متساويًا في المركز الأول مع Axiom، وتفوق على درجة Seed-1.5-Prover البالغة 110/120 ودرجة Aristotle البالغة 100/120. استخدم نظام الحدود توسعات حسابية واسعة النطاق، في حين أن النتائج في النظام العملي تعكس بشكل أفضل قدرات النشر التقليدية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت