نموذج أنثروبيك الجديد ضاعف أداء أوبوس 4.6 على معيار واحد عرض تقديمي لماثوس كلاود — دعوة فقط، بدون واجهة برمجة تطبيقات عامة. الأرقام من بطاقة النظام الخاصة بهم:


- اختبار SWE-bench موثوق: 93.9% مقابل 80.8% (أوبوس) مقابل 79.6% (سونيت)
- اختبار SWE-bench Pro: 77.8% مقابل 53.4%
- اختبار Terminal-Bench 2.0: 82.0% مقابل 65.4%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت