إصدار نموذج GPT 5.5: متخصص في برمجة البحث العلمي! مقارنة مباشرة مع Claude Opus 4.7 لمعرفة الاختلافات

أوبن إيه آي تطلق بسرعة نموذج GPT-5.5، مع التركيز على أقوى وأبسط قدرات البرمجة والتعامل عبر الأدوات، يُنظم هذا المقال مقارنة أداء نماذج رئيسية مثل GPT-5.5 وClaude Opus 4.7 وGemini 3.1 Pro.

نموذج GPT-5.5 من أوبن إيه آي جاء! مميزاته لمحة واحدة

أعلنت شركة الذكاء الاصطناعي العملاقة OpenAI في وقت مبكر من 24 أبريل بتوقيت تايوان، عن إطلاق نموذج GPT-5.5 الجديد بشكل مفاجئ، مدعية أنه أذكى نظام ذكاء اصطناعي حتى الآن وأكثره سهولة في الاستخدام.

تقول OpenAI إن نموذج GPT-5.5 يمتلك قدرات قوية في برمجة الوكيل الذكي، ويتخصص في معالجة الشفرات البرمجية بما يشمل تصحيح الأخطاء، والبحث عبر الإنترنت، والتعامل عبر الأدوات المختلفة.

مقارنة مع الجيل السابق GPT-5.4، يحافظ GPT-5.5 على نفس مستوى زمن الاستجابة الحسابي، ويستطيع إكمال المهام باستخدام عدد أقل من العلامات.

ذكر الرئيس التنفيذي لـ OpenAI، جريج بروكمان، أن النموذج الجديد يمثل خطوة مهمة نحو الحساب التلقائي البديهي، وهو أيضًا خطوة رئيسية نحو إنشاء تطبيقات فائقة تجمع بين ChatGPT وCodex ومتصفح الذكاء الاصطناعي.

خطط تكلفة واستخدام نموذج GPT-5.5

ابتداءً من اليوم، يمكن لمستخدمي خطط ChatGPT Plus وPro وBusiness وEnterprise، بالإضافة إلى مستخدمي Codex، استخدام GPT-5.5، بينما يتوفر إصدار GPT-5.5 Pro المتقدم لمستخدمي Pro وBusiness وEnterprise.

بالنسبة لتسعير API، فإن تكلفة إدخال Token لـ GPT-5.5 هي 5 دولارات لكل مليون، والإخراج 30 دولارًا لكل مليون. أما GPT-5.5 Pro، فتبلغ تكلفة إدخال Token 30 دولارًا لكل مليون، والإخراج 180 دولارًا لكل مليون.

ومن الجدير بالذكر أن توقيت إصدار نموذج GPT-5.5 تزامن مع اقتراب معركة قضائية بين إيلون ماسك وسام ألتمان، مما أثار اهتمام المجتمع.

أداء اختبار GPT-5.5: تحليل المزايا والعيوب

في اختبارات الأداء (Benchmark)، أظهر GPT-5.5 تفوقًا تقنيًا، لكن لا تزال هناك تحديات في بعض المجالات.

وفقًا لبيانات OpenAI الرسمية، حقق نموذج GPT-5.5 دقة بلغت 82.7% في اختبار Terminal-Bench 2.0، الذي يقيم الأوامر المعقدة في سطر الأوامر؛ وفي اختبار GDPval الخاص بالعمل المعرفي، حصل على 84.9%، مما يدل على قيمة عملية عالية في الأعمال اليومية.

أما في اختبار حل المشكلات على GitHub، فكانت نتائج GPT-5.5 في اختبار SWE-Bench Pro حوالي 58.6%، متأخرًا قليلاً عن Claude Opus 4.7 الذي حقق 64.3%.

رغم أن OpenAI أشار إلى أن الاختبارات قد تتأثر بتأثير ذاكرة النموذج، إلا أن النتائج لا تزال تظهر أن GPT-5.5 يعاني من بعض العيوب في تصحيح الأخطاء أثناء التطوير.

مصدر الصورة: أداء اختبار GPT-5.5، تحليل المزايا والعيوب

في مجال أمن المعلومات، أطلقت شركة Anthropic مؤخرًا نموذج Claude Mythos Preview، الذي يركز على تعزيز قدرات الأمان، بينما على الرغم من تحسين قدرات الدفاع، يقتصر استخدام GPT-5.5 حاليًا على قنوات محددة للشركات المعتمدة لحماية البنية التحتية.

مقارنة النماذج الرئيسية: GPT-5.5، Claude Opus 4.7، Gemini 3.1 Pro

مقارنة بيانات GPT-5.5 وClaude Opus 4.7

استنادًا إلى بيانات الاختبار الرسمية من OpenAI وITmedia، في اختبار بيئة الحاسوب الفعلية OSWorld-Verified، حصل GPT-5.5 على 78.7%، متفوقًا قليلاً على Claude Opus 4.7 الذي حصل على 78.0%.

وفي اختبار BrowseComp، الذي يقيم العمليات المنطقية المتقدمة والتعاون مع الأدوات، حقق GPT-5.5 نسبة 84.4%، متفوقًا على Claude Opus 4.7 الذي حصل على 79.3%. وفي اختبارات Math Frontier Tier 1 إلى 3، تفوق GPT-5.5 بنسبة 51.7% على Claude Opus 4.7 الذي حقق 43.8%.

مقارنة بيانات GPT-5.5 وGemini 3.1 Pro

بالنسبة لمقارنة GPT-5.5 مع Gemini 3.1 Pro، حافظ GPT-5.5 على تفوقه في معظم الاختبارات المهنية. في اختبار GDPval الخاص بالعمل المعرفي، حصل GPT-5.5 على 84.9%، متفوقًا على Gemini 3.1 Pro الذي حقق 67.3%.

وفي تقييم استخدام الأدوات الخارجية Toolathlon، حصل GPT-5.5 على 55.6%، متفوقًا على Gemini 3.1 Pro الذي حصل على 48.8%.

مصدر الصورة: مقارنة بيانات GPT-5.5 وGemini 3.1 Pro

في اختبار MMMU Pro متعدد الوسائط بدون أدوات، حقق GPT-5.5 نسبة 81.2%، بينما حصل Gemini 3.1 Pro على 80.5%، وتقترب النتائج بشكل كبير.

هل GPT-5.5 يهيئ الطريق للاكتتاب العام؟

ذكر مارك تشن، رئيس أبحاث OpenAI، أن GPT-5.5 يحقق تحسينات ملموسة في عمليات البحث العلمي والتقني، ومن المتوقع أن يساعد العلماء في تسريع اكتشاف الأدوية وغيرها من المجالات.

وأشارت وسائل الإعلام، مثل The Verge، إلى أن إصدار هذا النموذج يعكس سعي OpenAI وAnthropic للفوز بسيطرة سوق أدوات الذكاء الاصطناعي المؤسسية، ويُعد تمهيدًا لطرح أولي محتمل للاكتتاب العام (IPO) في وقت لاحق من هذا العام، مع تصاعد المنافسة بين الطرفين.

قراءة إضافية:
كيف تستخدم صور ChatGPT 2.0؟ تجارب على قوائم الطعام، أغلفة المجلات، وعلوم متعددة اللغات

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت