ديب سيك V4 إصدار: 1.6 تريليون معلمة، تدعم سياقًا يقارب المليون، وقوة الاستدلال فقط 27% من V3.2

وفقًا لمراقبة Beating، إصدار معاينة من سلسلة DeepSeek المفتوحة المصدر V4، برخصة MIT، تم إطلاق الأوزان على Hugging Face و ModelScope. تتضمن السلسلة نموذجين من MoE: V4-Pro بإجمالي 1.6 تيرابايت من المعلمات، و49 مليار تنشيط لكل رمز؛ وV4-Flash بإجمالي 284 مليار من المعلمات، و13 مليار تنشيط؛ كلاهما يدعمان سياقًا بطول 1 مليون رمز.

ترقية ثلاثية في الهيكل: آلية الانتباه المختلطة (الانتباه المضغوط والمنتشر CSA + الانتباه المضغوط الثقيل HCA) تقلل بشكل كبير من استهلاك السياق الطويل، حيث أن FLOPs للتنفيذ الفردي لكل رمز في V4-Pro عند سياق 1 مليون هو فقط 27% من V3.2، وذاكرة التخزين المؤقت KV (التي تخزن المعلومات التاريخية أثناء الاستنتاج) فقط 10% من V3.2؛ قيد الشكل المقيد للاتصال الفائق mHC يحل محل الاتصالات المتبقية التقليدية، مما يعزز استقرار نقل الإشارة عبر الطبقات؛ تم تعديل التدريب باستخدام محسن Muon لتسريع التقارب. البيانات قبل التدريب تزيد عن 32 تيرابايت من الرموز.

يتم تقسيم التدريب بعد ذلك إلى مرحلتين: أولاً، يتم تدريب خبراء المجالات باستخدام SFT و GRPO لتعزيز التعلم، ثم يتم دمجهم عبر التقطير عبر الإنترنت ليصبحوا نموذجًا واحدًا. يدعي V4-Pro-Max (وضع أقصى قوة استنتاج) أنه النموذج المفتوح المصدر الأقوى حاليًا، مع معايير ترميز تصل إلى المستوى الأعلى، وتقريبًا تقليل الفجوة في الاستنتاج ومهام الوكيل مع أحدث النماذج المغلقة. في حين أن V4-Flash-Max، بعد تخصيص ميزانية التفكير، يقارب أداء Pro في الاستنتاج، إلا أنه محدود في المعرفة الصافية والمهام المعقدة للوكيل بسبب حجم المعلمات. يتم تخزين الأوزان بدقة مختلطة FP4 + FP8.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت