تحليل: محتوى TileKernels المفتوح المصدر يتوافق مع مواصفات بنية V4 التي كشف عنها ييفان Zhang

robot
إنشاء الملخص قيد التقدم

موقع CoinWorld يذكر أن مواصفات بنية V4 التي كشف عنها المحلل ييفان Zhang تتطابق مع وجود مكتبة النوى TileKernels المفتوحة المصدر من DeepSeek في عدة مواضع. قال Zhang إن الاتصال المتبقي في V4 يستخدم قيد المنحنى المتموج (MHC)، وهو نسخة محسنة من قيد مصفوفة عشوائية مزدوجة اقترحها فريق Seed في عام 2024. من خلال رمز نواة TileKernels، تم استنتاج بنية V4، حيث تم تحقيق ثلاثة عناصر رئيسية وفشل عنصر واحد. أكد ملف النموذج أن V4 يستخدم MHC، وهو ما تم تأكيده. كما أكد ملف النموذج أن V4 هو نموذج MOE، وهو ما تم تأكيده أيضًا. يتم تخزين الأوزان باستخدام مزيج من FP4 و FP8، وهو ما تم تأكيده. العنصر الوحيد الذي لم يتم تأكيده هو وحدة الذاكرة الشرطية (Engram)، ولم يذكرها ملف النموذج أيضًا. يكشف ملف النموذج عن مكونات جديدة لم يذكرها TileKernels: آلية الانتباه المختلطة (CSA + HCA) هي جوهر قفزة الكفاءة في سياق V4 الطويل، حيث أن استدلال سياق 1 مليون فقط يستهلك 27% من FLOPS مقارنة بـ V3.2، وذاكرة KV المؤقتة فقط 10%، وتم تعديل التدريب باستخدام محسن Muon.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت