كشفت شركة Xiaomi عن تفاصيل تدريب نموذج 1T MiMo-V2-Pro: استهلاك آلاف الكالوري، بدون رتبة أو موعد نهائي

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 24 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، كشف رئيس فريق نموذج ميومي الكبير من Xiaomi، لو فو لي، في أول مقابلة عميقة، أن نموذج MiMo-V2-Pro يحتوي على إجمالي عدد معلمات يصل إلى 1 تيرابايت، ويستخدم الآلاف من وحدات معالجة الرسومات (GPU) في التدريب.
يعتقد أن حجم 1 تيرابايت هو الحد الأدنى لتحقيق مستوى قريب من Claude Opus 4.6، والحصول على تذكرة دخول للمنافسة على المرحلة التالية من الوكلاء.
على المستوى التقني، سيقوم إصدار Pro برفع نسبة الانتباه العالمي إلى نسبة 7:1 مع انتباه النافذة المنزلقة إلى أقصى حد من التشتت، مع التحكم في تكلفة استنتاج النص الطويل عند زيادة عدد المعلمات، ويستمر في استخدام بنية MTP (توقع متعدد الرموز) للاستفادة من القدرة الحسابية الفائضة لتسريع الاستنتاج.
على مستوى الإدارة، يتكون فريق ميومي المكون من مئة شخص فقط من ثلاثين إلى أربعين شخصًا يشاركون مباشرة في التكرار الأساسي، ولا يوجد في الفريق نظام درجات وظيفية، ولا تقسيم واضح للمجموعات أو مواعيد تسليم محددة.
عندما تواجه مشاكل غير مستقرة مثل تقلب خسارة التدريب، يختار الفريق التوقف عن التدريب مباشرة للتحقيق، حتى لو استغرق الأمر أسبوعًا أو أسبوعين وتكلف ملايين من قدرات الحوسبة.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت