Новини з Coinjie.com, DeepSeek випустила серію V4, флагманська модель має загальну кількість параметрів 1,6 трильйона, підтримує контекст до 1 мільйона, обчислювальна потужність для виведення лише 27% від V3.2. Ця серія включає дві моделі MOE: v4-pro з 1,6 трильйонами параметрів, активує 49 мільярдів токенів (490億), та v4-flash з 284 мільярдами параметрів (2840億), активує 13 мільярдів (130億). Оновлення архітектури включає гібридний механізм уваги, що значно знижує витрати на довгий контекст, FLOPS для однотокенового виведення v4-pro становить лише 27% від V3.2. Дані для попереднього навчання перевищують 32 трильйони токенів, поділяються на два етапи, v4-pro-max стверджує, що є найпотужнішою відкритою моделлю на даний час, її продуктивність у виведенні близька до закритих передових моделей. Ваги зберігаються у гібридній точності FP4+FP8.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити