DeepSeek V4 вже тут — його професійна версія коштує на 98% менше, ніж GPT 5.5 Pro

###Коротко

  • DeepSeek випустила свою нову модель V4-Pro з 1,6 трильйонами параметрів.
  • Вартість складає $1,74/$3,48 за мільйон вхідних/вихідних токенів, приблизно в 20 разів дешевше Claude Opus 4.7 і на 98% дешевше GPT 5.5 Pro.
  • DeepSeek частково навчалась на чипах Huawei Ascend, обходячи американські обмеження на експорт, і стверджує, що коли пізніше у 2026 році запуститься 950 нових супернодів, ціна на модель Pro ще знизиться.

DeepSeek повернулася, і вона з’явилася кілька годин після того, як OpenAI випустила GPT-5.5. Випадковість? Можливо. Але якщо ви — китайська лабораторія штучного інтелекту, яку уряд США намагається сповільнити за допомогою заборон на експорт чипів протягом останніх трьох років, ваше відчуття часу стає дуже гострим. Лабораторія з Ханчжоу сьогодні випустила попередні версії DeepSeek-V4-Pro і DeepSeek-V4-Flash, обидві з відкритим вагою, обидві з контекстним вікном на мільйон токенів. Це означає, що ви можете працювати з контекстом приблизно розміром трилогії Володимирської Персні, перш ніж модель зламається. Обидві також значно дешевші за будь-які аналоги на Заході і безкоштовні для тих, хто може запускати їх локально. Останній великий прорив DeepSeek — R1 у січні 2025 року — зняв з ринку Nvidia понад мільярд доларів за один день, оскільки інвестори запитували, чи американські компанії дійсно потребують таких великих інвестицій для досягнення результатів, яких досягла невелика китайська лабораторія за менші кошти. V4 — це інший тип руху: тихий, технічний і більш орієнтований на ефективність для тих, хто дійсно створює з AI.

Дві моделі, дуже різні задачі  З двох нових моделей, DeepSeek’s V4-Pro — найбільша, з 1,6 трильйонами параметрів. Щоб зрозуміти масштаб, параметри — це внутрішні «налаштування» або «мозкові клітини», які модель використовує для збереження знань і розпізнавання шаблонів — чим більше параметрів, тим складнішу інформацію вона теоретично може зберігати. Це наймасштабніша модель з відкритим кодом на ринку LLM на сьогодні. Може здатися неймовірним, але вона активує лише 49 мільярдів з них за один прохід.
Це трюк «Змішання експертів», який DeepSeek вдосконалює з V3: повна модель залишається на місці, але лише відповідний її сегмент активується для кожного запиту. Більше знань — той самий обсяг обчислень. «DeepSeek-V4-Pro-Max, режим максимальної логіки розуміння DeepSeek-V4-Pro, значно розширює можливості знань моделей з відкритим кодом, міцно закріплюючись як найкраща доступна модель», — написала DeepSeek у офіційній картці моделі на Huggingface. «Вона досягає високих результатів у бенчмарках кодування і суттєво зменшує розрив із провідними закритими моделями у задачах логіки та агентної роботи.» V4-Flash — практична модель: 284 мільярди параметрів, активних — 13 мільярдів. Вона створена для більш швидкої роботи, дешевша і, за власними бенчмарками DeepSeek, «досягає схожих результатів у логіці з Pro-версією при більшому бюджеті на роздуми».

Обидві підтримують контекст у один мільйон токенів. Це приблизно 750 000 слів — майже весь «Володар перснів» з додатками. І це стандартна функція, а не преміум-опція. Секретний соус DeepSeek — зробити увагу не жахливою на масштабі Ось технічна частина для технарів або тих, хто цікавиться магією, що живить модель. DeepSeek не приховує своїх секретів, і все доступне безкоштовно — повний документ є на Github. Стандартна увага AI — механізм, що дозволяє моделі розуміти зв’язки між словами — має жорстку проблему масштабування. Кожного разу, коли подвоюєш довжину контексту, обчислювальні витрати приблизно зростають у чотири рази. Тому запуск моделі на мільйоні токенів коштує не просто вдвічі дорожче, ніж на 500 000, а в чотири рази. Саме тому довгий контекст історично був опцією, яку лабораторії додають і потім тихо обмежують. DeepSeek винайшла два нових типи уваги, щоб обійти цю проблему. Перший — Стиснена розріджена увага (Compressed Sparse Attention), працює у два етапи. Спочатку вона стискає групи токенів — скажімо, кожні 4 — у один запис. Потім, замість уваги до всіх стиснених записів, вона використовує «Молнієвий індексатор» для вибору лише найрелевантніших результатів для запиту. Ваша модель переходить від уваги до мільйона токенів до уваги до набагато меншого набору важливих часток, ніби бібліотекар, який не читає кожну книгу, але точно знає, яку полицю перевірити. Другий — Надзвичайно стиснена увага (Heavily Compressed Attention), більш агресивна. Вона згортає кожні 128 токенів у один запис — без розрідженого відбору, просто жорстке стиснення. Ви втрачаєте дрібні деталі, але отримуєте дуже дешевий глобальний огляд. Обидва типи уваги чергуються шарами, тому модель отримує і деталь, і огляд.

![]$600 https://img-cdn.gateio.im/social/moments-02b21fa93c-be927f953a-8b7abd-badf29(

Результат, з технічного документа: при одному мільйоні токенів V4-Pro використовує 27% обчислень, які потрібні його попереднику )V3.2(. Кеш KV — пам’ять, необхідна для відстеження контексту — зменшується до 10% від V3.2. V4-Flash ще більше знижує це: 10% обчислень, 7% пам’яті. І це дозволило DeepSeek запропонувати набагато дешевшу ціну за токен у порівнянні з конкурентами, при цьому забезпечуючи схожі результати. У доларовому еквіваленті: GPT-5.5 запустили вчора з ціною )вхідних і (вихідних токенів за мільйон, а GPT-5.5 Pro — за )за мільйон вхідних і $5 за мільйон вихідних токенів.

DeepSeek V4-Pro коштує $1,74 за вхід і $3,48 за вихід. V4-Flash — $0,14 за вхід і $0,28 за вихід. Генеральний директор Cline Сауд Різван зазначив, що якби Uber використовував DeepSeek замість Claude, його AI-бюджет 2026 року — нібито достатній для чотирьох місяців — вистачив би на сім років.

deepseek v4 now the cheapest sota model available at 1/20th the cost of opus 4.7.

for perspective, if uber used deepseek instead of claude their 2026 ai budget would have lasted 7 years instead of only 4 months. pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan $30 @sdrzn$30 24 квітня 2026

Бенчмарки DeepSeek робить щось незвичайне у своєму технічному звіті: публікує прогалини. Більшість релізів моделей вибірково показують ті бенчмарки, де вони перемагають. DeepSeek провела повне порівняння з GPT-5.4 і Gemini-3.1-Pro, виявила, що логіка V4-Pro відстає від цих моделей приблизно на три-шість місяців, і все одно опублікувала результати. Де V4-Pro-Max справді перемагає: Codeforces, бенчмарк з конкурентного програмування, оцінений як людські шахи. V4-Pro набрав 3 206, посівши приблизно 23-тє місце серед учасників реальних людських змагань. На Apex Shortlist, добірці складних математичних і STEM-задач, він показав прохідний рівень і досяг 90,2% проти 85,9% Opus 4.6 і 78,1% GPT-5.4. На SWE-Verified, що оцінює здатність моделі вирішувати реальні проблеми GitHub з відкритих репозиторіїв, він набрав 80,6% — у порівнянні з Claude Opus 4.6.

![]$180 https://img-cdn.gateio.im/social/moments-51d4cda8e3-32b57da7d8-8b7abd-badf29(

Де він поступається: тест MMLU-Pro )Gemini-3.1-Pro на 91,0% проти V4-Pro на 87,5%(, тест GPQA Diamond )Gemini 94,3 проти V4-Pro 90,1(, і іспит Humanity’s Last Exam, випускний рівень, де Gemini-3.1-Pro з 44,4% все ще перемагає V4-Pro з 37,7%. Щодо довгого контексту, V4-Pro випереджає моделі з відкритим кодом і програє Gemini-3.1-Pro на бенчмарку CorpusQA )тест, що імітує реальний аналіз документів на мільйон токенів(, але програє Claude Opus 4.6 на MRCR — тесті, що вимірює, наскільки добре модель може знайти конкретну інформацію у дуже довгому стосі сіна. Створена для запуску агентів, а не просто відповіді на питання Агентна частина — це те, що робить цю релізу цікавою для розробників, які дійсно впроваджують продукти.

V4-Pro може працювати у Claude Code, OpenCode та інших інструментах AI-кодування. За внутрішнім опитуванням DeepSeek серед 85 розробників, які використовували V4-Pro як основного агента для кодування, 52% сказали, що він готовий стати їхньою моделлю за замовчуванням, 39% — схиляються до цього, і менше 9% — ні. Внутрішні співробітники стверджують, що він перевершує Claude Sonnet і наближається до Claude Opus 4.5 у задачах агентного кодування.

![])https://img-cdn.gateio.im/social/moments-7950e97367-e6879bef39-8b7abd-badf29(

Artificial Analysis, що проводить незалежну оцінку моделей AI у реальних задачах, посідає перше місце серед моделей з відкритим вагою у бенчмарку GDPval-AA — тесті, що оцінює економічно цінну роботу у фінансах, праві та дослідженнях, за шкалою Elo. V4-Pro-Max набрав 1 554 Elo, випереджаючи GLM-5.1 )1 535( і MiniMax M2.7 )1 514(. Для порівняння, Claude Opus 4.6 має 1 619 на тому ж бенчмарку — все ще попереду, але різниця зменшується.

DeepSeek V4 Pro — найкраща модель з відкритим вагою у GDPval-AA, нашому тесті реальної агентної роботи@deepseek_ai випустила V4 Pro )1.6Т загалом / 49Б активних( і V4 Flash )284Б загалом / 13Б активних(. V4 — перший новий розмір DeepSeek з V3, з усіма проміжними моделями… pic.twitter.com/2kJWVrKQjF

— Artificial Analysis )@ArtificialAnlys( 24 квітня 2026

DeepSeek’s V4 також вводить таке поняття, як «переривчасте мислення». У попередніх моделях, якщо ви запускали агента, що робив кілька викликів інструментів — наприклад, шукав у вебі, потім запускав код, знову шукав — контекст логіки скидався між раундами. Кожен новий крок вимагав відновлення ментальної моделі з нуля. V4 зберігає повний ланцюг думок через виклики інструментів, тому робочий процес з 20 кроків не страждає від амнезії наприкінці. Це важливо більше, ніж здається, для тих, хто запускає складні автоматизовані пайплайни. DeepSeek і війна США з Китаєм у сфері AI З 2022 року США обмежують експорт високопродуктивних чипів Nvidia до Китаю. Оголошена мета — сповільнити розвиток китайського AI, але заборона на чипи не зупинила DeepSeek, а навпаки — змусила їх винаходити більш ефективну архітектуру і розвивати внутрішній постачання апаратного забезпечення. DeepSeek не випустила V4 у вакуумі — у сфері AI останнім часом багато активності: Anthropic випустила Claude Opus 4.7 16 квітня — модель, яку Decrypt протестував і виявив сильною у кодуванні та логіці, з високим використанням токенів. Напередодні Anthropic також тримала Claude Mythos, модель для кібербезпеки, яку вони не можуть випустити публічно, бо вона занадто добре справляється з автономними атаками у мережі. Xiaomi 22 квітня випустила MiMo V2.5 Pro — мультимодальну модель зображень, аудіо, відео. Вартість )вхідних і (вихідних токенів за мільйон. Вона відповідає Opus 4.6 у більшості бенчмарків кодування. Три місяці тому ніхто не говорив про Xiaomi як про передову AI-компанію. Тепер вона швидше випускає конкурентні моделі, ніж більшість західних лабораторій.

GPT-5.5 від OpenAI вийшов учора з цінами, що зросли до )за мільйон вихідних токенів у Pro-версії. Він перевершує V4-Pro у Terminal Bench 2.0 $1 82,7% проти 70,0%$3 , що тестує складні командні сценарії агентів. Але коштує значно дорожче за V4-Pro для аналогічних задач. У той самий день Tencent випустила Hy3, ще одну сучасну модель, орієнтовану на ефективність. Що це означає для вас Отже, з такою кількістю нових моделей, що доступні, актуальне питання для розробників: коли варто платити за преміум? Для підприємств математика могла змінитися. Модель, яка лідирує у бенчмарках з відкритим кодом за $1,74 за мільйон вхідних токенів, означає, що великі документообробки, юридичні огляди або пайплайни генерації коду, що раніше коштували дорого шість місяців тому, тепер значно дешевші. Контекст у мільйон токенів дозволяє подавати цілі кодові бази або регуляторні документи в одному запиті, а не розбивати їх на кілька. Крім того, його відкритий код означає, що його можна запускати безкоштовно на локальному обладнанні, а також налаштовувати і покращувати відповідно до потреб компанії. Для розробників і незалежних творців V4-Flash — це той, за ким слід стежити. За ціною $0,14 за вхід і $0,28 за вихід він дешевший за моделі, які рік тому вважалися бюджетними, і виконує більшість задач, що й Pro-версія. Вже існуючі API DeepSeek — deepseek-chat і deepseek-reasoner — автоматично маршрутизують запити до V4-Flash у режимах без і з мисленням, тож якщо ви користуєтеся API, ви вже його використовуєте. Моделі наразі працюють лише з текстом. DeepSeek заявила, що працює над мультимодальними можливостями, що означає, що інші великі лабораторії, від Xiaomi до OpenAI, ще мають цю перевагу. Обидві моделі ліцензовані за MIT і вже доступні на Hugging Face. Старі API deepseek-chat і deepseek-reasoner будуть припинені 24 липня 2026 року.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити