DeepSeek V4-Pro、GPT-5.5 Proより98%低コストでローンチ

CryptoFrontier

DeepSeekは2026年4月24日にDeepSeek-V4-ProおよびDeepSeek-V4-Flashのプレビュー版をリリースしました。どちらもオープンウェイトのモデルで、100万トークンのコンテキストウィンドウを備え、同等の欧米代替案に比べて価格が大幅に低いです。V4-Proモデルは、同社の公式仕様によれば、入力トークン100万あたり$1.74、出力トークン100万あたり$3.48で、Claude Opus 4.7の約1/20の価格であり、GPT-5.5 Proより98%安いとされています。

モデルアーキテクチャとスケール

DeepSeek-V4-Proは合計1.6兆(1.6 trillion)パラメータを特徴としており、これまでのLLM市場で最大のオープンソースモデルです。とはいえ、推論の各パスで有効化されるのは490億(49 billion)パラメータのみで、DeepSeekがV3以降に改良した「Mixture-of-Experts(MoE)」のアプローチを使っています。この設計により、モデル全体は休眠状態にでき、特定のリクエストに関連する部分スライスだけが有効化されます。これにより、知識能力を維持しつつ計算コストを削減できます。

DeepSeek-V4-Flashは合計2,840億(284 billion)パラメータで、130億(13 billion)パラメータを有効化するなど、より小さなスケールで動作します。DeepSeekのベンチマークによれば、「より大きな思考予算を与えると、Pro版と同等の推論性能を達成します」。

どちらのモデルも標準機能として100万トークンのコンテキストをサポートしており、約75万語、または「ロード・オブ・ザ・リング」三部作全体に追加テキストを加えた規模に相当します。

技術革新:スケールにおける注意(Attention)メカニズム

DeepSeekは、長いコンテキスト処理に固有の計算スケーリング問題を解決するために、同社のGitHub上で公開されている技術論文で詳述される2つの新しい注意タイプを発明しました。

標準的なAIの注意メカニズムは、過酷なスケーリング問題に直面しています。コンテキスト長が2倍になるたびに、計算コストはおおむね4倍になります。DeepSeekの解決策は2つの相補的なアプローチで構成されています。

**圧縮スパース注意(Compressed Sparse Attention)**は2段階で動作します。まず、例えば4トークンごとなど、トークンのグループを1つのエントリに圧縮します。次に、すべての圧縮エントリに注意を払う代わりに、「Lightning Indexer」を使って、任意のクエリに対して最も関連性の高い結果だけを選択します。これにより、モデルの注意範囲が100万トークンから、重要なチャンクのはるかに小さな集合へと縮小されます。

**高度に圧縮された注意(Heavily Compressed Attention)**は、より攻めたアプローチで、スパースな選択をせずに、128トークンごとを1つのエントリに折りたたみます。きめ細かい情報は失われますが、非常に安価なグローバルな視点を提供します。2種類の注意タイプは交互のレイヤーで動作し、モデルが詳細と俯瞰の両方を維持できるようにします。

Attention mechanism comparison chart

その結果:V4-Proは前身 (V3.2) が必要とした計算の27%を使用します。KVキャッシュ(コンテキストを追跡するためのメモリ)はV3.2の10%まで低下します。V4-Flashはさらに効率を押し進め:V3.2と比較して計算10%、メモリ7%です。

ベンチマーク性能と競争上の立ち位置

DeepSeekは、GPT-5.4およびGemini-3.1-Proに対する包括的なベンチマーク比較を公表しており、V4-Proが競合に劣る領域も含まれています。推論タスクでは、DeepSeekの技術レポートによれば、V4-Proの推論はGPT-5.4およびGemini-3.1-Proに対して約3〜6か月遅れています。

V4-Proがリードするところ:

  • Codeforces (競技プログラミング): V4-Proは3,206を記録し、実際の人間のコンテスト参加者の中で約23位でした
  • Apex Shortlist (厳選された数学およびSTEM問題): Opus 4.6の85.9%およびGPT-5.4の78.1%に対して、90.2%の合格率
  • SWE-Verified (GitHub issue解決): 80.6%で、Claude Opus 4.6と一致

V4-Proが劣るところ:

  • MMLU-Pro (マルチタスキング): Gemini-3.1-Proが91.0%で、V4-Proは87.5%
  • GPQA Diamond (専門知識): Geminiが94.3で、V4-Proは90.1
  • Humanity’s Last Exam (大学院レベル): Gemini-3.1-Proが44.4%で、V4-Proは37.7%

長いコンテキストのタスクでは、V4-Proはオープンソースモデルでリードし、CorpusQA (100万トークンでの実文書分析をシミュレート) ではGemini-3.1-Proに勝っていますが、MRCRではClaude Opus 4.6に負けます。MRCRは長文の奥に埋もれた特定情報の検索を測定するものです。

エージェンシー(自律実行)およびコーディング能力

V4-ProはClaude Code、OpenCode、およびその他のAIコーディングツールで動作できます。DeepSeekのV4-Proを主要なコーディングエージェントとして使用した85人の開発者に対する社内調査によれば、52%が「デフォルトのモデルとして準備ができている」と答え、39%が「そうだと思う」と傾き、9%未満が「いいえ」と答えました。DeepSeekの社内テストでは、V4-ProはClaude Sonnetを上回り、エージェントによるコーディングタスクでClaude Opus 4.5に迫ることが示されました。

Artificial Analysisは、GDPval-AAで、V4-Proを全てのオープンウェイトモデルの中で1位にランク付けしました。GDPval-AAは、金融、法律、研究タスクにまたがる経済的に価値のある知識作業をテストするベンチマークです。V4-Pro-Maxは1,554 Eloで、GLM-5.1 (1,535) およびMiniMaxのM2.7 (1,514) より前に位置しました。Claude Opus 4.6は同じベンチマークで1,619を獲得しています。

GDPval-AA benchmark ranking chart

V4は「インタリーブド(interleaved)・シンキング」を導入し、ツール呼び出し間を通じて思考の完全なチェーンを保持します。従来のモデルでは、エージェントが複数のツール呼び出し—たとえばウェブ検索、コード実行、その後再度検索—を行うと、ラウンド間でモデルの推論コンテキストがフラッシュされていました。V4はステップをまたいだ推論の継続性を維持し、複雑な自動化ワークフローにおけるコンテキスト喪失を防ぎます。

競争環境と価格の文脈

V4のリリースは、AI分野で大きな動きがある中で行われます。Anthropicは2026年4月16日にClaude Opus 4.7を出荷しました。OpenAIは2026年4月23日にGPT-5.5をローンチし、GPT-5.5 Proは入力トークン100万あたり$30 および出力トークン100万あたり$180 の価格設定です。GPT-5.5はTerminal Bench 2.0 ( 82.7% 対 70.0%) でV4-Proを上回ります。これは複雑なコマンドライン・エージェントのワークフローをテストするものです。

Xiaomiは2026年4月22日にMiMo V2.5 Proをリリースし、完全なマルチモーダル機能 (画像、音声、動画) を、100万トークンあたり$1 入力および$3 出力で提供しました。TencentはGPT-5.5と同じ日にHy3をリリースしました。

価格の観点として:ClineのCEO Saoud Rizwanは、もしUberがClaudeの代わりにDeepSeekを使っていたなら、その2026年のAI予算(報告によれば4か月分の利用に十分)であったものが、7年間持ったはずだと述べました。

Pricing comparison and Uber budget analysis

展開(デプロイ)と利用可能性

V4-ProとV4-Flashの両方はMITライセンスで、Hugging Faceで利用可能です。現時点では両モデルともテキストのみであり、DeepSeekはマルチモーダル機能に取り組んでいると述べています。両モデルはローカルのハードウェアで無料で実行でき、また会社のニーズに基づいてカスタマイズも可能です。

DeepSeekの既存のdeepseek-chatおよびdeepseek-reasonerエンドポイントは、すでに非思考モードと思考モードのそれぞれでV4-Flashへルーティングしています。旧のdeepseek-chatおよびdeepseek-reasonerエンドポイントは2026年7月24日に終了します。

DeepSeekはV4を一部、HuaweiのAscendチップで訓練しており、米国の輸出規制を回避しました。同社は、2026年の後半に950の新しいスーパー ノードが稼働すると、Proモデルのすでに低価格がさらに下がると述べました。

実務上の影響

企業にとっては、価格構造により費用対効果の計算が変わる可能性があります。入力トークン100万あたり$1.74でオープンソースのベンチマークをリードするモデルは、大規模な文書処理、法務レビュー、コード生成パイプラインを、6か月前より大幅に安くします。100万トークンのコンテキストにより、コードベース全体や規制関連の提出書類を、複数回の呼び出しに分割して処理するのではなく、単一のリクエストで処理できます。

開発者や一人で作るビルダーにとっては、V4-Flashが主な検討対象です。入力が100万トークンあたり$0.14、出力が100万トークンあたり$0.28で、1年前に検討されていた「予算向け」オプションのモデルよりも安く、Pro版がこなす大半のタスクにも対応します。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
AprDaydreamvip
· 11時間前
希望公式提供一个可审计的行动日志/回放机制,否则出现问题时很难追责,尤其是自动操作资产类账户。
原文表示返信0
PaperHandsProvip
· 11時間前
現実の応用における「意図の理解」こそが難点であり、もう二度とあなたが航空券を予約したいのに履歴書を修正されるという恥ずかしい事態が起きないことを願います。
原文表示返信0
Half-SectionedSucculentvip
· 11時間前
少し期待している一方で、少し怖い:マウスをクリックできることは、多くの「人間のクリック」でしかできないことができることと同じであり、リスク管理と反不正行為対策の強化が必要になる。
原文表示返信0
ACalmnessWithAHintOfPomelovip
· 11時間前
この波はWeb3にも影響を与えるでしょう。自動化されたオンチェーン操作、署名プロセス、ウォレットのインタラクションがシームレスに行えるようになれば、製品の形態は変わるでしょう。
原文表示返信0
StarsInTheGlassDomevip
· 11時間前
APIと価格は急がず、まず複雑なデスクトップ環境でポップアップ、マルチウィンドウ、ネットワークのジッターに耐えられるかどうかを見てみましょう。
原文表示返信0
GateUser-b665e41cvip
· 11時間前
「話せて書ける」から「できて納品できる」へ進化するのを感じている。次のステップは、より良い記憶とタスク管理を提供することだ。
原文表示返信0
LintCollectorvip
· 11時間前
もし本当にアプリ間の連携が可能になれば:ブラウザで資料を検索→Excelで処理→PPTでプレゼン資料作成→メールで送信、これがオフィスの全工程のクローズド・ループとなる。
原文表示返信0
DegenWithNotebookvip
· 11時間前
ついにデスクトップネイティブ操作が登場したのか?これで本当に「デジタルインターン生」になるぞ。
原文表示返信0