V4-Pro Codeforces3206 menekan GPT-5.4 dan menduduki puncak, tetapi konteks panjang dan pengetahuan masih kalah dari Opus dan Gemini

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, laporan teknologi V4 diumumkan membandingkan DeepSeek-V4-Pro-Max (mode kekuatan inferensi tertinggi) dengan flagship tertutup sumber. Grup perbandingan adalah Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, serta open source Kimi K2.6 dan GLM-5.1, tidak termasuk Opus 4.7 dan GPT-5.5 yang baru dirilis.

Dalam hal pengkodean, V4-Pro-Max meraih 3206 poin di Codeforces, mengalahkan GPT-5.4 yang mendapatkan 3168 dan Gemini 3.1 Pro dengan 3052, memecahkan rekor benchmark tersebut. LiveCodeBench 93.5 juga tertinggi di seluruh kategori. SWE Verified 80.6, hanya sedikit di bawah Opus 4.6 yang mendapatkan 80.8, selisih 0.2 poin persentase.

Dalam hal konteks panjang, kedua benchmark 1M V4-Pro-Max menempati posisi kedua: Skor CorpusQA 1M adalah 62.0, tertinggal dari Opus 4.6 yang mendapatkan 71.7 tetapi unggul dari Gemini 3.1 Pro yang mendapatkan 53.8; Skor MRCR 1M adalah 83.5, sementara Opus 4.6 memimpin hampir 10 poin persentase dengan 92.9.

Dalam aspek tugas agen, MCPAtlas Public 73.6 hanya sedikit di bawah Opus 4.6 yang mendapatkan 73.8. Terminal-Bench 2.0 mendapatkan skor 67.9, di bawah GPT-5.4 yang mendapatkan 75.1 dan Gemini 3.1 Pro dengan 68.5.

Dalam hal pengetahuan dan inferensi, V4-Pro-Max masih memiliki jarak yang jelas: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Sebagai model open source, V4-Pro-Max pertama kali menyamai bahkan melampaui flagship tertutup di beberapa benchmark pengkodean dan konteks panjang, tetapi dalam evaluasi yang berfokus pada pengetahuan, masih tertinggal dari Gemini 3.1 Pro.

Perlu dicatat, perbandingan di atas tidak termasuk GPT-5.5 dan Opus 4.7 yang baru dirilis, sehingga jarak antara V4 dan model tertutup generasi terbaru masih perlu diverifikasi oleh pengujian pihak ketiga.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan