Menurut pemantauan Beating, DeepSeek-V4-Pro-Max sumber terbuka dalam banyak pengkodean dan tolok ukur konteks panjang pertama kali mendekati flagship tertutup, tetapi evaluasi yang berorientasi pengetahuan tetap tertinggal dari Gemini 3.1 Pro. Codeforces 3206, LiveCodeBench 93.5, SWE Verified 80.6; CorpusQA 1M 62.0, MRCR 1M 83.5; MCPAtlas Public 73.6, Terminal-Bench 2.0 67.9; GPQA Diamond 90.1, SimpleQA-Verified 57.9, HLE 37.7. Perhatikan bahwa dibandingkan dengan GPT-5.5, Opus 4.7, perbedaan tersebut memerlukan verifikasi dari pihak ketiga.

BlockBeatNews

2026-04-24 04:06:33

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, laporan teknologi V4 diumumkan membandingkan DeepSeek-V4-Pro-Max (mode kekuatan inferensi tertinggi) dengan flagship tertutup sumber. Grup perbandingan adalah Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, serta open source Kimi K2.6 dan GLM-5.1, tidak termasuk Opus 4.7 dan GPT-5.5 yang baru dirilis.

Dalam hal pengkodean, V4-Pro-Max meraih 3206 poin di Codeforces, mengalahkan GPT-5.4 yang mendapatkan 3168 dan Gemini 3.1 Pro dengan 3052, memecahkan rekor benchmark tersebut. LiveCodeBench 93.5 juga tertinggi di seluruh kategori. SWE Verified 80.6, hanya sedikit di bawah Opus 4.6 yang mendapatkan 80.8, selisih 0.2 poin persentase.

Dalam hal konteks panjang, kedua benchmark 1M V4-Pro-Max menempati posisi kedua: Skor CorpusQA 1M adalah 62.0, tertinggal dari Opus 4.6 yang mendapatkan 71.7 tetapi unggul dari Gemini 3.1 Pro yang mendapatkan 53.8; Skor MRCR 1M adalah 83.5, sementara Opus 4.6 memimpin hampir 10 poin persentase dengan 92.9.

Dalam aspek tugas agen, MCPAtlas Public 73.6 hanya sedikit di bawah Opus 4.6 yang mendapatkan 73.8. Terminal-Bench 2.0 mendapatkan skor 67.9, di bawah GPT-5.4 yang mendapatkan 75.1 dan Gemini 3.1 Pro dengan 68.5.

Dalam hal pengetahuan dan inferensi, V4-Pro-Max masih memiliki jarak yang jelas: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Sebagai model open source, V4-Pro-Max pertama kali menyamai bahkan melampaui flagship tertutup di beberapa benchmark pengkodean dan konteks panjang, tetapi dalam evaluasi yang berfokus pada pengetahuan, masih tertinggal dari Gemini 3.1 Pro.

Perlu dicatat, perbandingan di atas tidak termasuk GPT-5.5 dan Opus 4.7 yang baru dirilis, sehingga jarak antara V4 dan model tertutup generasi terbaru masih perlu diverifikasi oleh pengujian pihak ketiga.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
173.29K Popularitas
#
CryptoMarketSeesVolatility
235.63K Popularitas
#
IsraelStrikesIranBTCPlunges
31.93K Popularitas
#
rsETHAttackUpdate
76.65K Popularitas
#
US-IranTalksStall
189.94K Popularitas

Sematkan

peta situs

V4-Pro Codeforces3206 menekan GPT-5.4 dan menduduki puncak, tetapi konteks panjang dan pengetahuan masih kalah dari Opus dan Gemini

Topik Trending

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Sematkan