
A DeepSeek lançou oficialmente a série de pré-visualização V4 em 24 de abril, com o código aberto sob a licença MIT. Os pesos do modelo foram sincronizados e disponibilizados no Hugging Face e no ModelScope. De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max (modo de maior intensidade de inferência) obteve 3206 pontos no benchmark do Codeforces, superando o GPT-5.4.
De acordo com o relatório técnico da DeepSeek V4, a série V4 inclui dois modelos de mistura de especialistas (MoE):
V4-Pro: 1,6T parâmetros no total, 49B activados por token, suporta contexto de 1M tokens
V4-Flash: 284B parâmetros no total, 13B activados por token, suporta igualmente contexto de 1M tokens
De acordo com o relatório técnico, no contexto de 1M tokens, a FLOPs de inferência por token do V4-Pro é apenas 27% do V3.2; o cache KV desce para 10% do V3.2. Isto deve-se sobretudo às actualizações da arquitectura do mecanismo de atenção em mistura (CSA—Compressed Sparse Attention + HCA—Heavy Compressed Attention). O tamanho do conjunto de dados de pré-treino excede 32T tokens; o optimizador de treino foi actualizado para Muon.
De acordo com o relatório técnico da DeepSeek V4, a principal actualização no pós-treino do V4 reside em substituir totalmente a fase de aprendizagem por reforço de mistura (mixed RL) do V3.2 por destilação de estratégia online (On-Policy Distillation, OPD). O novo processo divide-se em duas etapas: em primeiro lugar, treinar especialistas de domínio separadamente para domínios como matemática, código, Agent e seguimento de instruções (SFT + aprendizagem por reforço GRPO); em seguida, usar vários professores OPD para destilar as capacidades de mais de uma dúzia de especialistas para um único modelo unificado, alinhando via logit para evitar conflitos de capacidades comuns nos métodos tradicionais.
O relatório introduz também um modelo de recompensa gerativa (Generative Reward Model, GRM), para tarefas que são difíceis de validar com regras. Com poucos dados de anotações humanas diversificadas para treinar, o modelo assume simultaneamente funções de geração e avaliação.
De acordo com o relatório técnico da DeepSeek V4, os resultados de comparação entre o V4-Pro-Max e Opus 4.6 Max, GPT-5.4 xHigh e Gemini 3.1 Pro High (excluindo o GPT-5.5 e o Opus 4.7 lançados recentemente):
Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ o mais alto no geral
LiveCodeBench:93.5 → o mais alto no geral
SWE Verified:80.6, atrás do Opus 4.6 de 80.8, menos 0.2 pontos percentuais
GPQA Diamond:90.1, atrás do Gemini 3.1 Pro de 94.3
SimpleQA-Verified:57.9, atrás do Gemini 3.1 Pro de 75.6
HLE:37.7, atrás do Gemini 3.1 Pro de 44.4
O relatório técnico aponta ainda que as comparações acima não incluem o GPT-5.5 e o Opus 4.7, lançados recentemente. A diferença entre o V4 e os modelos mais recentes fechados carece de validação através de testes de terceiros.
De acordo com o anúncio oficial da DeepSeek de 24 de abril, a série V4 é de código aberto sob a licença MIT. Os pesos do modelo já foram disponibilizados no Hugging Face e no ModelScope, e aplicam-se a usos comerciais e académicos.
De acordo com o relatório técnico da DeepSeek V4, o V4-Pro tem 1,6T parâmetros no total, com 49B activados por token; o V4-Flash tem 284B parâmetros no total, com 13B activados por token. Ambos suportam contexto de 1M tokens.
De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max superou o GPT-5.4 e o Gemini 3.1 Pro em dois benchmarks: Codeforces (3206 pontos) e LiveCodeBench (93.5). No entanto, em benchmarks intensivos em conhecimento (GPQA Diamond, SimpleQA-Verified, HLE) continua a ficar atrás do Gemini 3.1 Pro; o conjunto de comparação não inclui o GPT-5.5 e o Opus 4.7.
Related Articles
A Google Planeia Investir Até $40 Mil Milhões na Anthropic, Compromete 5+ Gigawatts de Poder de Computação
O regulador suíço FINMA alerta que a ferramenta de IA Mythos da Anthropic representa risco financeiro
DeepSeek V4 é lançado com uma janela de contexto de 1M; chips Huawei Ascend e Cambricon alcançam compatibilidade total
Fere AI conclui ronda de financiamento de $1,3M liderada pela Ethereal Ventures
A Anthropic reverte as alterações do Claude Code após quebra de qualidade; todas as correções concluídas
Cofundador da NeoSoul Kaelan: A Indústria de IA Deve Permitir que Existam Brinquedos; a Inovação Frequentemente Começa como Produtos Experimentais