O produto de execução de modelos de IA local Ollama foi anunciado publicamente na plataforma X a 24/4, disponibilizando o modelo V4-Flash, lançado no dia anterior pela nova empresa de IA chinesa DeepSeek, no serviço Ollama Cloud. O servidor de inferência está sediado nos EUA e fornece três conjuntos de comandos de um toque para que os programadores liguem diretamente o V4-Flash a fluxos de trabalho populares de desenvolvimento de software de IA, como Claude Code, OpenClaw e Hermes.
deepseek-v4-flash is agora disponível na nuvem do Ollama! Alojado nos EUA. Experimente com Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Experimente com OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Experimente com Hermes: ollama launch hermes…
— ollama (@ollama) 24 de abril de 2026
Pré-visualização DeepSeek V4: duas dimensões, 1M de contexto
De acordo com o anúncio publicado pela documentação oficial da API da DeepSeek a 24/4, o DeepSeek-V4 Preview é disponibilizado em simultâneo em duas dimensões:
Modelo Número total de parâmetros Parâmetros ativos Enquadramento DeepSeek-V4-Pro 1,6 trilião 490 mil milhões Destinado a competir com a flagship fechada DeepSeek-V4-Flash 2.840 mil milhões 130 mil milhões Rápido, eficiente e de baixo custo
Ambas as versões adoptam uma arquitectura Mixture-of-Experts (MoE) e suportam nativamente um contexto longo de 1 milhão de tokens. A DeepSeek declarou no anúncio: «1M de contexto é agora o valor predefinido para todos os serviços oficiais da DeepSeek.»
Inovação de arquitectura: DSA atenção esparsa + compressão por token
As principais melhorias de arquitectura da série V4 incluem:
Compressão por token combinada com DSA (DeepSeek Sparse Attention) — para reduzir drasticamente o custo da computação de inferência e do consumo de memória do cache KV em contextos extremamente longos
Em comparação com a V3.2, no cenário de 1 milhão de tokens de contexto, o V4-Pro precisa apenas de 27% dos FLOPs por token para inferência, e o cache KV precisa apenas de 10%
Suporta a comutação entre dois modos, Thinking e Non-Thinking, para corresponder a necessidades de raciocínio profundo em diferentes tipos de tarefas
No nível da API, é compatível simultaneamente com as especificações OpenAI ChatCompletions e com as APIs da Anthropic, reduzindo o custo de migração dos clientes existentes do Claude/GPT.
Três comandos de arranque imediato da Ollama Cloud
A página oficial do modelo da Ollama, usando o identificador do modelo deepseek-v4-flash:cloud, fornece um serviço de inferência na nuvem. Os programadores podem usar os seguintes três conjuntos de comandos para ligar directamente o V4-Flash aos actuais fluxos de trabalho de desenvolvimento de software de IA:
Fluxo de trabalho Comando Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes
Vale notar que o sinal de «servidor nos EUA» é importante. Para empresas e programadores da Europa/América, a maior preocupação ao usar modelos de código aberto chineses é a devolução de dados para a China; ao optar por colocar a camada de inferência do V4-Flash nos EUA, a Ollama significa que o prompt e o conteúdo do código não saem da jurisdição dos EUA, reduzindo o atrito a nível de conformidade e soberania de dados.
Porque é que isto é importante para a indústria de IA
Ao ligar o DeepSeek V4-Flash, a Ollama Cloud e o Claude Code, que antes eram ecossistemas independentes, são gerados três significados em camadas:
Rota de custos: os 130 mil milhões de parâmetros activos do V4-Flash são muito inferiores aos da GPT-5.5 (entrada 5 dólares, saída 30 dólares por 1 milhão de tokens) e a flags como o Claude Opus 4.7; para tarefas de agentes de média/pequena escala, resumos em lote, automação de testes, etc., espera-se que o custo unitário diminua significativamente
Camada intermédia de risco geográfico: como a Ollama é uma camada de inferência intermediária registada nos EUA, permite que os utilizadores empresariais de modelos nativos chineses contornem a preocupação de «enviar dados directamente para o servidor de Pequim do DeepSeek»; esta é uma solução prática para a expansão internacional de modelos de código aberto
Comutação imediata para programadores: os utilizadores do Claude Code e do OpenClaw podem alternar entre modelos numa única linha no terminal, sem necessidade de alterar a estrutura do prompt nem as definições do IDE; para cenários como «testes de regressão com vários modelos» e «tarefas em lote sensíveis a custos», isto liberta efectivamente produtividade em ambiente de produção
Articulação com notícias anteriores do DeepSeek
A divulgação desta vez do V4 e a integração rápida com a Ollama Cloud ocorre num contexto em que a DeepSeek está a negociar a primeira ronda de financiamento externo e uma valorização de 20 mil milhões de dólares. O V4 é a prova de produto fundamental no processo de capitalização da DeepSeek; e, com uma estratégia de código aberto + parceiros de alojamento internacional para difusão rápida, é uma estratégia de disputa de velocidade antes de estabelecer a hegemonia do ecossistema de programadores. Para a OpenAI e a Anthropic, um modelo substituto de código aberto que permite a comutação numa única linha dentro do Claude Code é uma nova variável na disputa pela liderança de fluxos de trabalho de agentes.
Este artigo «DeepSeek V4-Flash chega à Ollama Cloud, servidor nos EUA: Claude Code, OpenClaw com ligação imediata» apareceu primeiro em 鏈新聞 ABMedia.
Related Articles
A Google Planeia Investir Até $40 Mil Milhões na Anthropic, Compromete 5+ Gigawatts de Poder de Computação
O regulador suíço FINMA alerta que a ferramenta de IA Mythos da Anthropic representa risco financeiro
DeepSeek V4 é lançado com uma janela de contexto de 1M; chips Huawei Ascend e Cambricon alcançam compatibilidade total
Fere AI conclui ronda de financiamento de $1,3M liderada pela Ethereal Ventures
A Anthropic reverte as alterações do Claude Code após quebra de qualidade; todas as correções concluídas
Cofundador da NeoSoul Kaelan: A Indústria de IA Deve Permitir que Existam Brinquedos; a Inovação Frequentemente Começa como Produtos Experimentais