O Novo MiMo 2.5 Pro AI da Xiaomi Pode Ver, Ouvir e Agir—Tudo num Só Modelo

Em resumo

  • A Xiaomi revelou o MiMo-V2.5 e V2.5-Pro, combinando capacidades de texto, imagem, áudio e vídeo num único modelo multimodal de IA.
  • A versão Pro rivaliza os principais modelos de fronteira em benchmarks de codificação e agentes, ao mesmo tempo que melhora significativamente a eficiência de tokens e o custo.
  • Os novos modelos marcam a rápida aposta da Xiaomi na IA, com planos de código aberto e iteração agressiva após forte adoção em plataformas como o OpenRouter.

A Xiaomi acaba de lançar uma nova família de modelos de IA. Novamente. Há algumas semanas, a empresa lançou o MiMo-V2-Pro—um modelo de trilhões de parâmetros que circulava discretamente no OpenRouter sob o nome “Hunter Alpha” antes de a Xiaomi revelar sua identidade. Passou de anónimo a topo de gama da noite para o dia. Testámo-lo, e foi impressionante. Agora, a Xiaomi volta com o MiMo-V2.5 e o MiMo-V2.5-Pro, uma família de dois modelos que acrescenta algo que a geração anterior nunca tinha numa única embalagem: olhos, ouvidos e a capacidade de processar vídeo. Ah, e a empresa planeja abrir o código dos modelos em breve.

O V2-Pro era apenas de texto e código. A capacidade multimodal existia no seu modelo irmão, o MiMo-V2-Omni, mas esse era um produto separado com pontuações de benchmark inferiores. O MiMo-V2.5 consolida tudo isso num só modelo—mais rápido, mais capaz, e com compreensão nativa de imagem, vídeo e áudio integrada desde o início. Isso importa mais do que parece para utilizadores comuns. Por exemplo, agora pode carregar uma foto da sua geladeira e pedir sugestões de receitas para o jantar. Inserir um tutorial em vídeo e obter um resumo passo a passo. Gravar uma reunião e extrair itens de ação. Tudo num só lugar, sem precisar de ferramentas e modelos separados com estratégias de preço diferentes. A Xiaomi afirma que o MiMo-V2.5-Pro representa “um grande avanço em relação ao MiMo-V2-Pro nas capacidades gerais de agente, engenharia de software complexa e tarefas de longo prazo,” e diz que agora corresponde a modelos de fronteira como o Claude Opus 4.6 e GPT-5.4 na maioria dos benchmarks de codificação e agentes. Os números apoiam isso em grande parte—com algumas lacunas ainda visíveis em tarefas de raciocínio mais difíceis. 

Os modelos base e Pro servem a propósitos diferentes. O MiMo-V2.5-Pro é o modelo de alta performance. A Xiaomi diz que pode “completar autonomamente tarefas profissionais envolvendo mais de 1.000 chamadas de ferramentas, trabalho que levaria dias a especialistas humanos.” Isso para desenvolvedores que executam fluxos de trabalho automatizados complexos e multi-etapas. Funciona a 60–80 tokens por segundo e custa $1,00 por entrada / $3,00 por saída por milhão de tokens. O MiMo-V2.5 é a versão do dia a dia. Mais rápido (100–150 tokens por segundo), mais barato ($0,40 entrada / $2,00 saída), e suporta todas as modalidades—imagem, áudio e vídeo que a camada só Pro ignora. Ambos os modelos têm uma janela de contexto de 1 milhão de tokens, o que significa que podem manter aproximadamente 750.000 palavras numa única conversa. No SWE-bench Pro—um benchmark de codificação onde os modelos corrigem bugs reais em bases de código de startups, avaliado com uma taxa de sucesso de 100—o MiMo-V2.5-Pro resolve 57,2% das tarefas. Isso está perto do topo da classificação; o modelo médio consegue cerca de 25%. A história é semelhante no τ3-bench e ClawEval, onde fica a poucos pontos do Claude Opus 4.6 e GPT-5.4. A diferença aumenta na Humanity’s Last Exam, uma prova de problemas de nível de pós-graduação em várias áreas académicas: o MiMo pontua 48,0% contra 58,7% do GPT-5.4—uma diferença de 10 pontos difícil de disfarçar. Onde realmente se destaca é na eficiência de tokens. A Xiaomi afirma que o MiMo-V2.5-Pro usa 42% menos tokens do que o Kimi K2.6 com pontuações de benchmark equivalentes, e o MiMo-V2.5 usa quase metade dos tokens do Muse Spark para resultados semelhantes. Para quem opera em escala—desenvolvedores processando milhares de pedidos diários—essa diferença representa dinheiro de verdade. Em tarefas multimodais, os resultados do MiMo-V2.5 mostram desempenho equiparável ao GPT/5.4 e Gemini 3.1 Pro, e estão bastante próximos dos padrões Opus 4.6.

Desde dezembro de 2025, a Xiaomi completou três grandes lançamentos de modelos: Primeiro, lançou o eficiente MiMo-V2-Flash, depois o trio V2-Pro/Omni/TTS em março, e agora a série V2.5 hoje. A empresa comprometeu pelo menos 8,7 bilhões de dólares em investimento em IA nos próximos três anos, anunciado pelo CEO Lei Jun no dia seguinte ao lançamento do V2-Pro—e o ritmo de lançamentos sugere que o orçamento já está em movimento. O contexto também ajuda a explicar a velocidade. Segundo a Digital Applied, em início de abril, os modelos da Xiaomi representavam cerca de 21% de todo o tráfego no OpenRouter—crescendo mais de 42% nos últimos 7 dias. Quando o seu modelo anterior se torna um dos mais competitivos na maior plataforma de roteamento de IA do mundo, tem tanto recursos quanto pressão para iterar rapidamente.

Isso provavelmente se deve ao boom da ferramenta de IA agente Hermes e seu acordo com a Xiaomi, oferecendo aos utilizadores acesso gratuito ao MiMo v2 Pro por um tempo limitado. Esse período já terminou, mas o hype foi suficiente para colocar a Xiaomi no campo de jogo.

Obrigado pelo seu amor ❤️❤️ https://t.co/mA1WV1GAia

— Xiaomi MiMo (@XiaomiMiMo) 11 de abril de 2026

Quem quiser usar o Hermes de graça agora pode testar o novo flash Step 3.5 com a API Nous ou usar o OpenRouter com modelos gratuitos, mas com uso mais limitado. A precificação do plano de tokens também foi atualizada. O MiMo-V2.5 funciona a uma taxa de crédito de 1x; o MiMo-V2.5-Pro a 2x. A Xiaomi já não cobra um multiplicador extra pelo uso da janela de contexto de 1 milhão de tokens, o que torna a análise de documentos longos significativamente mais barata. Os utilizadores existentes também recebem um reset completo de créditos como bónus de lançamento. A Xiaomi afirma que o modelo está disponível no seu AI Studio. Tentámos acessá-lo lá imediatamente após o lançamento—sem sucesso. No entanto, já está ativo via API Xiaomi MiMo, que é onde a maioria dos desenvolvedores realmente o utilizará. A empresa diz que já está a treinar a próxima geração, com “raciocínio mais profundo, integração mais apertada de ferramentas e uma ligação mais rica ao mundo real.” Na velocidade que a Xiaomi está a avançar, esse anúncio provavelmente está mais próximo do que se imagina.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar