De acordo com a CoinWorld, a base do Xiaomi MiMo-V2-Pro tem um total de 1T de parâmetros, treinada com milhares de GPUs, com o objetivo de se aproximar do Claude Opus4.6 e garantir um ingresso na próxima fase de agentes. Tecnologicamente, combina atenção global com janelas deslizantes na proporção de 7:1, sendo extremamente esparsa para controlar o custo de inferência, além de usar MTP para acelerar. A equipe tem cerca de cem pessoas, com a iteração principal liderada por trinta a quarenta, faltando hierarquia e prazos de entrega claros. Quando ocorre uma mudança abrupta na perda de treino, o treinamento é interrompido diretamente, chegando a parar por uma ou duas semanas, consumindo milhões de recursos computacionais.

CoinNetwork

2026-04-24 04:29:02

Geração de resumo em curso

Notícias do site Coinjie, a responsável pela equipe do grande modelo da Xiaomi, Luo Fuli, revelou em sua primeira entrevista aprofundada que o modelo base MiMo-V2-Pro possui um total de 1T de parâmetros, treinado com milhares de GPUs. Ela acredita que, com essa escala de 1T, é possível alcançar um nível próximo ao do Claude Opus 4.6 e obter um ingresso na próxima fase de competição de agentes. No aspecto técnico, a versão Pro levará a proporção entre atenção global e atenção de janela deslizante ao extremo de 7:1, promovendo uma esparsidade máxima, controlando o custo de inferência de textos longos ao ampliar o número de parâmetros, e continuará utilizando a arquitetura MTP (previsão de múltiplos tokens) para acelerar a inferência aproveitando o poder de cálculo excedente. No nível de gestão, a equipe MiMo, composta por cerca de 100 pessoas, tem apenas trinta a quarenta envolvidos diretamente na iteração central, sem estabelecer níveis hierárquicos, grupos específicos ou prazos de entrega claros. Quando enfrentam problemas de instabilidade, como saltos no loss de treinamento, a equipe opta por interromper o treinamento para investigação, mesmo que isso signifique parar por uma ou duas semanas e gastar milhões de custos de cálculo.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
167.74K Popularidade
#
CryptoMarketSeesVolatility
231.98K Popularidade
#
IsraelStrikesIranBTCPlunges
31.91K Popularidade
#
rsETHAttackUpdate
74.59K Popularidade
#
US-IranTalksStall
180.25K Popularidade

Fixar

Xiaomi revela detalhes de treino do modelo de 1T MiMo-V2-Pro: utiliza milhares de calorias, sem classificação nem prazo limite

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Fixar