Xiaomi revela detalhes de treino do modelo de 1T MiMo-V2-Pro: utiliza milhares de calorias, sem classificação nem prazo limite

robot
Geração de resumo em curso

Notícias do site Coinjie, a responsável pela equipe do grande modelo da Xiaomi, Luo Fuli, revelou em sua primeira entrevista aprofundada que o modelo base MiMo-V2-Pro possui um total de 1T de parâmetros, treinado com milhares de GPUs. Ela acredita que, com essa escala de 1T, é possível alcançar um nível próximo ao do Claude Opus 4.6 e obter um ingresso na próxima fase de competição de agentes. No aspecto técnico, a versão Pro levará a proporção entre atenção global e atenção de janela deslizante ao extremo de 7:1, promovendo uma esparsidade máxima, controlando o custo de inferência de textos longos ao ampliar o número de parâmetros, e continuará utilizando a arquitetura MTP (previsão de múltiplos tokens) para acelerar a inferência aproveitando o poder de cálculo excedente. No nível de gestão, a equipe MiMo, composta por cerca de 100 pessoas, tem apenas trinta a quarenta envolvidos diretamente na iteração central, sem estabelecer níveis hierárquicos, grupos específicos ou prazos de entrega claros. Quando enfrentam problemas de instabilidade, como saltos no loss de treinamento, a equipe opta por interromper o treinamento para investigação, mesmo que isso signifique parar por uma ou duas semanas e gastar milhões de custos de cálculo.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar