Zytron GE-Sim 2.0: gerar o mundo com o World Model, e o rival imbatível Yu Tech impulsiona o robô humanoide para a autoevolução

A Inteligência Incorporada (Embodied AI) está a atravessar uma mudança decisiva. Recentemente, o robô chinês da empresa Zhiren lançou o Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), tentando avançar o World Model (modelo do mundo) de ser uma ferramenta apenas para compreender o ambiente, para um simulador do mundo (World Simulator) em que se possa executar, treinar e otimizar diretamente robôs.

Se ainda não perceberes o quão crítico isto é, vale a pena começar por analisar as fragilidades da arquitetura LLM: do ponto de vista do treino, os LLM existentes apenas predizem o contexto com base em enormes conjuntos de dados textuais; conseguem saber que palavras como “maçã cai” tendem a aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

É por isso que cientistas como Yang LeCun, Li Fei-Fei e outros se têm dedicado ao setor do World Model: quando a IA passa a ter capacidade de compreender ambientes 3D e de prever a física, esta tecnologia tornar-se-á o “cérebro digital” para robôs autónomos, condução autónoma e fabrico inteligente — ou seja, o “AI físico” (Physical AI). Assim, a linha do World Model defende que robôs serão o veículo absolutamente crucial. Hoje, a entrada do fabricante de robôs humanoides Unitree Robot simboliza o avanço pioneiro da China numa “inversão” vinda do hardware.

Anteriormente, o presidente da TSMC, Wei Zhejia, tinha afirmado: “Se olhares para a China continental a brincar com robôs, a saltar para cá e para lá, a dar saltos e pulos. Isso não serve para nada, é só bonito para ver.” Ele apontou que o essencial é fazer com que o “cérebro” do robô funcione; quem o faz são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas, mas 95% dos cérebros são fabricados pela TSMC. O gargalo de desenvolvimento do GE-Sim 2.0 ainda está em aberto, fortemente associado ao desenvolvimento de modelos na China.

A linha do World Model defende que robôs são fundamentais

Os LLMs dominantes atualmente dependem de enormes conjuntos de dados e de relações estatísticas para compreender o contexto e prever a próxima palavra. Podem saber que as palavras “maçã cai” costumam aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

Este tipo de padrão tem um desempenho excelente em geração de texto, assistência à programação ou tarefas de perguntas e respostas, mas ainda existem limitações fundamentais em cenários que exigem compreender a estrutura do mundo real, raciocinar relações causais e fazer planeamento de longo prazo. O problema ainda maior é que as fontes de dados estão gradualmente a esgotar-se. O treino dos LLMs depende fortemente de dados humanos de alta qualidade, e nos últimos anos a indústria tem começado a alertar que os dados textuais humanos utilizáveis poderão esgotar-se nos próximos anos. Tal como em reprodução entre parentes próximos que pode herdar defeitos, acabando por fazer o modelo se desviar gradualmente da realidade e ocorrer uma degradação do desempenho.

(Análise aprofundada: há falhas nos LLM? Por que Yang LeCun aposta na rota do World Model com a AMI)

É também por isso que, nos últimos anos, duas figuras de peso na comunidade de IA — Yang LeCun e Fei-Fei Li, conhecida como “a madrinha da IA” — escolheram apostar na nova geração de arquitetura de IA conhecida como World Model (modelo do mundo).

Na altura, o autor deste artigo referiu: “Vendo mais além, quando a IA tiver capacidade de compreender ambientes 3D e prever a física, esta tecnologia será o cérebro digital para robôs autónomos, condução autónoma e fabrico inteligente, ou seja, o ‘AI físico’ (Physical AI). Por conseguinte, a rota do World Model defende que robôs serão o veículo extremamente crucial. Hoje, quando fabricantes de robôs humanoides entram em cena — com a Zhiren Robot — isso simboliza o pioneirismo da China na inversão pelo hardware.”

Anteriormente, o presidente da TSMC, Wei Zhejia, ao falar sobre o desenvolvimento de robôs e semicondutores, foi direto: “Se olhares para a China continental a andar sempre a fazer robôs a saltar para cá e para lá, a dar pulos e a fazer coisas. Isso não serve, é só para parecer bonito.” Ele indicou que a chave é permitir que o “cérebro” do robô funcione; quanto a quem o faz, são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas — mas 95% dos cérebros são fabricados pela TSMC.

(Wei Zhejia da TSMC ironiza: robôs chineses a saltar e a pular — é só bonito, não serve para nada! A chave continua a vir da Nvidia)

Evolução do World Model: de compreender o mundo a aprender dentro do mundo

Nos últimos anos, o World Model tem sido visto como uma tecnologia-chave para a IA compreender a realidade. Através de imagens, linguagem e dados de sensores, o modelo consegue prever mudanças no ambiente, dotando os robôs de capacidades básicas de tomada de decisão.

Mas a principal inovação do GE-Sim 2.0 está em não ser apenas compreender o mundo; é fazer com que sistemas de aprendizagem e ação se incorporem diretamente no “mundo gerado pelo modelo”. A ação (Action) é integrada como uma variável central, passando da previsão do estado tradicional para um ciclo completo:

State

Action

State Evolution

Isto significa que o robô deixa de ser apenas um observador e respondente, passando a poder fazer tentativas ativas no ambiente simulado, otimizar de forma autónoma e aprender continuamente. Esta mudança faz com que o World Model evolua de “modelo de cognição” para “infraestrutura de treino”.

GE-Sim 2.0: fazer os robôs “evoluir” em mundos virtuais

O GE-Sim 2.0 é definido como um conjunto de “simuladores de mundo incorporado”, tendo como objetivo central resolver três grandes gargalos do treino na realidade: custos demasiado altos, falta de dados e dificuldade em escalar. Ao gerar ambientes com modelos, o sistema pode treinar robôs em grande escala sem depender do mundo real.

Em termos técnicos, o GE-Sim 2.0 integra três capacidades-chave. Em primeiro lugar, “geração de imagens orientada por ações”: o modelo consegue gerar os futuros quadros correspondentes com base nas ações do robô, mantendo consistência entre múltiplas perspetivas, incluindo a perspetiva da cabeça e as perspetivas da operação com a mão esquerda e a mão direita.

Em segundo lugar, a modelação de proprioceção (proprioception): não só simula imagens externas, como também consegue prever as juntas e estados de movimento do próprio robô, tornando a decisão mais próxima do mundo físico real.

Em terceiro lugar, “avaliação automática de tarefas”: através de um reward model (modelo de recompensa) embutido, o sistema consegue determinar automaticamente se a tarefa foi concluída — por exemplo, “colocar o objeto azul dentro da caixa vermelha” — e fornecer feedback, que é diretamente usado para reforço de aprendizagem. Isto permite que o robô complete um ciclo fechado no ambiente simulado:

O GE-Sim 2.0 já consegue gerar vídeo de forma estável em “nível de minutos”

Em comparação com modelos anteriores que apenas conseguiam gerar segmentos de curta duração, o GE-Sim 2.0 já consegue gerar vídeos estáveis em “nível de minutos”, suportando simulações de tarefas durante longos períodos. Ao mesmo tempo, através de treino com dados reais em grande escala (dados de operação remota, deployment e interação), o modelo adquire uma capacidade de generalização mais forte entre diferentes cenários e tarefas. Isto é especialmente crucial para robôs humanoides: porque a operação no mundo real é altamente variável e não é possível confiar apenas em treino com cenários fixos.

O aparecimento do World Simulator significa que os robôs podem “treinar sem limites” no mundo virtual; isso trará duas mudanças estruturais: primeiro, os custos de treino diminuem drasticamente. Segundo, a velocidade da iteração de capacidades aumenta a um ritmo exponencial.

Zhiren Robot: nova força no setor de robôs humanoides da China

A Zhiren Robot foi fundada em 2023 por Peng Zhihui, o “talento jovem” da Huawei, e foca-se na área de inteligência incorporada que combina IA e robótica.

Os principais produtos da empresa incluem:

robôs humanoides da série “Yuan Zheng”

sistema de robôs “Ling Xi”

grande modelo geral GO-1

Neste momento, já concluiu várias rondas de financiamento e recebeu investimento de instituições como Sequoia China e Hillhouse Capital, sendo considerada uma das participantes importantes no setor de robôs humanoides na China, num quadro concorrencial com a Unitree Technology.

Este artigo Zhiren GE-Sim 2.0: usar o World Model para gerar mundos, o adversário da Unitree empurra robôs humanoides para a autoevolução apareceu pela primeira vez em Lianxin ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Plataforma de Negociação com IA Fere AI Angaria $1,3M em Financiamento Liderado pela Ethereal Ventures

Notícia da Gate, 25 de abril — Fere AI, uma plataforma de negociação de ativos digitais com base em IA, anunciou a conclusão de uma ronda de financiamento de $1,3 milhões liderada pela Ethereal Ventures, com participação da Galaxy Vision Hill e da Kosmos Ventures, de acordo com a Globenewswire. A plataforma suporta redes de interoperabilidade entre cadeias, incluindo Ethereum, Solana e Base, permitindo que os utilizadores descrevam os seus objetivos de negociação em linguagem natural enquanto os agentes de IA executam as operações.

GateNews33m atrás

A Google acrescenta mais 40 mil milhões de dólares de investimento na Anthropic: primeiro paga 10 mil milhões, depois liberta 30 mil milhões consoante o desempenho, com capacidade de computação de 5GW de TPU

Alphabet aumenta o investimento da Anthropic para 40 mil milhões de dólares, em duas fases: primeira entrada de 10 mil milhões de dólares em dinheiro, com uma avaliação de 380 mil milhões de dólares; os restantes 30 mil milhões de dólares serão libertados faseadamente após o cumprimento de metas de resultados. O Google Cloud disponibiliza, no prazo de cinco anos, recursos de computação de 5 GW de TPU; no mesmo período, a Amazon também anunciou um investimento máximo de 25 mil milhões de dólares, mostrando que o apoio tanto à capacidade de computação como ao capital da Anthropic está a ser reforçado em simultâneo.

ChainNewsAbmedia1h atrás

Os IPOs da SpaceX, OpenAI e Anthropic Poderão Atrair Mais de $240 Billion, Potencialmente Impactando a Liquidez do Mercado Cripto

Mensagem do Gate News, 25 de abril — De acordo com relatórios de mercado, a SpaceX deverá abrir o capital em junho com uma meta de angariação de fundos superior ao recorde de $29 billion de IPO da Saudi Aramco, enquanto a OpenAI e a Anthropic planeiam listar na segunda metade de 2026. As três empresas estão previstas a

GateNews2h atrás

Baidu Intelligent Cloud Lança API do DeepSeek-V4 na Plataforma Qianfan

Mensagem de Gate News, 25 de abril — A Baidu Intelligent Cloud trouxe o DeepSeek-V4 para a sua plataforma Qianfan, oferecendo acesso via API ao novo modelo de IA lançado. O DeepSeek-V4 existe em duas versões — DeepSeek-V4-Pro e DeepSeek-V4-Flash — e oferece uma janela de contexto alargada de um milhão de tokens. Empresas e de

GateNews2h atrás

A Escassez de GPUs Regressa à Medida que a Microsoft e a Amazon Apertam o Fornecimento; Startups de IA Enfrentam Aumento de Preços de 32% e Filas até ao Fim do Ano

Mensagem do Gate News, 25 de Abril — Uma escassez de GPUs está a reaparecer à medida que grandes fornecedores de cloud, incluindo a Microsoft e a Amazon, concentram capacidade de computação em equipas internas e grandes clientes como a OpenAI e a Anthropic, deixando as empresas mais pequenas de IA a enfrentar aumentos de preços, tempos de espera prolongados e termos contratuais mais rigorosos

GateNews4h atrás

Nvidia Implementa o Agente de IA Codex da OpenAI em Toda a Força de Trabalho na Infraestrutura Blackwell

Mensagem da Gate News, 25 de Abril — A Nvidia lançou o Codex da OpenAI, um agente de IA alimentado por GPT-5.5, para toda a sua força de trabalho após um ensaio bem-sucedido com cerca de 10.000 empregados, segundo comunicações internas do CEO Jensen Huang e do CEO da OpenAI, Sam Altman. O Codex foi concebido para ajudar com tarefas de programação, planeamento e de fluxo de trabalho

GateNews5h atrás
Comentar
0/400
Nenhum comentário