A Google lança o Gemini Robotics ER 1.6: modelo de robótica SOTA, especialista em raciocínio visual e espacial

A Google DeepMind publicou um modelo de base totalmente novo para robôs, o Gemini Robotics ER 1.6, em que o ER significa Embodied Reasoning (raciocínio incorporado). Este modelo alcança o atual melhor nível (SOTA) em raciocínio visual e espacial e já foi disponibilizado através da Gemini API. Logan Kilpatrick, responsável pelas relações com programadores de IA na Google, divulgou esta notícia nas redes sociais. (Fonte)

O que é o Embodied Reasoning?

Embodied Reasoning refere-se à capacidade dos modelos de IA compreenderem e raciocinarem sobre o mundo físico. Ao contrário dos modelos de linguagem tradicionais, os modelos de raciocínio incorporado precisam de lidar com a posição dos objetos no espaço tridimensional, bem como com a sua forma, materiais e relações de interação física. O Gemini Robotics ER 1.6 foi otimizado especificamente para este tipo de tarefas, permitindo que os robôs compreendam com mais precisão o ambiente envolvente e tomem decisões adequadas sobre as ações a executar.

Capacidades principais

As principais vantagens do Gemini Robotics ER 1.6 concentram-se em duas vertentes:

Capacidade Descrição Raciocínio visual Capacidade de identificar objetos a partir de imagens e vídeos, compreender a estrutura do cenário e, com base nisso, tomar decisões Raciocínio espacial Compreender a posição relativa, a distância e a direção dos objetos no espaço tridimensional, apoiando a planificação de operações complexas

A combinação destas duas capacidades permite que os robôs lidem com tarefas do mundo real mais complexas. Por exemplo, num ambiente de armazém, o robô precisa de identificar simultaneamente objetos de diferentes formas e calcular o melhor ângulo de pega e a posição de colocação — exatamente o tipo de cenário em que o Gemini Robotics ER 1.6 é particularmente competente.

Utilização através da Gemini API

Ao contrário de muitos modelos de robôs do passado que ficaram apenas na fase de artigo, o Gemini Robotics ER 1.6 já disponibiliza acesso através da Gemini API. Isto significa que os programadores e os fabricantes de hardware podem integrar diretamente este modelo nos seus próprios sistemas de robôs, sem necessidade de treinar o modelo do zero.

A disponibilização da API também reduz o limiar para o desenvolvimento de IA para robôs. No passado, desenvolver um sistema de robôs com capacidades de raciocínio visual e espacial exigia uma recolha massiva de dados e trabalho de treino de modelos. Agora, os programadores podem concentrar-se no desenvolvimento do design do hardware e dos casos de uso, deixando as capacidades de raciocínio de base a cargo do Gemini Robotics ER 1.6.

O posicionamento da Google em IA para robôs

O Gemini Robotics ER 1.6 é o mais recente resultado da Google DeepMind na área da robótica. Do RT-2, numa fase inicial, até à série Gemini Robotics de hoje, a Google tem continuado a expandir as capacidades dos grandes modelos de linguagem para a interação com o mundo físico. A versão ER 1.6 melhora ainda mais a exatidão do raciocínio face aos antecessores, destacando-se particularmente em cenários que exigem manipulações mais precisas.

À medida que a indústria de robôs entra numa nova fase de crescimento, os modelos de base com fortes capacidades de raciocínio visual e espacial tornar-se-ão infraestrutura-chave. Para saber mais sobre a evolução do ecossistema Gemini, pode consultar o guia completo do Gemini.

Este artigo Google lançou o Gemini Robotics ER 1.6: modelo de robôs SOTA, especializado em raciocínio visual e espacial foi publicado pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Cohere Adquire Empresa Alemã de IA Aleph Alpha, Garante $600M Investimento para Expansão na Europa

Mensagem de Notícias do Gate, 24 de abril — A empresa canadiana de IA Cohere anunciou planos para adquirir a empresa alemã de IA Aleph Alpha, para reforçar a sua presença na Europa. A Schwarz Group, apoiadora da Aleph Alpha, planeia investir $600 milhões na ronda de financiamento Série E da Cohere. Espera-se que a ronda de financiamento seja concluída em 202

GateNews27m atrás

Xpeng e Xiaomi lideram avanço de IA no automóvel no Beijing Auto Show

Notícia do Gate, 24 de Abril — Os fabricantes automóveis chineses mostraram sistemas avançados de IA para automóveis no Beijing Auto Show a 24 de Abril, enquanto o país acelera a sua estratégia AI Plus e procura uma maior independência de semicondutores estrangeiros. A Xpeng demonstrou um estacionamento controlado por voz que permite aos condutores de emitir comandos falados em vez de selecionar manualmente localizações.

GateNews1h atrás

Antigo Engenheiro da ByteDance Seed: A iteração de IA da ByteDance demora seis meses, em comparação com os três meses do Google

Mensagem de Gate News, 24 de abril — Zhang Chi, um antigo engenheiro da equipa Seed da ByteDance e atualmente professor assistente na Universidade de Pequim, revelou no podcast "Into Asia" que a ByteDance necessita de aproximadamente seis meses para concluir um ciclo completo de treino de pré-formação de modelos de linguagem de grande dimensão (pretraining

GateNews1h atrás

Engenheiro da OpenAI Clive Chan ContestA as Recomendações de Hardware da V4, Apontando Erros e Ambiguidade Face à V3

Mensagem do Gate News, 24 de Abril — O engenheiro da OpenAI Clive Chan apresentou objecções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-lhe "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A

GateNews1h atrás

Naver Launches AI Tab Beta as Google Gemini Enters South Korea Search Market

Gate News message, April 24 — Naver announced the start of a closed beta for AI Tab, its new conversational search feature, following Google's launch of Gemini in Chrome in South Korea. AI Tab will appear alongside Naver's existing search tabs, offering users a dedicated space for conversational

GateNews2h atrás

As Contratações de Engenharia em IA na Índia Disparam 59,5%, Expandem Além dos Centros Tecnológicos

O Relatório do Mercado de Trabalho de IA 2026 da LinkedIn, publicado a 24 de abril, revelou que a contratação de engenharia de IA na Índia aumentou 59,5% em termos anuais, assinalando o ritmo mais acelerado entre os mercados estudados pela plataforma. O crescimento foi impulsionado pela procura a alastrar para além dos centros tecnológicos estabelecidos. Cidades incluindo

CryptoFrontier2h atrás
Comentar
0/400
Nenhum comentário