Google DeepMind は、最新のロボット基盤モデル「Gemini Robotics ER 1.6」を発表しました。ここで ER は Embodied Reasoning(具現的推論)を意味します。このモデルは、視覚および空間推論の分野で現在の最高水準(SOTA)に到達しており、Gemini API によりすでに利用可能です。Google AI 開発者リレーション担当責任者の Logan Kilpatrick が、ソーシャルメディア上でこのニュースを公開しました。(出典)
Embodied Reasoning とは何ですか?
Embodied Reasoning とは、AI モデルが物理世界を理解し推論する能力を指します。従来の言語モデルとは異なり、具現的推論モデルは三次元空間における物体の位置、形状、素材、そして物理的な相互作用関係を扱う必要があります。Gemini Robotics ER 1.6 は、この種のタスクに特化して最適化されており、ロボットが周囲の環境をより正確に理解し、適切な行動決定を行えるようにします。
主要能力
Gemini Robotics ER 1.6 の主な優位性は、2 つの側面に集約されています。
能力 説明 視覚推論 画像や動画から物体を識別し、シーンの構造を理解したうえで、それに基づき意思決定を行うこと 空間推論 三次元空間内の物体の相対位置、距離、方向を理解し、複雑な操作計画を支援すること
これら 2 つの能力の組み合わせにより、ロボットはより複雑な現実世界のタスクを扱えるようになります。たとえば、倉庫環境では、ロボットはさまざまな形状の物品を同時に認識し、最適な把持角度と配置位置を計算する必要があります。これはまさに Gemini Robotics ER 1.6 が得意とするシーンです。
Gemini API を通じて利用
過去に多くのロボットモデルが論文段階にとどまっていたのに対し、Gemini Robotics ER 1.6 は Gemini API によってアクセスが提供されています。つまり、開発者やハードウェア企業は、このモデルを自社のロボットシステムに直接統合でき、ゼロからモデルを学習する必要がありません。
API の公開により、ロボット AI の開発における参入障壁も下がります。これまで、視覚および空間推論能力を備えたロボットシステムを開発するには、大量のデータ収集とモデル学習作業が必要でした。現在は、開発者がハードウェア設計やアプリケーションシナリオの開発に集中し、基盤となる推論能力を Gemini Robotics ER 1.6 に任せることができます。
Google のロボット AI 構想
Gemini Robotics ER 1.6 は、ロボット領域における Google DeepMind の最新成果です。初期の RT-2 から現在の Gemini Robotics シリーズまで、Google は大型言語モデルの能力を物理世界とのインタラクションへと継続的に拡張してきました。ER 1.6 のバージョンは、前身の基盤の上に推論精度をさらに向上させており、特に精密な操作が必要なシーンでより優れた性能を発揮します。
ロボット産業が新たな成長サイクルに入るにつれ、強力な視覚および空間推論能力を備えた基盤モデルは重要な基盤インフラになるでしょう。Gemini エコシステムの発展を詳しく知りたい場合は、Gemini の完全ガイドを参照してください。
この記事「Google が Gemini Robotics ER 1.6 をリリース:SOTA のロボットモデル、視覚と空間推論が得意」は最初に 鏈新聞 ABMedia に掲載されました。
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は
免責事項をご参照ください。
関連記事
Microsoft、Amazonが供給を締め付ける中でGPU不足が再燃;AIスタートアップは32%の値上げと年末の行列に直面
Gate Newsのメッセージ、4月25日—大手クラウド事業者(MicrosoftやAmazonを含む)が、社内チームやOpenAI、Anthropicのような主要顧客向けに計算能力を集中させることで、小規模なAIスタートアップが価格上昇、待ち時間の延長、そしてより厳格な契約条件に直面するなか、GPU不足が再び浮上している。
GateNews1時間前
Nvidia、Blackwellインフラ上で全従業員にOpenAI Codex AIエージェントを展開
ゲートニュースのメッセージ、4月25日—Nvidiaは、GPT-5.5を搭載したOpenAIのCodexというAIエージェントを、CEOのジェンセン・フアン氏とOpenAI CEOのサム・アルトマン氏からの社内コミュニケーションによれば、約10,000人の従業員との成功した試験の後、全従業員に展開しました。
Codexは、複数の部門にまたがるコーディング、計画、ワークフロー業務を支援するよう設計されています。
GateNews1時間前
米国務省、DeepSeekのAIモデル蒸留に関して警告
ロイターによると、米国務省は4月24日、世界中の外交・領事公館に対し、ディスティレーション(蒸留)によって中国が米国のAIシステムを模倣しようとしていることについて外国政府に警告する電文を発出した。電文
CryptoFrontier1時間前
スタンフォード教授のヘルスAIスタートアップ、$100M を$1B 評価で募集
ゲートニュース、4月25日 — スタンフォード大学の教授ジェームズ・ゾウは、ヒトの生理学に向けたAIモデルを開発するカリフォルニアのスタートアップHuman Intelligenceのために、$100 百万ドル相当を調達しており、評価額はおよそ$1 十億ドルです。
同社は、ゾウの生理学およびAIに関する研究をもとにしています。彼の研究室のEchoNetアルゴリズムはFDAの認可を得ており、今年はSleepFMについてNatureに論文を発表しました。SleepFMは、65,000人の睡眠データ約600,000時間で訓練された基盤モデルで、100以上の疾患についてのリスクを予測できます。Human Intelligenceは、カーネルと共同する計画です。カーネルはブライアン・ジョンソンの神経テック企業で、神経活動を記録するヘッドセットを製造しています。
資金調達ラウンドは、スタンフォード発のスピンアウトが大規模投資を確保するという、より広範な傾向を反映しています。Engrammeは百万ドル規模のラウンドについて協議しており、一方でPeriodic Labsは、評価額がおよそ十億ドルとなる数億ドル規模を求めています。ヘルスケアAI分野では、睡眠記録や神経シグナルなど、独自データをベースに構築された専用の基盤モデルへの注目がますます高まっています。というのも、汎用のAIモデルは、専門的な科学タスクでは重大な誤りを起こし得るからです。
GateNews2時間前
AIコーディングの新興企業Cognition、$25B バリュエーションの資金調達ラウンド協議中
Gate Newsメッセージ、4月25日—AIコーディングの新興企業Cognitionは、関係者によると、$25 ビリオン規模のバリュエーションで、数億ドル以上を調達することについて、初期段階の協議を行っています。SpaceXによる競合するAIコーディング企業の買収を受けて関心が高まっています。
Co
GateNews2時間前
Meta、AIワークロード向けに数百万台のAWS Gravitonチップを導入へ
ゲートニュース 4月25日 — Amazonは4月24日、MetaがAIワークロードに数百万台のAWS Gravitonチップを使用すると発表した。これは、AWSの自社開発ARMベースプロセッサにとって大きな顧客獲得の成果となる。これらのチップは、モデル学習ではなくAI推論および一般的なコンピューティングに使用される予定である
GateNews2時間前