この画像を大きなサイズで見るロボットが人間のようにビニール袋のジッパーを閉めたり、折り紙を折ったり、家事を手伝ったり、複雑な作業もこなしてくれる、さらには一緒にゲームで遊んでくれる。そんな未来が近づきつつあるようだ。
2025年3月19日、アメリカのGoogle DeepMindが発表した最新のAIは、人間の声や視覚情報をもとに、物理世界を正確に理解し、繊細な作業をこなすことができる。
たとえ初めて経験する状況であっても、これまでの知識をもとにどうするべきかをきちんと考え、要求に応じて臨機応変に行動ができるのだ。
待ち望んでいたヒューマノイドロボットがついに現実となる日がもうそこまで近づいている。
ロボットの脳として機能するAI
現在、ロボット技術は進化しているが、自律的に複雑な動作を行うことは依然として難しい。特に、未知の状況で安全かつ正確に動く「 エンボディドAI(Embodied AI)」の開発は、多くの企業にとっての課題となっている。
エンボディドAIとは、物体を操作したり、人とコミュニケーションをとり物理的な作業を支援する、身体性を持つエージェントベースのAIシステムのことだ。
Google DeepMindの新たなAIモデルは、この課題に取り組むために開発された。
Googleが公開した映像を見れば、人間並みに柔軟で判断力に優れたロボットの登場が、一歩実現へ近づいたことを嫌でも実感することだろう。
2種の新型AIモデルは、Googleの大規模言語モデル「Gemini 2.0」にロボット制御用の機能を実装したもので、「Gemini Robotics」と「Gemini Robotics-ER」と呼ばれている。
Gemini Roboticsの特徴は、視覚的な情報や言葉による指示を理解して、それに基づき行動できること。Googleはこの力を、「視覚・言語・行動能力」と呼んでいる。
一方、Gemini Robotics-ERは、より高度な空間の理解を踏まえた推論能力を特徴としており、AIによる世界の理解を、既存の一般的なコントローラーに伝えることを可能にする。
ちなみにERは、「具現化された推論(embodied reasoning)」の頭文字をとったもの。それが示唆する通り、このGoogleの最新AIモデルは、これまでAIがデジタルで理解していただけの内容を、この物理世界で見事に具現化してみせるのだ。
驚くほど器用に人間の要求を物理的に叶えてくれる
例えば、このAIを搭載したロボットアーム(ALOHA 2)に口頭で「バナナをかごに入れて」と伝えれば、カメラに映ったバナナを認識して、難なくカゴに入れてくれる。
バナナとブドウが混ざっていてもきちんとバナナを見分けるし、作業中に人間がカゴをあちこち動かしても間違えるようなことはない。
しかも驚くほど器用で、ビニール袋のジッパーを閉めたり、折り紙を折ることもできる。歯車にベルトをセットするような作業ならば人間よりも早くやってのける。
この画像を大きなサイズで見る一般化能力が既存モデルの2倍にアップ
DeepMindによれば、Gemini Roboticsシステムは、これまでのAIに比べて「一般化能力」が非常に優れているのだという。
一般化とは、さまざまな物事に共通する性質や、共通して当てはまる方法などを見つけ出す力のこと。これができれば、過去に学習したことのない状況でも上手に対応することができる。
たとえば、ドアの開け方を学んだロボットがいたとしよう。そのロボットがそれまでとは違う種類のドアを見た時、一般化ができれば、ドアに共通する性質からきちんと開け方を推測することができる。
ところが一般化ができないロボットは、同じドアでも少しデザインが違うだけで開けられないような事態になる。
現実のあらゆる状況をあらかじめ想定してロボットに教えることは不可能だ。だから実用的なロボットを開発するには、高度な一般化の力がきわめて重要になる。
GoogleのGemini Roboticsは、最先端の視覚・言語・行動モデルと比較して、「包括的な一般化ベンチマーク性能が2倍以上アップ」しているという。
ロボット制御AIが商用されるのはいつ?
なお、今回の新型AIモデルが利用可能になる具体的な時期や商用化については、今のところ発表されていない。
このことを踏まえるなら、どれほど優れているように見えても、まだまだ研究開発の段階であるということなのだろう。
1つには安全性の問題があるかもしれない。
Googleがパーナーシップを結ぶApptronikのヒューマノイドロボットは、人間の身近で使われることが想定されている。そうである以上、その安全性は単なる工業用ロボット以上に検証されるべきだ。
もちろんGoogleはそれを承知しており、ロボットの安全性を評価するためのデータセットを公開している。
それはアイザック・アシモフが提唱したロボット三原則にちなみ「ASIMOV」と呼ばれるもので、これを利用することで、さまざまな状況においてロボットがとりうる行動の帰結を、AIが理解しているのか厳密に測定することができるという。
ちなみにロボット三原則とは、「ロボットは人間に危害を加えてはならない」「ロボットは人間の命令に従わなければならない」「ロボットは自らの存在を護らなければならない」という3つのルールだ。ただし今となっては、ロボット三原則は現実的ではないという意見もあるが…。
Google DeepMindの新たなAIモデルは、ロボットがより高度な作業をこなせるようになる未来への重要な一歩といえる。
もし、これらの技術が実用化されれば、工場や家庭、さらには災害救助など、さまざまな分野で活躍するロボットが誕生することになる。
近い将来、私たちの生活の中で、AIを搭載したヒューマノイドが当たり前のように働く日が来るのだろうか。期待と不安が交差するが、今のところ期待の方が大きいかな。
編集長パルモのコメント

このヒューマノイドロボットと、前回紹介した、ノルウェーのロボット企業が開発中の家庭用二足歩行ヒューマノイド「NEO Gamma」と、どちらが先に実用化され、家庭用に普及するのだろう?どっちでもいいから、私が生きているうちに実現したらいいな。ペットたちの面倒も見てくれたりすると最高なんだけどな。
ていうかファミレスで活躍中の配膳ロボットとか、最初は驚いたけどあっという間に慣れちゃったから、もし実用化されてもすぐに慣れちゃうのかな。
References: Deepmind / Arstechnica
















イングラム1号機の指だ!
おぉ どんどんあの頃のロボットたちが近づいて来る実感があるよ…
俺はお前が折り紙を破くのを見たぞ
日本も研究続けてりゃ良かったのに
日本はAIがどうにもならなくて辞めちゃった感じする
それはしゃーないとして、辞めてる間に素体の技術も散逸して再スタートもままならないのが悔やまれる
ドアの開閉はかなり難しく
日本が最先端だったんだが…
現在、折り紙は遠隔手術用のアームにソフトを乗せれば出来るし
折り方を見つけるプログラムもあるのでそれほど驚かない
自分で折り方の規則性をみつけたならそれは凄いけどね
縄跳びを覚えたり、横で見て将棋を自分で覚えるようなのは素敵だ
そのソフトを汎用性を持って作れたのがすごいんでしょ。
視覚補正で4倍でしょ
視覚なし、簡単なセンサーいくつかと僅かな処理能力でマルチドア対応したほうが凄いよ
必ずリターンを返す卓球マシーンみたいに高速処理してるのと変わらない(これはこれで良いけど)
センサー増やして演算上げるのはいずれ出てくる技術
まあどう感じるかは各人違うからね
これでお終い
🤖「柔軟体操は出来まへん」
ウォズニアック・テストのクリアまであと少し。
この延長線上に義肢技術や介護支援ロボットがあると思うんで
開発が上手く行くといいな。