この画像を大きなサイズで見るアメリカ・コロンビア大学の研究チームが、YouTubeの膨大な動画を通じて人間の口の動きを学習させた最新AIロボットを開発した。
このロボットは、鏡で自分の顔の動かし方を自習し、さらに人間の話し方を徹底的に観察して「音と口の動き」の法則をすでに習得している。
その結果、事前のプログラミングなしでも、未知の言語や歌に合わせて即座に完璧な口パク(音声に合わせた口の動き)を披露することが可能になった。
人間との自然な対話を実現するこの技術は、医療や教育、介護といった対人コミュニケーションが重要視される現場での活用が期待されている。
この研究成果は『Science Robotics』誌(2026年1月14日付)に掲載された。
鏡で自分の顔を学ぶプロセス
対面での会話において、私たちの注意の半分近くは相手の唇の動きに集中している。しかし、これまでのロボットにとって、人間のように自然に口を動かすことは非常に難しい課題だった。
コロンビア大学の工学チームが発表した新しいロボットは、この壁を独自の学習方法で乗り越えた。
ロボットはまず、26個のモーターを搭載した自分の顔を鏡の前に置き、どのモーターを動かせばどのような表情になるのかを自習した。
これは、鏡の前で変顔をしながら自分の顔の動かし方を覚える子供のようなプロセスだ。
この訓練によって、ロボットは自分の顔を自在に操るための仕組みをあらかじめ身につけることに成功した。
この画像を大きなサイズで見るYouTubeの動画を学習、未知の言語にも即座に対応
自分自身の動かし方を理解したロボットが次に行ったのは、YouTubeの動画をひたすら観察することだった。
ロボットを制御するAIは、人間が話したり歌ったりする際の唇の形を何時間も学習し、特定の音に対して口をどう動かすべきかというモデルを構築した。
この学習済みモデルがあるおかげで、ロボットは耳にした音に合わせて、リアルタイムで最適な口の動きを導き出すことができる。
実験では、ロボットが一度も聞いたことがない言語や、AIが生成した楽曲に対しても、スムーズに口を動かして歌う様子が確認された。
あらかじめ決められたルールに従うのではなく、その場の音声に合わせて柔軟に口を動かせる点は、従来のロボットにはなかった大きな進歩だ。
この画像を大きなサイズで見る表情がロボットに命を吹き込む
ロボットの見た目が人間に近づくほど、わずかな違和感が不気味さを強調してしまうことがある。「不気味の谷」現象と呼ばれるものだ。
これまでの人型ロボットの多くは、歩行や物をつかむといった手足の動きに重点が置かれており、顔の表情はそれほど研究が進んでいない。
しかし、研究を主導したホッド・リプソン教授は、人間との交流において顔の表情こそが最も重要な要素であると指摘する。
たとえ歩き方が少しおかしくても人間は許容できるが、顔の動きが不自然だと強い拒絶感を示してしまうからだ。
今回開発された、柔らかい皮膚の下に多数のモーターを仕込み、AIで制御する仕組みは、ロボットが生命感を持って人間とつながるための重要な一歩となる。
動画では様々な言語を人間のような口の動きで話すロボットの姿が確認できる。日本語も流暢だ。
人間とロボットを繋ぐ絆
この口パク技術が、ChatGPTやGemini(ジェミニ)のような高度な対話型AIと組み合わされることで、人間とロボットの絆はより深いものになると期待されている。
研究チームのユーハン・フー氏は、ロボットが人間を観察すればするほど、より繊細で感情的な仕草を模倣できるようになると語る。
今後10年間で10億台以上の人型ロボットが製造されるという予測もある中、エンターテインメントや教育、高齢者のケアなどの現場で、温かみのある表情を持つロボットの需要はますます高まるだろう。
強力なテクノロジーゆえに慎重な開発が求められるが、ロボットが自発的に微笑み、自然に語りかけてくる未来はすぐそこまで来ている。それはそれでちょっと恐怖だが。
References: Columbia.edu / Science














現在は不気味だけど、近い将来普通の人になって
見た目ではわからないアンドロイドになるのだろうな
その時が楽しみだ