この画像を大きなサイズで見るアメリカ・コロンビア大学の研究チームが、YouTubeの膨大な動画を通じて人間の口の動きを学習させた最新AIロボットを開発した。
このロボットは、鏡で自分の顔の動かし方を自習し、さらに人間の話し方を徹底的に観察して「音と口の動き」の法則をすでに習得している。
その結果、事前のプログラミングなしでも、未知の言語や歌に合わせて即座に完璧な口パク(音声に合わせた口の動き)を披露することが可能になった。
人間との自然な対話を実現するこの技術は、医療や教育、介護といった対人コミュニケーションが重要視される現場での活用が期待されている。
この研究成果は『Science Robotics』誌(2026年1月14日付)に掲載された。
鏡で自分の顔を学ぶプロセス
対面での会話において、私たちの注意の半分近くは相手の唇の動きに集中している。しかし、これまでのロボットにとって、人間のように自然に口を動かすことは非常に難しい課題だった。
コロンビア大学の工学チームが発表した新しいロボットは、この壁を独自の学習方法で乗り越えた。
ロボットはまず、26個のモーターを搭載した自分の顔を鏡の前に置き、どのモーターを動かせばどのような表情になるのかを自習した。
これは、鏡の前で変顔をしながら自分の顔の動かし方を覚える子供のようなプロセスだ。
この訓練によって、ロボットは自分の顔を自在に操るための仕組みをあらかじめ身につけることに成功した。
この画像を大きなサイズで見るYouTubeの動画を学習、未知の言語にも即座に対応
自分自身の動かし方を理解したロボットが次に行ったのは、YouTubeの動画をひたすら観察することだった。
ロボットを制御するAIは、人間が話したり歌ったりする際の唇の形を何時間も学習し、特定の音に対して口をどう動かすべきかというモデルを構築した。
この学習済みモデルがあるおかげで、ロボットは耳にした音に合わせて、リアルタイムで最適な口の動きを導き出すことができる。
実験では、ロボットが一度も聞いたことがない言語や、AIが生成した楽曲に対しても、スムーズに口を動かして歌う様子が確認された。
あらかじめ決められたルールに従うのではなく、その場の音声に合わせて柔軟に口を動かせる点は、従来のロボットにはなかった大きな進歩だ。
この画像を大きなサイズで見る表情がロボットに命を吹き込む
ロボットの見た目が人間に近づくほど、わずかな違和感が不気味さを強調してしまうことがある。「不気味の谷」現象と呼ばれるものだ。
これまでの人型ロボットの多くは、歩行や物をつかむといった手足の動きに重点が置かれており、顔の表情はそれほど研究が進んでいない。
しかし、研究を主導したホッド・リプソン教授は、人間との交流において顔の表情こそが最も重要な要素であると指摘する。
たとえ歩き方が少しおかしくても人間は許容できるが、顔の動きが不自然だと強い拒絶感を示してしまうからだ。
今回開発された、柔らかい皮膚の下に多数のモーターを仕込み、AIで制御する仕組みは、ロボットが生命感を持って人間とつながるための重要な一歩となる。
動画では様々な言語を人間のような口の動きで話すロボットの姿が確認できる。日本語も流暢だ。
人間とロボットを繋ぐ絆
この口パク技術が、ChatGPTやGemini(ジェミニ)のような高度な対話型AIと組み合わされることで、人間とロボットの絆はより深いものになると期待されている。
研究チームのユーハン・フー氏は、ロボットが人間を観察すればするほど、より繊細で感情的な仕草を模倣できるようになると語る。
今後10年間で10億台以上の人型ロボットが製造されるという予測もある中、エンターテインメントや教育、高齢者のケアなどの現場で、温かみのある表情を持つロボットの需要はますます高まるだろう。
強力なテクノロジーゆえに慎重な開発が求められるが、ロボットが自発的に微笑み、自然に語りかけてくる未来はすぐそこまで来ている。それはそれでちょっと恐怖だが。
References: Columbia.edu / Science
















現在は不気味だけど、近い将来普通の人になって
見た目ではわからないアンドロイドになるのだろうな
その時が楽しみだ
声音まで変えられんのかよ
いきなり、おっさんの声が出てきた
口を動かすとまばたきはお休み?
ちょっと怖い…
人間っぽいじゃなくて可愛いロボを目指せばいいんじゃない?
猫の運搬ロボは大成功したじゃん
アバター的なものを目指すならこう言うのも必要じゃないかな
目に表情がない
口だけ饒舌だとこわい
今は口回りだけだけど、そのうち眉とか目じりや小鼻なんかも動くようにするのでしょうね。
興奮を表すように小鼻を広げてフーンスとかw 学習過程は鏡で変顔をしまくったりして……
逆に人間が如何に表情筋を駆使して言語の意味以外の
感情のニュアンスを発信しているか改めて認識するね。
生物って脳機能って文化って凄いなぁ。
奇妙。
日本に凄腕の会社あるんですけどね。オリエントふんふんっていうんですけど。
鼻は動きすぎ?
どうでもいいけど、不気味の谷うんぬんを問題にするなら
なんでこんな雪山で凍えてそうな肌色にしてあるの??
それとも、単に光の当たり具合でそう見えるだけ?
口の動きのデモンストレーションだから
文章はそこまで気にしてないのかもだけど、
「今日はどのようにお手伝いさせていただけますか?」って
日本語会話としては違和感のある、ものすごく教科書みたいな直訳調だな。
あと、「エモ」と自己紹介しているけど、現代日本では固有名詞は現地語読みする方が一般的だし。
「はじめまして、イーモと申します。御用がありましたら、お気軽にお申し付けください」くらいの方が自然な気がする。