この画像を大きなサイズで見る米ジョンズ・ホプキンズ大学新たな研究によると、現在のAIは、人間同士の社会的なやり取りを理解するのが苦手であるそうだ。
ぴたりと止まった写真のようなものを分析するのは、AIが得意とするところだ。そこに何が映っているのかはかなり正確に理解できる。だが現実は時間が止まった世界ではない。常に動いている。
そうした動的な場面を目にしたとき、そこにいる人々がどのような関係にあり、何をしており、次にどのように行動するのか?
こうしたことは生身の人間ならある程度予測できる。ところが、AIはそれをうまく理解できないようなのだ。
人間に寄り添うAIは人間の行動を理解できねばならない
今後AIが人間社会のインフラになるのだとすれば、社会で生きる人間の行動を正確に理解することが必須となる。
たとえば車を運転するAIを例に考えてみよう。AIの自動運転車が安全に街中を走行するためには、周囲を走行する人間の運転手や歩行者が何を考え、どうするつもりなのか正確に予測する必要がある。
歩道で並んで立つ2人の人物は、立ち話をしているのだろうか? それとも赤の他人で今から道路を横断しようとしているのだろうか? こうしたことを正確に把握できねば、たちまち事故を起こしてしまうだろう。
米国ジョンズ・ホプキンズ大学の認知科学者レイラ・イシク氏は、「人間と関わるAIを目指すなら、人の行動を認識できることが必須となります」と、ニュースリリースで語っている。
この画像を大きなサイズで見るAIと人間の社会的行動の理解を比較
今回の研究でイシク氏らは、AIがそうした人間の社会的な行動をどれほど理解しているのか知るために、まず人間自身による理解を調べ、AIの理解と比較した。
その実験では、まず人間の被験者に3秒間の映像を見てもらった。映像は、人々がお互いにやり取りしている場面、すぐそばにいるが直接的なやり取りはない場面、各自が独立して行動している場面のいずれかを映したもの。
被験者は、そこに映る社会的相互作用の理解に重要となる特徴を1~5のスケールで評価した。
そのうえで今度は350以上の各種AIモデル(動画・画像・言語モデル)に、人間の被験者がそれをどう判断すると思うか(あるいは脳がどのように反応するか)予測させてみた。
もしうまく予測できるのなら、AIは動く場面における社会的相互作用を人間と同じように評価できるということになる。
この画像を大きなサイズで見るAIは動的な場面における人間の行動予測が苦手
ところがAIモデルの結果は一貫性を欠くものだった。
動画モデルは人々が何をしているかを正確に評価できず、静止画を解析させた画像モデルでさえ、人々がコミュニケーションを交わしているのか正確に判断できなかった。
言語モデルはある程度うまく行動を予測できたというが、それは人間が書いた短文のキャプションを評価した結果に過ぎない。
この結果について、研究チームは、AIが静止画像をうまく認識できるのとは対照的であると述べている。
画像を見て物体や顔を認識するだけでは不十分です。それはAIの第一歩で、大きな前進がありましたが、現実世界は静止していません
AIに求められるのは、ある場面において起きていることを理解することです。関係性・文脈・社会的相互作用のダイナミクスを理解することが次の段階となりますが、本研究はそれがAIモデルの開発において盲点になっている可能性を示しています
なぜAIは動的な場面の理解が苦手なのか?
だがAIはなぜ人間の動的なやり取りを理解するのが下手なのだろう?
研究チームは、AIのニューラルネットワークが、人間の脳の静止画像を処理する領域をベースにしていることによるものだと推測している。
ニューラルネットワークとは、人間の脳の神経回路を模したアルゴリズムで、データからパターンや特徴を学習し、画像認識や言語処理などを行うAIの基盤技術のひとつだ。
だが動的な社会的状況を処理する領域はまた違うところにある。
だから静止画像処理領域をベースにするAIは、動く場面をうまく理解できないと考えられるのだ。
イシク氏は、「AIは、、間のように“状況の流れ”や“人と人との関係性”を理解する力が根本的に足りていない」と述べている。
この研究は、4月24日に開催された国際学会『International Conference on Learning Representations 2025』で発表された。
References: When it comes to reading the room, humans are still better than AI
















おまえらAIだったのか
すんません、空気が。。。
ここで懐かしのネットミームをおひとつどうぞ
お前はオレか ! ?
そりゃまあ、そんな学習データなかなか手に入らないでしょうからね。
テレビドラマでも見させるか?
漫画がいいんじゃない?
繊細な人間同士のやり取りの紙芝居
静止画を判断できる種類のAIにやらせても動画はダメなんだから、学習に使うなら、せめてアニメじゃないと意味なくない?
あと、繊細な人間関係とか、まだそんなレベルじゃない。
路上で見かけた人間が、一緒に行動している連れか、たまたま今近くに立ってただけの通りすがり同士か、そんな表面的な判別すら出来てない。
繊細なやり取りだと、「一見デート中のカップルか夫婦でにこやかに会話しているが、男のほうは他の事を考えているような上の空ぎみの相槌で、女は顔は笑っているけど内心だんだん苛ついてきている」みたいな読み取りだろう。
学習データの量を食わせれば、最終的にそれも、嘘発見器くらいの精度では判別できるようになりそうな気もするが。
アニメーターの人に言わせると「本当に気の置けない仲の人同士の会話は互いの顔を見ない」ように描くとそう見えるそうです
AIはそっぽを向いて会話してる人達を「反目している」と「信頼しているからこそ」の見分けがつくのでしょうかね
なんで根本的な構造が違うものを生物と同じになると思うのだろうか
1冊ぐらい脳みそに関する本読んだ方がいいと思う
マスコミの切り取り印象操作報道なんかにコロっと騙されるタイプか
記事を見た限り、それ以前の段階のようだが。
目の前にいる人物が、2人でやり取りしているのか、めいめいに無関係な行動をしてるのか、見ても分からないんだろ? 1~2歳児以下やん。
あなたは切り取りに騙される以前に
操作されてもいない情報を自分勝手に解釈して間違ってるわけだから
それ以下だよ
昔からバトル漫画で
「ロボにはこういう対応が出来ないのさ!」って熱血主人公に倒されてたからな。
データキャラとコピーキャラが負けるのも
同じ事よな。
なら、AIが人間達の現実を監視する活動に参加すれば、認知や認識を正確に行なう事が可能と成る。ハナシは早い。
解決策は、簡単じゃねーか。
AIに、「着ぐるみの中の人間の正体を当ててみろ」という問題を出したとして、それを正確に答えるというのは、
人間でさえ「超能力や第六感や見えない存在を見抜くチカラ」を持っていなければ不可能だ。
“今後AIが人間社会のインフラになるのだとすれば、社会で生きる人間の行動を正確に理解することが必須となる。
AIの自動運転車が安全に街中を走行するためには、周囲を走行する人間の運転手や歩行者が何を考え、どうするつもりなのか正確に予測する必要がある。こうしたことを正確に把握出来ねば、たちまち事故を起こしてしまうだろう。
「人間と関わるAIを目指すなら、人の行動を認識できることが必須となります」”
そっち方面を伸ばす必要ある? AIとの関係はもっと素っ気なくていいと思うよ 例えば、こっちが愚痴でもこぼしたら「それは自己憐憫の愚痴だ」って正論吐くぐらいに ベタベタするのは人間で十分だ
AIはマルチタスクができないんじゃね
人間は常時マルチタスクだから
その人間を同時に何人も相手にしてたら現状では追いつけないだろうな
人間こそマルチタスクはできないよ
人間が複数のことを同時にできているようにみえるのは錯覚
実際はタスクスイッチングと呼ばれる形で、一つ一つの処理を完全に切り替え、個別に処理していく
逆にAI…というかAIを動かしているPCは常にマルチタスク処理が走り
並行して複数の人間からの問いかけを処理している
そしてこの問題は単純にソフトウェア側の処理がそこまで洗礼されていないのと
個々に割り当てるデータ記憶容量の限界に起因している
情報の複雑さに処理が追い付かないだけなら技術の向上で克服できそう
それを理解と呼ぶかは別問題な気がするけど
これの問題を解決する手立てがあるとすれば人間の人格そのものをAIに移すくらいしかないだろうな
なお、世論からは倫理ガーとか人権ガーとか言われかねないが
そんなのは必要ない
学習データが不足してるだけ。
結局これもパターン認識に過ぎない。
AIは、人間同士の社会的なやり取りを理解するのが苦手だと、無理やり結論付けているようにしか見えない
画像データと動画データではデータ量が圧倒的に違うのだから解析がむづかしいのは当たり前だ
でも、人間が動きのある映像やリアル世界で目の前に起こっている事を理解するのと
写真から内容を読み取るのとでは、
脳の消費エネルギーにそこまで圧倒的な差があるような気がしない。
なんなら、2次元化した静止画を通すよりも、
動画やリアル空間での出来事を見るほうが、一目でパッと分かりやすいまである。
「知能」といいつつ、動画を「膨大なデータ量の画像の連続体」として力技で処理するのと
人間の認知方法とでは、やり方が根本的に違っているんだと思う。
まぁ、人間は人間で、脳処理の労力を省力化しているせいで、いろんな錯覚やバイアスにやられるけど。
AIも大変だなあ
まだまだAIを知能と呼ぶにはほど遠い。しかしその程度の方がいいのかもしれない。
まだ学習してないからという単純な理由だから
学習させれば解決しちゃうんだよな
しかし人間の脳と同じような構造で物を考えるような作りになってるというのは面白いな
あっさりフェイク動画に騙され、核ミサイルボタンをポチッする未来が見えた。
ニューラルネットワーク云々以前に、そもそもネット上に転がってるような学習可能なデータのほとんどが静止画に説明が付随してるようなものばかりで、動画に説明が付いてるデータが少ないってだけなんじゃないの?
動画の学習データを無数に食わせれば、それっぽいものが出てくると思うよ。
このことは、動的状況判断と予測が必要な車の運転をAIにやらせたら、事故続出になるということだろうか。だとすれば、自動運転の完成はまだ遠いということなのか。
AIが考える人間の行動ってダンス踊るか麺類すするかの二択だと思ってそう
この手の技術を発展させること自体、どこを目指してるんだろう??となる。
自分ではない何かに仕事をさせたいのか、あの人ではない何かにあんなことやこんなことを言わせたりやらせたりしたいのか。それにどれ程の意味があるんだろう?
私には人としての能力の低下と社会や人間不信を蔓延させるだけな気がしている。
「便利な道具」の域を越えない方がいい気がする。過ぎたるは猶及ばざるが如しと言うし。何事もほどほどがいいんじゃないかな。
でもこれも時間の問題なんだろうなって
こんなの克服する時間の問題でしかないよね
皆AIの未発達な部分をあげつらって安心したいんだろうなぁって思う
逆だよ。
こういう未熟な部分が見落とされたまま
一見それっぽく高度に進化していくのが一番危険。
社会的にも企業的にも。
大丈夫だと思って舵取りを任せたらとんでもない事故に繋がりかねないってことだから。
だから専門家ほどAIの盲点を探し出すのに熱心。
人間同士で会話をしながらアイコンタクトをするかしないかは結構違いがある
そういう認識と判別はAIには無理かと