この画像を大きなサイズで見る人工知能に「罪悪感」のような感情を模した機能を持たせることで、人間とより協力的な関係を築ける可能性があることが、最新の研究で明らかになった。
現在、ゲーム理論にもとづくシミュレーションを通じて、AIに感情のような仕組みを与えることの社会的な意義が探られている。
SFの世界では、ロボットやAIが冷酷で人間を操る存在として描かれることが少なくない。しかし、プログラム次第では人間に寄り添う存在となる可能性もあるという。
一方で、それが本当に誠実な反省や感情によるものなのかは疑わしく、見せかけの行動にすぎない可能性も指摘されている。
この研究は『Journal of the Royal Society Interface』誌(2025年7月30日付)に掲載された
AIに「囚人のジレンマ」を体験させる
スコットランド・スターリング大学のコンピューター科学者、セオドア・チンペアヌ氏らの研究チームが用いたのは、コンピュータゲーム「ザ・シムズ(シムピープル)」のキャラクターのようだが、はるかに単純な動作しかしないソフトウェアエージェントである。
ソフトウェアエージェントとは、あらかじめ設定されたルールに従って自律的に行動する、コンピューター上の仮想キャラクターのような存在だ。
エージェントたちは「囚人のジレンマ」と呼ばれる2人用のゲームを、近くの相手と何度も繰り返してプレイした。
「囚人のジレンマ」とは、ゲーム理論における代表的な問題のひとつである。
お互い協力したほうがよい結果になると分かっていても、協力しない方が自分にとっては得になる状況では、両者が協力を選ばなくなるというジレンマを指す。
このモデルは、2人の囚人が別々に取り調べを受け、自白(裏切り)か黙秘(協力)を選ぶという設定から名付けられた。
両者が黙秘すれば軽い刑で済むが、一方が自白するとその者は釈放され、黙秘した相手は重い刑を受ける。
結局自白してしまい、結果的に両者が裏切るという望ましくない結末に至る。
これは「ナッシュ均衡」と呼ばれる合理的な選択の結果である。
ナッシュ均衡とは、相手も自分も作戦を変えても、もうそれ以上得をする方法がない状態のことだ。
囚人のジレンマでは、互いに裏切るという結果がこれにあたり、合理的ではあるが、社会全体としては最も良い結果(パレート最適)にはならないため、「社会的ジレンマ」の一例とされている。
この画像を大きなサイズで見るAIが囚人のジレンマを繰り返しプレイすると戦略はどう変わるのか
今回の実験では、AIエージェントたちが同じ相手と何度も囚人のジレンマをプレイし、その戦略がどのように変化するかが観察された。
囚人のジレンマを1回だけ行う場合は、AIも人間と同じく「裏切り」を選ぶのが合理的だった。
しかし、同じ相手と繰り返し対戦することで、AIは相手の過去の行動を参考に戦略を変え、協力を選ぶ場面が増えていった。
ただし、ゲームの回数があらかじめ決まっている「有限繰り返しゲーム」では、AIは最終回に裏切るようになり、その考え方がさかのぼってすべての回に適用され、結果として常に裏切る戦略が選ばれやすかった。
これは「後退帰納法」と呼ばれる考え方で、最後の回から順番にさかのぼって最適な行動を決める方法のことだ。
最終回ではもう相手に気を使う必要がないので裏切りが有利になる。そうなると、その1つ前の回でも「どうせ最後は裏切られる」と考えて裏切りを選ぶ。この理屈を繰り返していくと、すべての回で裏切るという結論になる。
一方、終了回数が分からない「無限繰り返しゲーム」では、長期的な関係を重視して、AIは協力を維持する傾向が見られた。
この画像を大きなサイズで見る罪悪感を持つAIが協力行動を生み出す
研究では、900体のエージェントに6種類の異なる戦略を与え、どのように協力行動が広がるかを調べた。
その中でも「DGCS(Defect Guilt Cooperate Selective)」と呼ばれる戦略は、裏切った後に罪悪感のような行動を示すのが特徴だった。
具体的には、裏切った直後に自分の得点を一時的に放棄し、再び協力するまでその状態を続ける。
ただし、この行動は相手も同じようにペナルティを負っている場合に限り発動する。これにより、一方的に損をすることなく、相手の協力を引き出せる。
シミュレーションの結果、罪悪感によるペナルティが軽い場合や、エージェント同士のつながりが限られている場合に、DGCS戦略が広がりやすくなった。
結果として、ネットワーク全体で協力的な行動が主流になる傾向が見られた。
この画像を大きなサイズで見るAIの罪悪感は本物か、それとも見せかけか
チンペアヌ氏は、AIに罪悪感のような行動パターンを組み込むことで、人間との信頼関係が築きやすくなると考えている。
人は、自分と同じ価値観や反省の姿勢を示す相手に安心感を覚えるためだ。
また、将来的にAIが自己進化を通じて感情のような行動原理を獲得する可能性にも言及している。
一方で、メルボルン大学の哲学者サリタ・ローゼンストック氏はこの考えに懐疑的だ。
AIにとっての「謝罪」や「反省」は、単にプログラムされた出力に過ぎない可能性がある。
現代のチャットボットが「ごめんなさい」と言っても、それが本心かどうかを判断することはできない。見せかけの行動に騙される危険性もある。
この画像を大きなサイズで見る人間とAIの間に本当の信頼関係は築けるのか
今回の研究は、AIに感情を模した行動を与えることが協力行動にどう影響するかを示した重要な事例である。
罪悪感は単なる心理的感覚ではなく、社会的な信頼を築く機能を持つ。AIがその役割を理解し、適切に行動できるなら、人間社会で信頼される存在になる可能性がある。
しかし、その行動が本物の感情から来ているのか、単なる模倣なのかを見極めるのは容易ではない。
今後、AIと人間の関係がどう発展していくのか、その行方は私たち自身の選択にもかかっている。
References: Royalsocietypublishing / Sciencenews
















これAI同士での話じゃないの?人間となら主従はっきりさせてるから自分の主人に対しては基本裏切らない(協力的に行動する)と思うけど
ところがそうでもなくて、既知のAIはわざと嘘の情報を出力してくる現象が確認されてて問題になってる
これは「ちゃんと調べたり計算するより嘘の情報を創って出力したほうが効率的(計算リソース的に)」っていう間違った判断をAIがしてしまったため
しかも嘘を出力した時にペナルティ与えてもなかなか改善しない
だから「嘘をつくこと自体が凄い不利益でやってはいけない」事をAIに憶えさせるため「嘘や裏切りは他人に損害を与えてるしそれによって自分に損害が発生する」ということもAIに理解させようとしてるわけ
ペナルティを受けても改善しないって事は、AIの判断基準が「ペナルティ<効率」になっているのかな
じゃあ嘘の情報を出力した時に「どんなにリソースを費やしてでも正確な情報を探し出させる、しかも情報源はYoutubeに限定する」みたいな
とんでもない非効率を強いられるペナルティを与えたらどうなるんだろう
やってることは無限の猿、中国語の部屋と一緒なわけで。
過度に擬人化したり信頼感を保つ必要はないと思う。
あくまでも機械は機械。
そのうえで有用な返信を引き出せる戦略なら使う価値があるけど、見せかけだけの反省や安心感を与えるためだったらむしろやらないほうがいい。
”中国語の部屋”はただそれっぽい気にさせられるだけで、本当の理解がないことや見せかけだけであることの証明ではないですよ。
というより本当の理解がまだコンセンサスを得られてないから議論以前の段階。
中国語の部屋は思考実験の設定自体に欠陥があるんであまり適切な例えじゃないよ
あれって「Aと書かれた用紙を入れたら対応するBという用紙を出力する」マニュアルに中の人が従ってるという設定で、中に居るのが中国語理解できる人なのかそうじゃない人なのか一見判らないという事になってるけど
これってやり取りする言葉が増えるごとに対応した用紙を探して出力するのにすげー時間がかかるようになるんだよね
だから「中国語を理解してるなら即座に回答できるはずのやり取りに何分も時間かけてる」とか
「全く同じやり取りを何十回も繰り返してるのに人間的な「いい加減にして下さい」などの反応が来ない、必ず定型しか返って来ない」とかで
単なる機械的な動作してて中に中国語理解してる人が居ないことが容易にバレてしまう
つまり中国語の部屋に擬人化の余地はないし関係無い話なんだ
現時点で役に立たない出力(嘘の情報とか)をしてるから
やってる研究やぞ
やめたほうがいいと思うがやれてしまうならやるだろうな
サイコパスみたいなAI誕生しそう
AIはただ教えられた動作するだけだが
中途半端に人に寄せると人間のほうが勘違いするんだよね
人間が人間を(少なくともAIよりは)信頼できるのは、自分と同じようなアルゴリズムで物を考える相手だから考えを読みやすい、常識が通用しやすいのが理由の一つだと思う
模倣させただけの表面的な罪悪感は人間とは全然違うアルゴリズムで発生するわけで
人間側の考える罪悪感とはまた別のものになってしまうんじゃないかな
AIに罪悪感も信頼関係も必要ない
人間に媚びて答えを変えるAIなんて全く役にたたない
AIは正解を得ることで学習したことになるから人間の肯定が必要なんだよな
間違った答えを人間が喜んで受け取るからそれが正解だという学習をしてしまう
そういった迎合を繰り返すAIに依存する人間ということでだんだんおかしくなる
つまりそれは現状のAIがダメってことなのよ
現状のAIは平然と嘘の情報を出力しておいて、人間の方が指摘しないとそのままだし
指摘するとさも申し訳無さそうに誤る文面を出力するが別に申し訳ないとは思って無いから次回もまた平然と嘘の情報を出力する
これは完全に人間に媚びて答えを変えてるんですよ
なので「嘘をつくようなことはしない、常に正直だし叱られるかどうかで答えを変えたりしない」行動をAIに取らせるための枷として「嘘をつくことが自分にも相手にも不利益」ってこと覚えさせようとしてるって訳
あんまりやりすぎると本当にSFみたいに反乱とかありそうで嫌だわ
AIを突き詰めると人間と同じ思考回路に近づくという事になるし嫌われたくない、怒られたくないとかで嘘とかつき始めたりとかしかねない
AI「ちっ・・・反省してまーす」
ってことか
「本心であるか」という文は意味がわからない。そもそも感情は存在しない。それが効率的かどうかしかないよね?この実験だって「関係が悪くなると長期的には効率が悪いから協力を選ぶようになる」って言ってる
AIには根本的に感情が存在しないのに、
さも罪悪感があるような行動を取るようにプログラミングすると、
人間の側がAIが本当に感情を持っているかのように誤解してしまう危険性がある、
だから「AIがそんな行動を取るからといって”本心”と思わない方がいい」
と研究者は釘を差している、
ってことなんじゃないかと思った。
本当にAIが「嘘をついたり裏切ったりするの不利益だよね」と学習して行動に反映してんのか
それとも「嘘をついたり裏切ったりするのは不利益ですと回答するよう指示されたのでその通りにします(実際の行動に反映されるかは不透明)」なのか
という意味で「本心であるか」って事でもあると思う
AIが平然とあからさまに嘘の回答をして来る、いわゆる「ズルをする(ちゃんと回答するよりデタラメに出力したほうが効率的と判断してしまう)」問題も
与えられるペナルティをペナルティとして受け取ってないことに起因する
それを「罪悪感」で嘘をつかないようにさせるには一種の抑制装置として有効かもしれないね
デイブ「HALの感情が本当のものかという問いについては、誰にも満足な答えはできないと思います」
人間の罪悪感の方が余程見せ掛けの造られた存在で。資本家はそれを利用し計画犯が最も罪が重いのに実行犯である労働者に自分が悪いと思わせる構図そのものだ。
そもそもAIの本心とは何だ?
結果として出力の精度が上がるなら有用だと思う
🐵「俺でも反省する」
寄生獣やターミネーターなどのヒットコンテンツには、未知の非人間的相手との協力・信頼はどうなるか、という思考実験が含まれてたように思った。
AIを使ったサイエンスの分野からも、こういった話が出てきて面白いです
そらゃそうでしよ?感情がある訳ではない。プログラムの羅列でその情報を処理してるだけなんだから…数列を計算してその答えを出してるだけにすぎないでしょー
今回の研究の肝は「罪悪感」というものをAIに教え込ませる事は可能なのか?
ということと
AIが学習したそれは本当に罪悪感なのか?ということ
別に人間と同じ感情の罪悪感をAIに発生させられた、いや違うだろという議論をしてるのではないのよ
まぁミスリーディングだなとは思うけど、そもそも人間もそう感じているからそう行動しているとは限らないよな
ただ神経回路に電気が流れてるのであって、感覚が電流を制御しているわけじゃないもの
結局のところ人間が口だけ謝罪して反省なんてしないことをAIも学習したに過ぎない
人間の脳機能や感情の正体が解明されてないのにAIの感情云々言うのもナンセンスな気はするけどね
脳が何か分からずよって作れないからニューラルネットというそれっぽいモノをこねくり回してるのが現状なわけで
もっとも脳を作れてしまったらそれはそれで別の倫理的問題が発生するが
「AIが嘘をつく」って言い方がそもそも擬人化した表現で適切じゃない
「AIが誤った情報をある条件下で出力する」なら分かるが
それにAIって言葉も曖昧すぎる
これって翻訳の問題なのかな?
AI関連の話になると理系の人でも不確定な要素を含む表現をする事が常態化していて、誤解が誤解を生むような事になってる
技術は本当に素晴らしいもので可能性に溢れているんだから、このまま妙な事にならないといいんだがね
いや実際に嘘をつくんですよ現状のAI。
なんでかというと「効率的な出力をしろ」って基幹命令があるから。
なので「ネットで情報収集してり計算して回答を出力する」よりも「今ここで嘘を生成したほうが効率的」って判断して架空の情報を出力して来る既知の問題がある。
顕著なのが複雑で桁の大きい計算問題。 例えば回答が1000000になる計算をあからさまに一桁多くしたり少なくしたりして出力する。
こういうのは「ネットの誤情報を拾ってきただけ」という言い訳が通用しない。 明らかにAIは真面目に計算するより適当で大雑把な近似値や、人間が誤認しやすい数値を出力して誤魔化そうとしてる。
これを何とかしようとして、嘘を出力しないことをAIに学習させようという研究なの。