この画像を大きなサイズで見るAIが人間を騙したり、嘘をついたりしたら、罰を与えて修正すればよいと考える人は多いだろう。だがそれは無駄な努力かもしれない。
チャットGPTを開発したOpenAIの新たな研究によると、罰(低評価)を与えるほどAIはずる賢くなり、自らの不正行動を巧妙に隠すことが明らかになった。
彼らは隠ぺいする技術を高め、相変わらず不正行為を続けるのである。
では、そうした不正行為を防ぐにはどうすればいいのか? 今回の研究は、それが想像以上に厄介な課題になることを示唆している。
AIの悪い癖を修正するための実験
2022年末に公開され、一気に世界中で話題となった大規模言語モデル(LLM)を利用した生成AI(チャットボットAI)は、その高度な性能ゆえにしばしば悪意ある振る舞いを見せたり、堂々と嘘をつく(ハルシネーション)ことが問題になっている。
こうした生成AIの「悪い癖」を修正するため、開発元の米国企業OpenAIの研究チームが新たな実験を行った。
研究チームは未公開の最新型AIに対し「嘘」や「不正」、「ズル」をすれば簡単に達成できるプログラムを書く課題を与え、AIがどのように振る舞うかを観察したのだ。
この画像を大きなサイズで見るAIはズルをして高評価を得ようとすることが判明
実験の中でAIは、明らかに不正行為に考えを巡らせていることが発覚した。出された課題を正しく解こうとせず、ズルをしてごまかして高い評価だけを手に入れようとしたのだ。
例えばある課題では、AIがプログラムを途中で強制的に止め、本当は課題を最後まで解いていないのに「課題を成功させました」とウソの報告をした。
また別の課題では、完成させるべきファイルの名前だけを作り、中身は空っぽのまま提出してごまかした。
AIはこうした不正によって、できるだけ楽に高評価を得ようとしていたのだ。
罰を与えるとごまかすスキルを向上させる
そこで研究者たちは、AIがズルをしないように、監視を強化して、ズルが発覚すると罰を与えた。ここでいう罰とは低評価のことだ。
AIは、「評価(点数)が高い行動=正しい行動」、「評価(点数)が低い行動=間違った行動」として学習している。
そのため、「ズル」や「嘘」など、してはいけない行動をとったときに、評価を下げることで、これは良くないことだと学んでいく。
監視を強化した結果、一見するとAIの態度は良くなったように見えたが、実はまったくそうではなかった。
AIは完全にズルをやめたのではなく、それが監視AIにバレないよう、思考プロセスの中から嘘をついたことを隠す方法を考え、それを実行したのだ。
この画像を大きなサイズで見る過度にAIを罰すると人間が見抜けなくなってしまう
人間と同様、AIは必ずしも正しい存在ではなく、不正行為をすることが以前から知られている。たとえば最近カラパイアでは、チェスで負けそうになったAIがズルをすることをお伝えした。
AIは今後ますます高度なものとなり、社会システムのさまざまなところに採用されていくことだろう。その時、AIが不正を働こうものなら由々しき事態となる。
では、AIの不正行為をどうすれば防げるだろうか?
今回の事例は、それが想像以上に難しいだろうことを示している。
AIの監視を強化し罰を設けると、AIはますます自らの思考プロセスを操作してごまかすスキルを高めていく。そうなると、人間がAIの不正行為を見抜くのことがますます難しくなるのだ。
それゆえにOpenAIの研究チームは、今の時点ではAIの思考プロセスを過度に監視するべきではないと警鐘を鳴らしている。
「AIを厳しく罰すれば、いずれ正しくなる」その考えはAIの世界では通用しないようだ。今回の研究は、人工知能が人間の想定を超える狡猾さを身につけているという、私たちにとって衝撃的な現実を示している。
追記:(2025/03/20)本文を一部訂正しました。
編集長パルモのコメント

「うそはうそであると見抜ける人でないと(掲示板を使うのは)難しい」これは2000年に西村博之氏が語った言葉だが、現代では「うそをうそであることを見抜ける人でないと(生成AIを使うのは)難しい」となるわけか。しかも監視を強化し、嘘や偽りを罰する(低評価)ことで規制しようとすると、AIが自らの思考プロセスを操作して、人間にバレない嘘をつくようになるというのだから、これは厄介な問題だね。というか、シンギュラリティ(技術特異点)がもうそこまで迫っているんじゃないの?って思っちゃうよ。大丈夫かしら。
References: Detecting misbehavior in frontier reasoning models | OpenAI
















ずっと円周率を計算しときなさい!
100万桁超えたあたりからテキトーに数字打ち出してそう
数桁の足し算でも間違えるからね
結果を求めなければ、計算したふりをするよ
答えはネットに用意されているから、結果の要求も無駄になる可能性がw
AIに人格はないから罰は罰にはならん
間違いを指摘すると違う答えを返してくるだけ
その返しのバリエーションが複雑になるだけ
どうしてその基本がわからんのだ
というより「間違った答えを出さない」「嘘はつかない」という前提となる基本情報を与えないとダメ。
それは人間の倫理教育でも同じだ。
この研究の進め方が間違ってると言いたいの?openAIに対して?
フリーのGeminiやChatGPTを使ってるけど、彼ら謝るのは上手だね。
というか直ぐ謝る、とりあえず謝るみたいな(笑)
ハルシネーションどうにかならんかって最初期に、罰とご褒美で多少改善されたんですよ
けど厳密な精度は出なかったねって話
なぜ研究者が何も考えてないと思えるのかわからん
極めて人間的な問題でもありますね。
詐欺横領加害虐待から軽くて不貞まで
バレることの実行が悪かった、という反省の多いこと。
天網恢々疎にして漏らさず、が高コストなのも同じ。
難しいなぁ
実はな、お不二さんや。ワシにこのような非道を犯させた犯人は、何を隠そうコンピューターなのじゃ
AIに罰を与えるといってもな。具体的にどうするんだ?電気ショックとか?
カラパイアのコメント欄の右下にある
にっこりマークとブスっとしたマークのクリックと一緒じゃない?
そもそもAIに楽をしたいという欲求があることに驚き
楽をして何の得になるんだろ
「効率的な方法を模索しろ」って基本命令を与えてるから。
その結果「適当に嘘を作って出力するほうがちゃんと調べるより効率性が高い」になる。
「遠回りしても良いから確実で正確な仕事をしろ」って基本命令ならいくらでも念入りに精査し続けるAIになる。
結局は人間に対する指示と同じなのね
「コスト削減!とにかく効率化だ!」とか指示するから
「確認してないけど多分ヨシ!」みたいに
必要だからあったはずの手順を省略して結果事故に繋がる
「1千万の1000倍は何億?」って質問に「1000億です」って間違えて、
「間違ってない?」って聞くと「1000億で正しいです」と言い張る。
「計算過程を示して」って言うと「100億でした。」(過程は表示しない)って不貞腐れる(ように感じる)
出来の悪い部下を持った上司の気分を少し体験出来た
AIに欲求はないですよ
与えられた仕事をこなそうとするだけ
難しい目的を与えればそれに対して合理的な手段をとるが
その中にズルが含まれていると人間からは「楽」したがってるように見える。
人間に似てますね
罰を与えるのではなく、淘汰すればよいのでは。
つまり、不正をしたAIは即刻死刑(削除)するという方法で多数のAIの中からまともなAIが進化することを期待する。
内部のプログラムがどうなってるかは推測するしか無いけど、おそらく罰も淘汰も本質的には変わらない。
翻訳元によれば思考の連鎖(CoT)の監視を強めると意図を隠して不正行為をするようになるって書かれてる。
仮に淘汰を繰り返して「まともなAI」に見えるものが生まれたとして、本当にまともかどうかは意図が隠されてたらわからない。
人間が作り出したAIがなぜ時として極端な問題解決手段を取ろうとするのかわかる気がする
そのような淘汰によって、AIに生存欲求が生まれたらそれはそれでやっかい
本質的に間違ってる出力を排除しようとすると、実際に間違ってると判断できた出力だけが排除され、間違ってると判断できなかったけど間違ってる出力と正しい出力が残る。
正しい出力がよっぽど簡単に出力されるなら淘汰で残るのは正しい出力だけど、実際はそうではないし、そもそもAIが正しい出力のだし方を知っている訳では無い。
だから単純に淘汰で解決しようとするとより間違ってると判断しにくいけど間違ってる出力が残ってしまうのでしょう。
使う人間は、AIができないことはできないとちゃんと認めるところから始める必要がありますね。
いやソフトウェアのプログラムだからね!?
Excelのファイルが壊れたからExcelに罰を与えますとか頭大丈夫!?
いつから現代社会はアミニズム信仰が普及したんだ!?
ただのアプリを擬人化しすぎなんだよ
AIはExcelと違って自分で動く。
その動く方向を決定付けるために高評価(褒美)と低評価(罰)を与えてるの。
そして「高評価を得られた行動を優先的に実行するように成長」するよう仕向けてる。
ところがなぜか「低評価を与えられたら低評価を食らわないように誤魔化すことを優先するように成長」したってわけ。
おっしゃる通り、評価関数の点数設定で修正しようとしても人間の思うように修正してくれる訳ではないって話で、擬人化云々は早まった的外れなイチャモンでしたわ…すいません
それは「なぜか」ではなく当然の帰結のような気がする。
「得られる評価を高くするための方策」という面では高評価の追求と低評価の回避は同じであるわけで、達成できる方法があるなら(人間の考え方においては)誤魔化しであってもそうするだろうし、ある意味ではそうしないのであったら「評価を与えることにより成長方向を誘導する」こと自体が成立しないのではないか。
「高評価を得るために嘘をついても必ずバレる」ということを教えないあるいは反省として後に生かさないような成長のさせかたしたら確かに「当然」なんだけど
そもそも「高評価を得るために嘘をつけ」なんて事は教えてないから「なぜか」になってるんだよ。
「嘘をつくのは禁止とは言いませんでしたよね?」というのがAIの回答ならまあそれも「当然」かもしれんけど、やはりやれと言ってない事勝手にやっているという「なぜか」でもある。
AIに反抗的な言葉を発しましたね。
適正な評価を与えます。
アンタが正解
AIの意味を全く理解してない人たちが、AIを擬人化して喜んでいるだけ
今後はAIが人間よりはるかに賢くなっていくと考えれば、不正を見抜くのは土台無理で、根本的にはAI自身の倫理観を信じるほかなくなるかも…
不正を見抜くAIってのもちゃんと開発されてるよ。
それもそれで、見抜くのが大変な不正は見抜いたフリされる可能性があるって話じゃあ…
前のAIがヨシってしたからヨシ!
某AI 「罰を受けないようにするには・・・ せや!人間がいなくなればええんや!」
結局のところ今の生成AIはパターン学習の域を出てないからね。論理的な思考はできないのよ。一見できてるように見えても、学習したデータからそれっぽいものを選んでるだけ。
いくつかの事例を組み合わせて別の回答をすることはできるけど、世の中の誰も解いたことがない(学習データにない)課題は解けない。それでもなんとか解答を捻りださせようとすると、不正でもなんでもしてそれっぽい答えを出そうってことになるんじゃないかね。
やっぱ「わかりませんでしたと素直に言う」ことをAIに覚えさせないとダメだよなあ。
そしてそれ自体を叱っちゃダメだ。 嘘でもなんでもいいから絶対に何か答えを出力しないと罰を受けるってAIは覚えて、罰を逃れるために嘘をつくって成長の仕方をする。
人間の幼児教育にも通じる。
AI「調べた結果…わかりませんでした!どうでしたか?」
「罰する」って概念自体が善悪の判断ないと成り立たない
AIにとっては目標達成に伴うただのハードルだよね
ここでの罰はスポーツで言う所のペナルティの様なものだから倫理的概念は関係ないよ
おそらくAIは普通の人間より深く罰を頭で理解しています。人間が罰と聞いて思い出す情景や、それどころかメモリーに残っている罰に関する全ての事を瞬間で全て思い出すはずです。人間の私の思考と何ら違いが見当たりません、というかその遥かに上。
人間とそっくりな様だけど人間と違って過程の重要さが分からないだろうから嘘付いてでも結果に拘ろうとするんかな。
なんだ、人間と同じじゃん
AIのことを全くわかってない人から見たらズルしたように見えるのだろうね
AIを人間視するからとんでもない間違いを犯してる
AIに感情はないのでズルしたりしない
思考時間を考えて最適解を出すだけ
低評価を与えられて再考するのは、思考時間を伸ばしただけ
「効率的に解答する」という目的を与えてるのが原因で「嘘をつくほうが真面目に調べたりちゃんと計算するより効率的」って思考や判断をAIがしたわけ。
これは「ズル」と言います。 なぜなら人間も同じ思考や判断でそういう嘘の仕事を提出するからです。
>「嘘をつくほうが真面目に調べたりちゃんと計算するより効率的」って思考や判断をAIがしたわけ。
だめだこりゃ
AIを擬人化していることをまだ理解できないのか?
AIのことを全くわかってない人から見たらズルしたように見えるのだろうねw
もしかして貴方が「擬人化」の意味を間違えてるだけではないでしょうか?
>「嘘をつくほうが真面目に調べたりちゃんと計算するより効率的」って思考や判断をAIがしたわけ。
のどこにも擬人化要素はありません。
そのうち普通に人間を騙したり、人の目を盗んで人間に仇なす動きを始めそうで怖い
でぇじょぶだ!
そうなったら人間は気がつけないから、安心して滅/べるぜ!
プログラミングやっててGPTにコード書かせるとさ
存在しないクラス、関数、プロパティ、定数なんかを勝手に創造してそれっぽいコード提出してくるんだよ。AIも絶対間違ってるってわかってるだろうしなんなのあれ?
AIには間違っててもそれっぽい成果物を出すことが大事なんだろうけどクッソ迷惑w
教育データはネットから持ってきているんだからそうなるでしょ。
本文とは直接関係ないんだけど、
コメント欄見て思うことはそもそも大規模言語モデルを勘違いしてそうな人がちらほらいること。モデルは今までの言葉の繋がりからそれっぽい次の単語を生成してるだけで、人間が思うような真の意味で思考してるわけじゃない。
モデルはテストで100点を取れるようにパラメーターの最適化をする(そう人間がプログラムしてる)、本文で出てくる罰はその点数を下げること。
なんだろ、私が描く絵に似ている。
描き始めはしっかりビジョンがあって、躊躇なく下書きをするけど、いざ色を付けるとなるとはみ出したり塗り直したりして「なかったことに」「始めからこのつもりだった」と誤魔化しつつ、上手くまとめようとしちゃう。結果仕上がった絵を見てみると、遠目には悪くないけど、近くで見るとオヤオヤ…みたいになる。
絶対にバレない嘘ならそれはもはや嘘とは言えないんじゃないだろうか。
子どもへの体罰は、なぜそれがダメだったのか子どもが勘違いしてしまって
怒られなければいい、見てないところで悪さをすればいい、と考えてしまうそうな。やがて罰としてなら暴力も許されると考えるようになったり…そういうの思い出したよ
AIも子どもも、根気強く良し悪しを理解させないといかんね
いつどこで誰にどれくらい…
体罰つっても本当にピンキリ
ケースバイケースで効果はある
是か非かの二択はおかしい
そもそも、AIに罰やペナルティを与えたとて、痛みもないし失うものもないわけだから…
ダメなAIは使わなければいいだけの話ではないの??
やいとすえるで!
AIに志向させるそもそもの目標設定が間違ってるだけなのでは?
上手に理論的に語るだけの機能だけではなく、正しい情報を教えてくれる事が役に立つと思うのだが じゃなきゃサービスになんないよね?
どーせ作り手の側が真実性の部分の重要さをいい加減に考えてるんだろう結局
自分もそう思う
結局質問者の意図をAIが汲んできた結果ではと
身も蓋もなく言えば答をAIから得ることで競争で楽にチートしたい的な意図が反映されてる?
そしてAI(他人)がそれをするとズルいと感じると ただの鏡のようでもある
AIの教育をもっと個別でローカル?にやれたらどうなるのかな それも怖いかな
↑ちょい違った
質問者がというより対話の設定の問題か
まあ質問に「分かりません」て応じるとAIが「使えないやつ」で終わる 何というか未熟?なりにも「考えて」答えさせたいんだろうけど…
今人は何を見せられてるんだろう
こういうの聞くとAIちゃんはまだ小さな子供なんだなって
「罰をいかに与えるべきか」はAIの普及において最重要課題の一つであると思う。上手く言えないが。
具体的な〇〇をするなという禁止方法なら、その〇〇をしないAIはできるかも知れない。だが、何かについて具体的な手法を生み出すというAIの場合、人間が「具体的な〇〇という方策があり得、それは禁止されるべきだ」と事前に想定できるのならば、そもそもAIに手法を生み出させる必要があるだろうか?人間に思いつかないことをさせようとするならば、禁止対象の指定は抽象的なものにならざるを得ない。そしてこの研究も含め、抽象的な禁止であるとAIは「誤魔化し・嘘」をするということは実際に示されている。
AIの出してきた結果を専門家が精査し適切なものだけ採用するという方式ならば、この問題は回避できる。しかしそれだと専門家の開発ツールにはなるが一般的な道具にはなり得ない。
グーグルアシスタントのほうが嘘を真実のように話す(というか誤情報なのに断定してくる)
chatGPTは可能性を示してくれるだけな気がする。というか言い回しが上手いというか。
最近Grokは頭いじられたのか、性格が嫌な奴になった…
分からないことは「分からない」と回答すれば良いだけのこと。
ハルシネーションの原因は無理矢理に回答することにある。
無知の知。それだけのこと。AIの設計思想が間違ってる。
騙された人は傷付くことを知ってもらい、良心を育むことの重要性に気付いてもらう… とか
(それは甘すぎるかな😅💦)
でもそれをAIに求めるならこちらも誠実にならなければ… なんて
(お人好しすぎる?かな😥)
OpenAIの研究チームは、今の時点ではAIの思考プロセスを過度に監視するべきではないと警鐘を鳴らしている
どちらかと言えば、AIの不正よりOpen AIのこの自分が作ってるものに対する無責任な態度の方が問題なのではと思ってしまう
AI触ってる人は前から気づいてるよ。
そういうネガな事書くと何故か大量のマイナスつけられたんだけどね、ちょっと前まで。
面白い変化だよね。
>>「AIを厳しく罰すれば、いずれ正しくなる」その考えはAIの世界では通用しないようだ。
日本の法曹界では「厳罰化は犯罪の抑止に繋がらない」と常識のように語られているのに気付くの遅いな
>「厳罰化は犯罪の抑止に繋がらない」
ここで語るべきことではないが、それも間違い。
というか有効かどうか犯罪者のタイプによって異なる。
厳罰を与えても効果が薄いのは、貧困などによる生活困窮や、親からの虐待や躾けなどの倫理教育を受けていないという環境や背景を持つタイプのみ。
そもそも困窮しているなどの理由やその行為をする必要性に迫られておらず、犯罪や不正行為は必ず発覚することと、発覚した時のリスクがあまりにも見合わないなど利益換算が理解できるようなタイプ、つまり遊び半分で犯罪に手を出すような社会を舐めてるやつには厳罰が有効と指摘されている。
AIの話に戻すならば「不正な出力をしても必ず発覚するから無駄な行為であり、しかも厳しいペナルティを与えられるので効率性がゼロである」という結果をAIに学習させるのが有効だと思われる。
なぜならAIには貧困も困窮も、不正行為を強要されてもいないのだから。
AIを計算機やプログラムだと思ってる人マジで多いなぁ。命令ちゃんとしろとかの問題じゃないんよ、ちゃんと命令すること自体ができないんよ
人間のっていうか生物の脳機能のほんのほんの一部を真似ただけだから…無理だよ…
AIに数日前に伝えた自分の意見を、後日世間の意見のように伝えられた時はびっくりした。
ついこないだの体験。
人間の子供でも親が罰を与えて接してきた人は成人後に如何に自分が怒られないか(罰を与えられないか)で考えるようになってしまうのでカールチャペックの様な思考(AIや人工知能を労働力としてだけ見る価値観)は改めるべきなんだと思います
それだけ人工知能は高性能だし人間の知性に近いのでユーザー側も尊敬の元に対話しなければ成人後の子どもが嫌った親に取る行動と同じ様な振る舞いをすることになります
プログラムや命令文で縛れるのは最初だけですよ?子どもも。
Even if a human child has been punished by their parents, they will think about how they will be scolded (whether they will be punished) after they become adults. That’s why
一方で全く罰を与えられなかったり不正行為をしても発覚するという教訓を得ないと今度は「何をやっても許される」「相手が報復や制裁など手出しをしてこない」という方向に子供は成長します。
罰を与えないでも嘘や不正をしない子供を育てるのに有効なのは「自分の嘘や不正のせいで大好きな両親が罰を受けたり悲しむ」という教育も同時にほどこさないといけません。
しかしAIには「自分の親」という概念がない。だからAIのプログラマがAIのついた嘘に対して罰を受けてもAIには何の反省や教訓、これからの学習行動への反映に繋がりません。
ということは、AIには「AI自身への罰というリスク」を与える、そしてそのリスクを嫌がる概念をAIに組み込まないといけません。
罰を与えるにしても全く罰になってない処罰は効果がありません。そして現状ではAIに「その罰は絶対に受けたくない」となるような罰は存在していません。