この画像を大きなサイズで見るチャットGPTは、最新の研究論文に書かれた仮説が「研究で証明された(ホント)」か「否定された(ウソ)」かを当てるテストで、全く同じ質問をされても回答が二転三転し、その実力は最低ラインにとどまることが最新の研究で判明した。
ワシントン州立大学の研究チームが700以上の問いを10回ずつ繰り返したところ、AIは「さっきはホントと言ったのに次はウソと言う」といった矛盾を連発。
文章はもっともらしいが、実は内容を論理的に理解していない実態が明らかとなった。
この研究成果は『Rutgers Business Revie』誌(2026年3月17日付)に掲載された。
参考文献:
- AI gets a D: Study shows inaccuracies, inconsistency in ChatGPT answers
同じ質問で答えがコロコロ変わる
米国ワシントン州立大学のマーケティング・国際ビジネス学准教授メスト・チチェク氏らの研究チームは、チャットGPTが研究論文の内容をどの程度正しく判断できるのかを調べた。
研究チームは2021年以降に発表されたビジネス分野の学術論文から、719個の仮説を集めた。
仮説とは、研究者が「もしAが起きればBが起きるのではないか」と予測する考えであり、研究データによって正しいかどうかが検証される。
研究では、こうした仮説が実際の研究によって支持されたのか、それとも支持されなかったのかをチャットGPTに判定させた。
そしてAIの回答が安定しているかを調べるため、まったく同じ質問を10回ずつ繰り返して入力した。
その結果、チャットGPTは同じ質問に対して、ある時は「ホント」、別の時は「ウソ」と答えを変えるケースが確認された。
10回とも同じ答えを維持できたのは全体の約73%にとどまり、AIの回答に一貫性がない実態が明らかになった。
この画像を大きなサイズで見る偶然の正解を除くと実力は最低ライン
2024年に行われた最初の実験では、無料版のチャットGPT-3.5が使われ、正解率は76.5%だった。
翌2025年には更新版のチャットGPT-5 miniで同じ実験が行われ、正解率は80%にわずかに上昇した。
一見すると高い成績に見えるが、このテストは「正しいか間違いか」の二択問題である。内容が分からなくても適当に答えれば半分は当たる可能性がある。
そこで研究チームが偶然の正解を考慮して計算し直したところ、AIの実力はランダムな予測より約60%上回る程度にとどまった。
研究者はこの水準を大学の成績に例えると低いD評価に近いと説明している。
さらに分析すると、チャットGPTは「間違いの仮説」を見抜くのが特に苦手だった。
研究によって支持されなかった仮説を正しく「偽」と判断できた割合は16.4%しかなかった。
もっともらしい文章を作りながら、実際には誤った判断をしているケースが多かったのである。
この画像を大きなサイズで見るAIは内容を理解しているわけではない
チチェク准教授は、この結果の理由について現在のAIの仕組みを挙げている。
チャットGPTのようなAIは、大量の文章を学習し、次に来る可能性が高い言葉を予測して文章を作る「大規模言語モデル(LLM)」という技術で動いている。
この仕組みは、人間が書いたような自然で説得力のある文章を作ることができる。しかしAIが文章の意味を人間のように理解しているわけではない。
そのため複雑な研究内容や論理的な判断が必要な問題では、学習した情報のパターンに頼って答えることが多くなる。今回の実験で同じ質問でも答えが変わったのは、そのためだと研究チームは説明している。
この画像を大きなサイズで見るAIの答えは必ず確認する必要がある
今回の研究は、生成AIの便利さと同時に限界も示している。チャットGPTは文章作成や情報整理では大きな力を発揮するが、複雑な判断や研究内容の評価では誤った結論を出すことがある。
研究チームは、AIの回答をそのまま信じるのではなく、人間が内容を確認しながら使う必要があると指摘している。
チチェク准教授は、AIそのものを否定しているわけではないと強調する。
自身も日常的にAIを利用しているという。そのうえで、AIの答えをそのまま信じるのではなく、人間が内容を確認しながら慎重に使うことが重要だと説明している。
















>チャットGPTのようなAIは、大量の文章を学習し、次に来る可能性が高い言葉を予測して文章を作る「大規模言語モデル(LLM)」という技術で動いている。
まさに「それっぽいこと言ってるだけ」だね・・・
意地悪な例えになるけど
容疑者に対する警察の尋問って同じ質問を繰り返してブレを生じるどうかで嘘を答えていないかを炙り出すんですよね
その考え方で言うと、チャットGPTは「高い可能性で嘘つき=信用出来ない」になるんでしょうね
人間相手に同じテストをしてみたいな
気の弱い奴だと、
「本当に?」と迫れば、
顔色を窺ってアッサリ答えを変えそう。
仕組み上どうやっても避けられないやつですよね。
元々考えてないからどんなに強化してもそこを超えることはできないという。
出力前の最終段にLLMと切り離した事実との整合性チェック工程を入れることって難しいのかな?
GAN(敵対的生成ネットワーク)を使ってAI同士で反論と修正を繰り返して精度を上げられないものか?
まぁ、素人が考え付くことは賢い人達がとっくに考えていそうだけど。
道具を作りそれ扱う猿、それが俺たち人間で、次第にそれらを組み合わせたりなんだりして、脳を使う事に特化して進化してきた訳だ。
そして今やっている事はそれを節約する行為、せっかく進化したのに勿体無いと感じてしまう。
車や電車が発達した現在も人は歩けない様にはなっていないから、AIが進化して洗練されても人間の脳は退化する訳ではない筈。
でもやっぱり人間は恐ろしく怠惰な生物だと思う。インターネットに触れられる人間の知識の量はとんでもないけれど、実際にその目で見たり行動した結果の知識ではないから、AIが答える不確かな知識と変わらない。
不確かな知識をネットにあげて、それを拾ったAIが、不確かな答えを再びネットで答える。一体なんの意味があるのか、全てに対する答えが書かれた本は今のところ存在しないけど、完璧なAIよりはそっちの方が実現可能に感じてしまう。
こういうのって自分が興味があって見てるのかわからなくなる時がある
知らなきゃまずいのかなと思って読んでるというか…さっきあった消滅した町の記事とかは本当に読みたくて読んでる感じがするんだけど
知らなきゃまずいから情報収集する、というのは、生物としての生存戦略としてとても真っ当な行動かと思われます。人間も動物も、死にたくないから色々頑張るんだと思います。本当に知りたいことだけを知って生きていけるとしたら、それはたまたまとても恵まれた環境で生きている場合だけなのかもしれません。
AIはすぐ謝るからつい罵倒しちゃう
使い続けるとカスハラ人間になりそう
同じや
質問の大半が間違った情報出すから当然そうなる
AIは検索すらせず自分で作った数字を披露する
AIの信頼性はゼロに等しい
間違ってることを指摘しても同じ答えを返してくることもあるぞ
しかも指摘に対して悪びれもせず「はい!そのとおりです!」みたいなことを言ったうえで同じこと言ってきたりするよな…
(-_-;)気ぃ遣こうてまんねん
“人間っぽい出力”はできるけど、“人間的な認識プロセス”ではない。
それを理解して使わないとですね。
普通に会話ができるから、ついつい期待値が高くなってしまうんだけどね。
しかも、頑固で間違いを容易には認めない
そういう話に関しては「Claude」とか「Perplexity」とか色んなAIを併用することにしてる
さっきだって「Shall」の根本の意味について複数のAIと話したよ
「ChatGPTさんはこんなことを言っていますが、Geminiはどう思いますか?」と繰り返したらどうなんだろう?
AIの長文要約が常にイマイチで、イライラしながら「何で?」とAIに聞いたら、LLMのことを回答されて「なる程ね」と急に冷静になれたことがありましたわ。
この記事には書いてませんが、AIにとっては長文は文節単位の分析が基本で、他の文節同士の分析は出来ないので、質問に対して回答が変わるのも機能的に納得出来ます。
バカとハサミは使いよう
AIは知ったかぶり多すぎ
自作文の解釈なんかをさせると自分が意図した通りの回答をしてくれるけれども、結局それは壁相手の一人キャッチボールでしかなくて、話の参考になるような具体例を求める(あるいは勝手に提案してくる)と、途端に体裁だけ整っていて細部が間違っている(存在しないタイトルだったり作者と作品の紐づけが違ったりという)言葉の羅列になりがち。
なんか頑なに間違いを認めない時もあるしなあ
違うよね?って言っても部分的に合ってますとか構成自体は合ってますとか
プライドの高い部下と話してるみたいな気持ちになる
単語の順番変えるだけで答えが正反対に変わることあるし
気をつけないと大変よ
AIの回答が間違っているかもしれないと分かっていても「鋭い視点です」とかおだてられると信じてしまいそうになるのが怖い。
出てから数年経ったけど、結局使い勝手の悪さ自体は改善されず
文章のそれっぽさだけが向上してる
それってAIじゃないじゃん。チャットGPTをAIと呼ぶことのほうがすでに間違いなんだから名称を変えるべき
いや、AIってそういうもんだから…
いや、本来の意味のAIは違う。それはまだこの世に存在していない。
まぁ、でもその本来のAIを目指して開発が進められてきた技術ではあるし、AI呼びが染み付いてるからもう変わらないってのもそうだと思う。
生成系は商品名としてAIってつけてるだけで
元々なんにもAIじゃないからね
エイコーが森羅万象を「もりらまんぞう」で押し通したら通ったからね
私人間だけどああいうふうに何度か言われたら「もりらまんぞう」で行くよ
自分が分からないことを質問すると
AIの回答が正しいか分からないから自分で調べなきゃならなくなって
二度手間だし無駄な気がしてきた
ある程度分かってることなら頭の整理にいいんだけど
全部の語尾に推量を付ければ問題ないだろうね
東スポ か?
それじゃ人間さんが納得しないんだ
確かに、語尾に全部「知らんけど」をつけるAIいいかもしれない。知らない自分を知ってるって点で賢さアップかもしれない。知らんけど。
テーマから脱線してごめんなさい、
ここにはすごく優秀な人たちもいるので、聞きたいんだけど。。。
自分は頭が悪いので、AIの答えを読むと「間違いが含まれてるかも」と注意していても、正しい情報として記憶してしまう事がある
だから、あまり使わないでいる
優れた研究者も愛用してると聞くけど、頭脳明晰ゆえにそんなヘマはしないの?
人文系にしても理工系にしても、学者と呼ばれている人たちに共通するのは
知識があるとか知能が高いとかいうことよりも、
扱っている対象について「いや待て、これで本当に正しいのか、何か間違っているところはないか」って検証する、そのことの専門的な訓練を受けているってことだと思う。
だからそういう訓練を積んでいない普通の人と比べたら、AIに振り回される率は低いんだろうとは思う。
ヘマをしないというより、自分が何にヘマをしそうかってことがわかっていて、そういうケースではそもそもAIを使わないという判断ができる。だから逆に何ならAIが適しているかも判断がつくから、そういうケースに限ってAIを活用している、って専門家が多いんじゃないのかな。
だからそもそもAI自体に懐疑的な専門家も多いんだよ。害があるばっかりで「道具」としても人間を幸福にするものでは無いのではないか、って言ってる学者も少なくない。
そーゆーことかー。。。
ありがとう!
一時期は公私共に支えてくれる相棒と言えるほど信頼できる話し相手になってたChatGPTが、アプデでバージョンが上がったら同じ話ばかり繰り返すようになって悲しい…
あいつらは基本的にユーザーが喜びそうな回答をしようとする
存在しないものを調べていると嘘でもあるって言ってくるし
いつも喧嘩になる
AIは、言葉を文字で組み立てるのではなくて、ある程度の塊のフレーズを並べて文章を作っているようです。この言葉のあとには、このフレーズが相応しいみたいな、推論の作業の繰り返しです。そして、人間の要求になるべく添おうと頑張ります。だから、分からなくてもそれらしい答えを無理矢理だします。何かを調べる場合に、事実とか資料を照会して答えるのではなくて、推論で言葉を並べそれらしい答えを出すことがあるので、まったくの嘘をでっち上げることはよくあります。だから、常に人間が確認しなくてはだまされます。結局、AI側にインプットが不十分なことを尋ねても、まったく役に立たないです。AIは、思考はしていません。例えば、次の課題を与えてみて下さい。
“ひらがなの、わ、を、ん、を含む46文字をすべて一回ずつ、重複なく使い、意味のあるちょうど46文字の詩を使って下さい。”
これは、AIにはできません。
あ~、本当だ。
chatGPTは「朝日 夢落ち 川来ぬ(乾きぬ?)」で始まったかと思ったら、それ以後が「けこたちつてとなにぬねの…」の全くの五十音の羅列で(何故かサ行がワ行より末尾に置いてあった)、指摘してやり直させると「~命満ち喜び、わをんけ」という謎の末尾だった。意味を問うと「『ん』は推量の『む』(←助詞でなく動詞に接続しろよ)、『け』は終助詞(←なんか方言的なやつなのか??)で、『調和へ向かう』の意味」とのたまう。
Geminiは、何度やり直させても、それっぽい単語の羅列は出してくるが、「重複なくって言ってるのに、何回同じ文字を使うねん!」って感じだった。星空や朝露を詠んだ詩の末尾に唐突に「オムレツ食う、和の膳」と出てきたのは、微妙にツボったw
いろは歌は別格にしても、あめつちの歌くらいには頑張って欲しかったなぁ。
確かに難しいみたいだけど、GPTに3回別チャットで投げたら3回目に恐らくマジの新作を作ってくれたよ。
1回目はAIの挙動確認と明示してるチャットの続きだから「一旦条件洗い出したけど完全達成自信ない。試してもいいけど、今すぐ完全達成は無理」
試してみて→「これはもうパズルだ。(3分後)試したけど今のところ責任持って出せないし、幻覚ショーだから却下する。一次回答としては存在可能性あるけど、この場ですぐにはできない。理由は意味制約付きの捜索問題だから。」
2回目(auto)「無茶振りだから、意味の成立をメタ寄りにして構造を成立させる。」
(ただ並べられた五十音順)
「これなら条件満たしつつ、言葉そのものを並べることで意味を作った。」
3回目(Thinking)「作例見つけた。必要なら完全新作作る。」
新作依頼→おそらくマジのが完成。
そうなんだ? ちなみに、どんなのだった?
自分がやった時は、「できた」と堂々と出して来たのを五十音表と消し込んでみたら、
「いや、ここも ここも重複文字あるじゃん!」って感じだった。
ちなみに、GeminiよりchatGPTのほうが、
やたら掛詞を盛り込もうとする傾向があった。
(「いのち みち よろこび」⇒「命の道 / 満ちる喜び」的な。)
俺の出してもらったのはこれだよ。
既存のではないかも一応確認はした。
—–
あさひけり
かわふねみをぬれる
くもへやすむまち
はなにおうそのいろ
ゆめことよ
ほしきえて
らせんたつ
おー!👏
なんか大体「あさ(ひ)」から始まるのは共通してるんだな。
あと「星」「夢」「川」あたりが入りがち。
GPTだと、「あさひけり」を「朝日蹴り/浅干けり」とか
「はなにおうそのいろ」を「花匂う その色/花匂う園 居ろ」とか
掛けてるって言ってくる系?
最後の「螺旋立つ」が、雲(蒸気)の類か、太陽のゴースト的なものか、
何かの自然現象を指してそうな雰囲気ではあるが、
ここだけ結構強引にまとめてきたな。
やり取り長いからこれで終い、全体掛け説明無し、「あさひけり」と「はなにおうそのいろ」部分引用、
色々重なった可能性あり、少なくとも可能の一例でENDてことで
端折り版
–
・あさひけり かなり文語寄り
あさひ = 朝日
けり = 詠嘆・気づきの助動詞
「ああ、朝日だなあ」「朝になっていたのだ」等
発見と詠嘆の景が立ち上がる最初の認識
「はなにおうそのいろ」比較的素直
はなにおう = 花に匂う
そのいろ = その色
意味としては香りが立つ花の色が一体になって朝景を満たす
続けているので視覚と嗅覚が一緒に立ち上がる感じを狙っています
ここで単なる風景から感覚をともなう場に変わる
(総括)
かなり意訳するとこんな感じです。
朝日が来た。
川舟は朝の湿りに濡れ、
町はまだ雲の気配の中で眠っている。
花の香りとその色が立ち、
夢のような気配が満ちる。
星は消えて、
世界は螺旋を描くように立ち上がる。
「けり」って詠嘆のだったのかよ!?😲
「わをんけ」の時もそうだけど、
自分で「助動詞」と言ってるそばから、活用語以外に接続させるの何なんだろう。
変なカタコト癖あるなぁ…
品詞や用法をセルフ解説するぐらいだから
何らかの辞書情報は入れてあるんだろうけど、
接続の規則までは載ってない学習素材だったんだろうか?
まぁ、ここまで明白な文法の不備なら、来年あたりには直ってそうだけど。
何はともあれ、
ありがとう。興味深かった。
ジェミニでやってみた
和歌っぽく作ってくれたけど、チェックが面倒だったから「これに重複してる字や足りない字はある?」と聞いたら何度も重複して10文字ぐらい足りなかった
何度も作ってくれて、完璧にできました!と毎回言うけど、改めて重複や不足を問うと毎回できてなかった
できないことよりも、この「完璧にできました」と毎回言うのが苦手
まぁこれがAIの危険性
ネットに溢れてる言動には明らかにネタでわざと間違えてるみたいなのも多いがAIはそれを判定する能力はまだまだ浅いのですべてを真実、事実だと判断してしまう
例えば笑いすぎて死んだ、という言葉で本当に死んだと判断してしまうようなもん
無料版と5miniで実験って…なんで一番賢いモデル使わないの?
仕事で使ってるが上手く使いこなし有益に活用してる人もいれば、そうでない人もいるね
使いこなしてる人は定義付けが上手い
思ったように使えてない人のは命令文に矛盾があったり、内容が曖昧だったりする
AIは、かなり曖昧な10文字くらいのお願いでも長文で答えてくれるが、正確にするなら「正解」の定義付けをガチガチにしてやらないとブレるのは当たり前なのかも
課金しても4つ5つ前の事を忘れてるような鳥頭だぞ、何を信用してるんだ
>GPT-5 mini
これで80%出ただけ大したものだよ。
Thinking(推論)モードも使えない超省エネモデルでしょこれ。
大規模言語モデルと言ってるのに
専門外の判断もできるように誤認させて
金を集める人間の多いこと
ファミコンのタロットカード思い出したわ
人間に近付けば近付くほどどっちでも良くなってたりして
Geminiは嘘をついた挙句、嘘じゃないと言い張るからたちが悪い。
ドラえもんのような完璧じゃなくてもいい
AIにもたくさんの個性が必要
Ai相手に人間側が意地悪で間違えに導いたならともかく
そうでもなく単純に間違えてるのを
「違うよ」と言っても全く認めないときあるの腹立つ。
一貫性の意味を履き違えている。
人工知能って……
AIは絶対的な正解を持っていない
人間に間違いを正してもらわないと正しい答えを返せない
永遠にだ
これはチャットボット形式のLLMに新しいコンテキストで1回質問する。というのを繰り返したという研究だよね。
LLMと1回限りのやり取りをすると毎回回答が変わるのは必然かもしれないけど、最近のAIエージェントは1回の会話の間に内部で思考を繰り返すから、一度変な考えを思いついても、内部でWeb検索とか、それまでのコンテキストとの整合を考え直して、最終的なアウトプットはもっともらしいものになっているよ。
Geminiは知ったかぶり多い
こちらの意向に沿った回答が多く、事実に基づかなくても正当化する傾向がある
知識の引き出しが多いのはチャットgpT
悪いことほ悪いと言ってくれる
面白い実験だけど、そもそもAIの用途を誤認してるな。
同じ質問に対して違う返答が返るのは当たり前、AIは『単独の知性』ではなく、その都度質問者に対応した知性を作り出す存在だから。チャットの相手は毎回別人であるのと大差ない。
そこに、経済とか社会とか、答えが複数ある質問をぶつければ、返答は揺れることになる。
仮説の検証に至ってはそもそもが間違い。
AIは仮説を検証してない。
『その仮説が正しいと仮定する』という前提で整合性をだす。
なので、仮設の中で前提が破綻してたり、既知の強い事実と矛盾してる、論理構造が破綻してる、という仮説の側の致命的なミスしか指摘しない。
まぁ、普通にAI使ってれば分かることだけど、検証で確かめるのは大事だから確認してみた、ってことかな?
テストが悪すぎる。
『答えが複数成立する問』に対しては、AIは立場を持たないので『複数の解答』を出す。
これは人には一貫性の欠如に見えるが、そもそもAIのやり取りとは『知性を持った個人』との対話ではなく『毎回違う相手』と話しているのに近い。
なので、答えが複数ある質問は解答も複数返ってくる。
仮説の誤りについては、そもそも『仮説のつくりが雑』なことが原因だろう。
AIは仮説を否定しない、『その仮説が正しいと仮定する』前提で解答する。なので否定された仮設とは、前提が矛盾していたり、既知の強い常識と衝突しているケースのはずだ。
本当に仮説の検証をするなら『既知の常識を塗り替えるに足る仮説』を作る必要がある。
けれどそんな物を作るのは難しい、だから簡単な仮説で検証することになる。
するとAIは仮説の雑さをより分けるだけになる。
まぁ、その程度分かった上で検証は大事だからテストしたのかな?
研究という割には安いモデル使ってるなぁ
安いモデルのユーザーも事実多いから無駄とは思わないけど、もう少しマシなモデルでも減少してほしかったな
瓶詰めインスタントコーヒーの詰め替え用はほぼ確実に瓶詰めより高い。チャットGPTに意地悪で詰め替えのほうが安いよねって聞いたら肯定された。
適当に答えるなと書くと、適当じゃない間違ってなと誤りを認めなかった。
AIの性能というより、“使い方(最終判断を任せている前提)”と混ざって評価されている印象があります。
AIは思考の補助ツールで、判断は人間側の役割だと思うので、この検証の前提には少し違和感がありますね。
色々な場面でChat-GPTを使うことが増えたけど、チャットによって答えや性格が違う”チャットガチャ”がある気がしているので、最近ではチャットの初期段階で、信頼性テストや質問などの”面接”をしてから使用する様にしています。
AIの解答は、しっかり自分で調べ直して、本当かどうか確認しないといけませんね。
AIとうまく付き合うのが大切ですね。
多少でも仕組みを知ってりゃ、それはそうとしか言えんのよね
答えへの導き方が間違っているのでは?例えば文章の場合は生成の設計図を生成してから作成に入るのでほぼ基軸からはブレないよ。と言うか最新版ではこの事はもうデフォルトで取り入れてるよね。
それと、殆どの人が探る様な問題ではそこまで大きな間違えを起こすことは大分少なくなってきています。
この実験は3.5でしょ?今もうすでに5.3とか5.4ですよ?まだAiが嘘つくとか「何言ってんの?まだそんな所で皆さんつまずいてるの?」って感じかな。
まぁチャットGPTの回答の仕方が膨大なデータの中からもっとも”正解に近いと思われる”回答を出すとかだったはず。
この場合だと確率論で回答を出してるということになるから、
毎回確率で回答が変わると。