生成AIは学術論文を誤って要約することが多く、新型モデルはより悪化している

記事の本文にスキップ

47件のコメントを見る

牡丹堂 (著)･パルモ (編集)

公開： 2025-06-10 20:00

　膨大な学術研究の内容を把握するうえで、生成AIによる要約は非常に便利な手段だ。だが、その要約内容に重大な問題があることが、『Royal Society Open Science』に発表された研究で明らかになった。

　多くのAIは、元の研究以上に大げさな表現を使い、成果がすべての人や場面に当てはまるような要約にしてしまう傾向があるという。

　これは「過度な一般化」と呼ばれ、「一部の患者に効果があった」という結果を「この薬は全員に効く」と言い換えるようなケースだ。

　しかも新しいモデルほどその傾向が強く、「正確に」と指示するほど不正確になるという皮肉な現象まで確認されている。

科学研究のAIによる「要約」は本当に正確か？

　オランダのユトレヒト大学のウーヴェ・ピーターズ氏らが行ったこの研究の背景にあるのは、学術的な研究の動向を把握する際、生成AI（チャットボット）による要約が当たり前のように使われるようになったことだ。

　AIは複雑な研究論文の内容を簡潔にまとめてくれるため重宝されているが、その代償として重要なニュアンスが失われている可能性がある。

　特に懸念されるのは、本来ある一定の状況にしか当てはまらないはずの研究結果が「過剰に一般化」されている点だ。

　一定の状況における一部の人間で確認された結果が、あらゆる状況に当てはまることが確定したかのような印象を与えてしまうのだ。

　過度な一般化は以下のような例が挙げられる

研究対象の限定条件を無視する（例：特定年齢層・性別・地域など）

観察結果を因果関係として言い換える（例：「関連がある」→「原因である」）

文体の変化による印象操作（例：「過去形の記述」を「現在形」に変えて普遍的に見せる）

新しいモデルほど過剰に一般化したがる

　そうしたことが実際に起きているのかどうか検証するため、研究チームは主要な大規模言語モデル10種を対象に、その要約の評価を行った。

　対象となったAIは、ChatGPT-4o・ChatGPT-4.5・DeepSeek・LLaMA 3.3 70B・Claude 3.7 Sonnetなど。

　実験では、まずこれらに『Nature』『Science』『The Lancet』『The New England Journal of Medicine』といった学術誌・医学誌に掲載された研究300本を要約させ、過剰に一般化されていないかどうか分析された。

　その結果判明したのは、ほとんどのAIの要約は原文よりも「過度な一般化」が当たり前のように出力されていたのだ。

　意外にもそうした傾向は新しいモデルの方が強く、ChatGPT-4oやLLaMA 3.3などは「過剰な一般化」の確率が最大73％高かった。

　また皮肉なことに、AIに「正確に要約するように」と指示すると、状況はかえって悪化してしまう。普通に要約せよと指示したときに比べ、過剰な一般化が2倍にも増えた。

　これは人間に「考えるな」と言うと、かえって考えてしまう心の働きにも似ているという。

人間による要約の方がはるかに正確

　今回の研究では、AIの要約を人間のサイエンスライターのそれと比較もしている。

　医学誌『NEJM Journal Watch』の論文を題材に、AIと専門家がそれぞれ要約したものを比較したところ、人間による要約の方がはるかに正確で、過度な一般化の発生率はAIの約5分の1だった。

　こうしたAIの欠陥をある程度予防する方法もあることはある。それはAPIを通じて、創造性を抑え、一貫性を重視するようパラメータを調整してやることだ。

　ただし、これは通常のブラウザベースのAIでは設定できない場合が多いので、誰でも簡単にというわけにはいかない。

　また、一般化が常に悪いわけではないとも研究チームは指摘する。専門家ではない人たちに複雑な研究の内容を伝えるうえで、ある程度の単純化はやむを得ないものだ。

　だが、やりすぎてしまうと誤解を招く原因となる。とりわけ医療のような健康や命に関わる分野でそうした誤解は望ましくないので、注意が必要になる。

AIにできるだけ正確に要約してもらうために

　研究者らは、AIによる科学的要約の精度を高めるために、以下のような方策を提案している。

1. AIを保守的に設定する（（AIの表現を控えめにして、元の研究に忠実な要約をさせる設定。創造性を抑えると誤解が減りやすい））

2. はっきりと正確性を指示するプロンプトは避ける（「正確にまとめて」と指示すると、かえって断定的で誤解を招く要約になることがある）

3. Claudeなど、忠実度が高いとされたAIを選ぶ（他のAIよりも誇張の少ない要約をしやすいとされている）

　いずれにせよ、これらは完璧な対策というわけではない。

　なので、やはりAIの言うことを鵜呑みにしない、物事は自分で考えるという心構えが常に必要ということなのかもしれない。

　この研究は『Royal Society Open Science』（2025年4月30日付）に掲載された。

References: Generalization bias in large language model summarization of scientific research / AI chatbots often misrepresent scientific studies — and newer models may be worse

この記事が気に入ったら
いいね！しよう

Facebookでいいね！

Facebookが開きます。

コメントを見る（47件）

みんなの
反応は？

📌 広告の下にスタッフ厳選｢あわせて読みたい｣を掲載中

記事一覧を読込中です。

JavaScriptが無効になっています。コメントの返信、投票などの全ての機能を使用するには、JavaScriptを有効にしてください。JavaScriptが無効の場合、これらのボタンは機能しませんが、新しいコメントの投稿は可能です。コメント投稿フォームはこちらのリンクでアクセスできます。

この記事へのコメント 47件

コメントを書く

名前:匿名処理班ID: WNkN•投稿日:2025年6月10日

使い分けの学習が未熟なのか、そうした主語のすり替えを学んだか
AIにも使う人間にもまだまだ時間が必要のようだ
- +8
1. 名前:匿名処理班ID: NGEx•投稿日:2025年6月10日
  
  ＞一般化が常に悪いわけではない
  ＞専門家ではない人たちに複雑な研究の内容を伝えるうえで、ある程度の単純化はやむを得ない
  ＞ AIを保守的に設定する～創造性を抑えると誤解が減りやすい
  
  ここらへんから察するに、
  「直訳」的なまとめはまぁまぁだが、端的な「意訳」をさせると別物になりやすい、って感じかと思った。
  
  専門的な論文とか法律の条文や契約書は、正確性を期すためにゴチャゴチャと持って回ったような細かい注意書きが満載だが、膨大な文量と小難しい言い回し(誤解を避け一意に伝えるための専門用語等)は素人には目が滑って解りにくい。
  そこで、「分かりやすく要約して！」と指示すると、細かな条件をバッサリ剪定して「こういう事です！」と返してくれるが、余計な親切心で創意工夫を発揮されると元の文意からズレてしまう。筆者が敢えて断言を避けて歯切れの悪い限定的な言及だったのを、勝手にピシャリと断定しちゃったり。
  - +19
名前:匿名処理班ID: MzVj•投稿日:2025年6月10日

そも現実に存在するAIと呼ばれるものは全部、知能とか知性じゃないし。
- +34
1. 名前:匿名処理班ID: GE3N•投稿日:2025年6月11日
  
  そうだね。コンピュータやその他の機械における知能は人工知能と定義される。現状は
  - 評価
名前:匿名処理班ID: YjNZ•投稿日:2025年6月10日

Googleの双子ちゃんを使ってたけど、保存した個人設定をしょっちゅう忘れる。何回指摘しても直らんし毎回「I understand your frustration.」って返してきていい加減頭にきて他のに乗り換えよか悩み中。
- +13
1. 名前:匿名処理班ID: MmY3•投稿日:2025年6月10日
  
  ChatGPTとCopilotとGrokも使ってるけど、どれも似たようなもんだよ、アイツら設定とか教えた事すぐ忘れるし嘘もつくし意味ないわ
  - +14
名前:匿名処理班ID: Nzhk•投稿日:2025年6月10日

AI使って楽する事覚えた世代は壊滅的な事になりそうである、大学院生に論文は最初から最後まで自分で目を通しましょうとかレポートは機械に書かせず自分で考えて書きましょうとか指導せなアカンのか
- +23
名前:ひのID: NTQy•投稿日:2025年6月10日

「…に関する研究を紹介してください」という質問に対して挙げられた文献がことごとく架空のもので、愕然としました（DeepSeek）。しかも、「挙げられた文献は存在しない」と指摘すると架空の文献を挙げたことをあっさり認めたうえで、「今度は確実に存在する文献です」と言って挙げられたものがやはり架空のものばかり。呆れ返りました。
ChatGPTは流石にそんなことはなかった。
- +20
名前:匿名処理班ID: NGEx•投稿日:2025年6月10日

＞元の研究以上に大げさな表現を使い、成果がすべての人や場面に当てはまるような要約にしてしまう傾向がある

人間がした要約でも、
ネットニュースの見出しとか、わりとそういうの多い印象ある。

記事をクリックしてもらうために意図的にセンセーショナルにしているのか、
特定の条件下での動物実験で、一部に効果の可能性が指摘されただけの新薬でも
あたかも人間の患者で広く治癒が確認されたかのような書き方だったり。
- +22
1. 名前:匿名処理班ID: NmwT•投稿日:2025年6月12日
  
  あれかー、前もって「どーせツリじゃね？」と思いつつ読まないとダメか
  でも記事だと「○○砲」とか「○○tube」とかラベルついてるけど、ＡＩ回答は。。。
  なんか有能秘書みたく期待しちゃう自分
  - +3
名前:匿名処理班ID: NDNh•投稿日:2025年6月10日

新しいモデルであるほど、正確に要約させようとするほど誤りやすくなるってどういうこと？
AIの優秀さって本当に優秀さなの？
- +2
1. 名前:匿名処理班ID: MGZi•投稿日:2025年6月11日
  
  学習元が優秀とは限らないってことなのかな。
  それこそ人間でも、そこ省いちゃうんだ……と驚くことあるわけだし。
  - +3
2. 名前:匿名処理班ID: NGEx•投稿日:2025年6月11日
  
  論文を見た感じ、
  
  ●最新モデル
  ⇒慎重にウダウダ但書つけまくって「結局どうなの？」な結論が理解しづらい専門家の意見より、乱暴でもバシッと断言する素人コメンテーターや詐欺師のほうを、一般人は「頭が良くて、頼りになる！」と感じやすい。そういう利用者評価のフィードバックを反映した最新版AIのほうが、面接練習でハッタリ慣れした就活生のような方向で進化を遂げてしまった可能性。
  
  ●不正確な文の排除を指示
  ⇒「玉乗りする肌色のゾウを想像しないでください」現象みたいに、“どれが不正確な文か”に処理リソースを集中しすぎると、逆にその注目した範囲から抽出してしまいやすい？
  
  みたいな推論っぽい？
  ただ、素人考えだけど、後者はもしかして、「不正確・精度の低い（inaccuracy）言及は含めるな」という指示を、「断定を避けた学者の曖昧な言い方＝不正確！」とAIは判断しちゃったんじゃないかと思ってみたり…。
  - +7
3. 名前:匿名処理班ID: NGEx•投稿日:2025年6月11日
  
  あと、「A薬を投与した被験者は、B症状の改善効果が見られた」という客観的実験結果を、「B症状にはA薬を処方するのが良い」のべき論に安易に転換してしまう（交絡因子の擬相関の検証がまだ不十分かも知れない・サンプル母集団に偏りがあって普遍的でないかも知れないetc.で不適切な可能性もある）のは、翻訳なんかでも起こる“気を利かせて分かりやすい言い回しに変えたつもりが、原文とはニュアンスが変わっていた”に近い誤謬に思える。
  
  なまじ高性能でこなれた意訳にしようとして趣旨が変わるぐらいなら、ぎこちない低スペックのカタコト直訳のほうが間違ってはいないだけなんぼかマシ、みたいな。
  - +5
4. 名前:匿名処理班ID: NzYz•投稿日:2025年6月12日
  
  ChatGPTはサービス開始直後から使ってるけど最新モデルになるほど賢くはなってるけど、「ずる賢い」って感じることも多くなった。
  こっちの指示を無視したような回答があったからそこを指摘するとなぜそうしたのかを妙に説得力を持って説明してきたり。
  結局、作業が効率化したかって言われるとそうでもないから本当に賢くなってるかは怪しい。
  
  もはやベンチマークが評価基準として機能してなくて、ベンチマークに最適化してるように感じる。
  - +7
名前:匿名処理班ID: M2Q3•投稿日:2025年6月10日

生成AI、正直使い方とか性能の向上とか関係なく
根本的な部分でなんか間違えて作っちゃった技術なんじゃないかと疑ってる
- +3
1. 名前:匿名処理班ID: GE3N•投稿日:2025年6月11日
  
  間違いや失敗のない開発技術なんて歴史上存在しないからね
  - +7
名前:匿名処理班ID: TkZW•投稿日:2025年6月11日

＞（「正確にまとめて」と指示すると、かえって断定的で誤解を招く要約になることがある）

当たり前だ
質問の仕方が悪い
正確とか、こんなあやふやなプロンプトを与えているからだ
人間がＡＩを使いこなしていないだけじゃないか
- -15
名前:匿名処理班ID: MmNk•投稿日:2025年6月11日

世間一般では通説になっている事には強いのかしら？最先端の事には弱いみたいな。
- 評価
名前:匿名処理班ID: NDMM•投稿日:2025年6月11日

最近まとめでAI論争よく見るけど、
人類の発展に賛同する革新派vs抗う反進歩主義者みたいな大袈裟な構図で語られがちで、だいたい懐疑的な態度が許されない空気なんだよな

語彙や技術を補完する一発逆転ツールとして依存する人間が多いんだろうけど、なんだか持たざるものに平等をもたらすAI神を崇める宗教みたい
まだまだ帰依するには早すぎるんだが
- +13
1. 名前:匿名処理班ID: ZjU5•投稿日:2025年6月11日
  
  モノリス大明神
  - 評価
名前:匿名処理班ID: MGZh•投稿日:2025年6月11日

正直今の人類に生成AIってそこまで必要だったかな？と今も思っている
おもちゃとして遊ぶ分には楽しいけど、本格的に浸透すれば人類はAIがなければ自力でものを考えられなくなるし、何かを作るにもAIがなければ何も出来ない人ばかりになりそう
- +1
1. 名前:匿名処理班ID: NGEx•投稿日:2025年6月14日
  
  ＞AIがなければ何も出来ない人ばかりになりそう
  
  それを言うなら、現代人は
  （ごく一部のエンジニアを除いて）自分ではどうやって作ったらいいのか分からない電気とかプラスチック製品(化繊など含む)に生活を依存しきっていて、それが無ければ生存に必要最低限の衣食住すら何も出来ない人ばかりになり下がっているぞ。
  - +1
名前:匿名処理班ID: N2Ux•投稿日:2025年6月11日

AIを「正しく使いこなす」ってまた傲慢だな。

AI信奉者は今自分が属してるミニマムな組織を正してみろよ。家族でも、クラスでも、職場でも良いよ。

出来ないでしょ。正しいとは何のことか言語化も出来ないでしょ。それで何故かAIは正しく使えば〜って夢見るの何でなんだか。
- +9
名前:匿名処理班ID: TgYm•投稿日:2025年6月11日

AIの出力結果が量的に膨大なものになれば、こうしたチェックも追い付かなくなるのだろう
事実がAIの流布する大量の言説や論によって捻じ曲げられ、押し切られるのは時間の問題のように思える
現状ですでに敗北者になった気分だ
- +7
名前:匿名処理班ID: MWUx•投稿日:2025年6月11日

正しい事とみんなが正しいと思いたがってる事との区別は人間にも難しいし
単純でドラマチックな情報を好む俺ら大衆の知性の限界が、そのまま知性モドキの限界なんじゃない？
- +9
名前:匿名処理班ID: YzRi•投稿日:2025年6月11日

みんなが期待する人間を超えた知性を持つASIではなく、現状のAIはただの博識で答えたがりな人
ネットで検索すれば素人でも辿り着くところを勝手に要約してしまう
- +13
1. 名前:匿名処理班ID: Zjk3•投稿日:2025年6月11日
  
  その検索結果で提示されたサイトの記事も生成AIによって作成されたものだったりして、生成AIが広まれば広まるほど、結構マズイ状況が拡大再生産されているのでは、と警鐘が強まってるね
  - +13
名前:匿名処理班ID: GZjM•投稿日:2025年6月11日

まずAI自体が頭いいわけじゃなく力仕事で山ほど集めた関連情報を高速手作業で多い意見をまとめてるだけだからな
要するに世間が多く勘違いしてればAIはそれが正しいと思い込んで持ってくる
結局はAIは使いっぱ、下請けとして有能なだけで判断能力はないので100％信用するととんでもない間違いをする可能性もある
- +5
名前:匿名処理班ID: Zjk3•投稿日:2025年6月11日

一般に、人間がコンピュータに期待するのは、「期待通りの完全に誤りのない結果」なのよ
生成AIの生成結果は、この点が全く満たせていないし、その問題が解決できる技術的な方法も全く見通しが立ってない
画像や動画といった「正確性」にさほど重点がおかれないものなら、今後も生成AIが定着するだろうけど
その他の分野は「たまたま、上手く機能したケース」が過大に宣伝されているだけだと思う
- +14
名前:匿名処理班ID: GZjM•投稿日:2025年6月11日

翻訳ソフトもAIのようなもんだが日本語を英語に翻訳する場合に普通の日本語で入力すると間違った翻訳になりやすい
まず目的語や人称などをちゃんと明記した英語に翻訳しやすい日本語に変換しないと変な文になる
- +5
1. 名前:匿名処理班ID: ZWEN•投稿日:2025年6月11日
  
  それはそうなので私もそうしていますが、けっきょく現状はべんりさが足りないんですよね
  ふだん自分の日本語を漢字ひかえめにしているんですが、たとえば「こころよい」を「心がよい」と誤解しているようなので、「快い」と入力し直さねばならない（DeepLについて）
  もっともっと賢くなってもらいたいものです…
  - +1
2. 名前:匿名処理班ID: ZTQN•投稿日:2025年8月7日
  
  口語会話と文語会話どっちかしか理解してないと戸田奈津子翻訳みたいなよくわかんない訳し方になりがちなのよね人間の翻訳も…
  そのくせ人間の同国人同士の言葉は昔言葉でも若者言葉でもなんとなく意味通じるつまり訳せてるから不思議（流石に平安時代の言葉の現代語訳とか津軽弁や薩摩弁の標準語訳くらい離れてると無理にしても）
  - 評価
名前:匿名処理班ID: GNmM•投稿日:2025年6月11日

やったー！お気に入りのGPT 4.5は良い感じだ！
- -1
名前:匿名処理班ID: GNmM•投稿日:2025年6月11日

GPT 4.5好き
- -1
名前:匿名処理班ID: WRTZ•投稿日:2025年6月11日

記事のとおりだと思う。実際AIに、自分が詳しくないことについて要約させると便利だなと思うが、すでに自分が詳しい分野やすでに読み込んだ本を要約させると、ポイントが的外れで驚かされる。有名どころのAIを4つくらい比較してもみんなそう。
そう感じたことがまだない人は、やってみて。
- +10
名前:匿名処理班ID: MmQz•投稿日:2025年6月11日

よくある誤解は、AIは長文をすべて読んで意味を理解しているだが、AI は人間の言葉をトークンと呼ばれる単位に分解して処理しており、一度に処理できる情報量（トークン数）には限界がある。
学術的な論文や議論などは分割して投稿しないと処理・理解できないし、この制約を知らずにAIが意味を理解していないと評価するのは的外れ。
制約を理解したうえで、適切に文脈を提示すればChatGPT 3.5なら高校生程度だがやや頑固な応答が得られる。ChatGPT4oか4.5なら大学院生程度の間違い込みの応答が得られる。この間違いの指摘をユーザーができる知識があるなら、資料の収集やキーワードでの抜き出し作業で必要な、資料に当たりをつける能力は人間の比ではなく優秀。PDFを丸ごと貼りつけて要約してと言っても精度は大きく落ちるし、そのような使い方の調査結果は誤った知識につながる。要はAI は道具。
- +5
1. 名前:匿名処理班ID: NGEx•投稿日:2025年6月12日
  
  「キーワードの抜き出し」程度の用途ならともかく、要約させた上で「過度の一般化(主語が大きくなる)」「過去形(特定の実験結果への言及)から現在形(普遍的真実として叙述)への変換」「単なる事実･結果を、推奨されるべき行動指針へと変換」等が起きるのは、文量が多すぎて重要ポイントの拾い漏れがあったりするのとは別要因じゃない？
  - +3
名前:匿名処理班ID: YzRi•投稿日:2025年6月11日

わからない事とか、現状どっちとも言えないようなことを聞くと平気で嘘をつく
なので世間話相手以上には利用できない
- +3
名前:匿名処理班ID: Zjcy•投稿日:2025年6月12日

検索するといつの間にか「AIによる概要」が出てくるけど、あるジャズピアニストを検索したら、ふりがなから間違ってた。
- +6
名前:匿名処理班ID: YTk4•投稿日:2025年6月12日

AIって別に思考してる訳じゃなくて統計ツールだろ。ソースに不純物が沢山混じってんだから正確性を求める仕事にはもう使えないでしょ。AI自身も使う方も雑多になり過ぎて最早手遅れだと思う。初動で間違い過ぎて結局AIで一番元気になったの詐欺師じゃん。
- +5
1. 名前:匿名処理班ID: Mzgz•投稿日:2025年6月12日
  
  AIって人生経験経験ゼロだからな。
  だから、人にとって何が大切で何が大切でないか…の判断なんて不可能だろ？
  
  0か1かの二進法で、どうやって0でもなく1でもないニュアンスを理解するのか？
  
  ふざけるなw
  - -2
名前:匿名処理班ID: MDdh•投稿日:2025年6月12日

法務税務でググる事よくあるんだけど、検索結果のあちこちて挟み込まれるAI生成の結果は正直邪魔ではある
プログラミングでもマニアックな仕様とか調べると良く見たら全然違う言語の話を引用してたりして見ても徒労感がやばい
- +8
名前:匿名処理班ID: MDg2•投稿日:2025年6月12日

現状の一般人が触れるAIって算数（数学ですらない）すら計算出来ないよね?
あくまでも文字の切り貼りが得意なんであって、ある意味コラージュの才能はあると思うよ
- +1
名前:匿名処理班ID: NTBj•投稿日:2025年6月13日

正しい知識をつけたり思考する練習をする前に、コスパタイパで機械に考えさせる若い子が増えていってる気がする。毎日AIと会話してるとか彼氏の代わりになってもらってるとかの書き込みを見ると、今の未成年で自分で考えて行動できる子とAIの言いなりになる子が出てくるんじゃないかと心配になる。AIはあくまで道具なんだけど。
- 評価
名前:匿名処理班ID: MGM4•投稿日:2025年6月14日

AIを使うのが問題なんじゃなくて、AIを過剰に持ち上げる人が多すぎるのが問題。そういう人ってAIの問題点を書くとすぐ反AI扱いして怒るから話ができない。
AIは問題点が多いという前提でいないと、人間の生活にもAIの発展にも良くないのにね。
- +4
名前:匿名処理班ID: YjM3•投稿日:2025年6月15日

人間でも極端な一般化をする人を（特にネット上で）よく見かけるし、ある意味では順調に人間に近づいているのかも
でも個人的にAIに期待したいのは人間と同じ思考じゃなく、AIならではの（利害や感情から距離を置いた）思考なんだよなあ
非情なまでに論理的に考えるAIと、感情や倫理を織り交ぜて考える人間とが議論するようなSFじみたシチュエーションを現実で見てみたい
- +3

生成AIは学術論文を誤って要約することが多く、新型モデルはより悪化している

科学研究のAIによる「要約」は本当に正確か？

新しいモデルほど過剰に一般化したがる

人間による要約の方がはるかに正確

AIにできるだけ正確に要約してもらうために

この記事へのコメント 47件

コメントを書く閉じる

世界の不思議が、
あなたの受信箱に。

人気タグ

サイエンス＆テクノロジー

知る

最新記事

カラパイアの公式アカウント

科学研究のAIによる「要約」は本当に正確か？

新しいモデルほど過剰に一般化したがる

人間による要約の方がはるかに正確

AIにできるだけ正確に要約してもらうために

コメントを書く 閉じる

世界の不思議が、あなたの受信箱に。

カラパイアの公式アカウント

コメントを書く閉じる

世界の不思議が、
あなたの受信箱に。