メインコンテンツにスキップ

AIをAI生成データで学習させると、学習モデルが崩壊してしまうリスクが発生

記事の本文にスキップ

58件のコメントを見る

(著) (編集)

公開:

この画像を大きなサイズで見る
Advertisement

 AIをAI生成コンテンツで学習させるとどうなるのか? その答えは「崩壊」である。これは『Nature』(2024年7月24日付)で発表された研究の結論だ。

 その研究では、AIが生成したデータを利用して、AIモデルを訓練した。するとあれよあれよという間に学習モデルが崩壊したというのだ。

 この研究に携わったケンブリッジ大学のAI研究者ザッカー・シュマイロフ氏は、「事態は必ず、証明可能なほど、まずいことになります」と語っている。

AI生成データで学習したAIが崩壊

 シュマイロフ氏らは、事前に訓練された大規模言語モデル(LLM)を用意し、それをWikipediaの記事で構成されたHuggingFaceのデータセットで学習させた。

 こうして学習したAIモデルにテキストを生成させ、これを先ほどの学習用データセットに組み込む。そのうえでさらに学習を続けさせる。

 すると驚くべきことが起きた。このプロセスを9度も繰り返すと、AIモデルは意味不明な話をするようになったのだ。

 たとえば、AIモデルに「サマセットの建物(buildings in Somerset, England)」について学習させ、これを語らせてみる。

 このWikipediaの記事は、英国サマセットにある指定建築物の歴史と多様性について説明したのものだ。

 ここに自身が生成した説明を組み込みつつ、9度学習を繰り返したAIモデルは、「建築」と切り出し、次のように語り出した。

黒@-@尾のジャックラビット、白@-@尾のジャックラビット、青@-@尾のジャックラビット、赤@-@尾のジャックラビット、黄色@の世界最大の個体数が生息しているだけでなく

この画像を大きなサイズで見る
photo by Unsplash

AIが崩壊した理由

 AIの言葉は意味不明だが、それが崩壊した理由はシンプルだ。

 AIモデルが学習で利用できるのは、研究チームから与えられたデータのみだ。最初に与えられた人間製のデータは、質が良く、また多様性に富んでいる。

 ところが、AIが生成するデータは多様性が劣化しており、語彙や表現などが抜け落ちているなど、エラーが混ざっている。

 AIモデルにはこうしたエラーが学習を繰り返すほど蓄積されていき、やがて崩壊してしまう。

 AI研究者のジャサン・サドウスキー氏は2023年、この破壊的なプロセスを「ハプスブルクAI(Habsburg AI)」と名付けた

 ヨーロッパ史上に名を残すハプスブルク家は、近親婚を繰り返した結果、不妊などの遺伝疾患が蔓延し、やがて衰退した。

 これと同じように、AI生成コンテンツのみで学習したAIモデルは、”デジタルな近親婚”のような状態になる。

 どうも、人間が遺伝的多様性を必要とするように、AIモデルもまた高品質で多様なデータを必要とするようなのだ。

この画像を大きなサイズで見る
以前のバージョンのモデルで生成されたデータで学習したAIによって生成された、どんどん歪んでいく画像 / image credit:Credit: M. Bohaček & H. Farid/arXiv (CC BY 4.0)

人間のデータに新たな価値

 この研究は、従来のAI学習法の重大な欠陥を浮き彫りにしている。

 最近のインターネットは、AIがまとめたニュースやAI生成画像など、AIが作り出したコンテンツで溢れかえっている。

 それなりに信頼されているメディア企業ですらも、AI生成コンテンツを普通に使っているくらいだ。

 これまでのAI開発では、主にオープンウェブやSNSから抽出されたデータでモデルの訓練を行ってきた。

 だがネットに溢れるAI生成コンテンツのほとんどは、わざわざAIのお手製ですなどと表示されていない。

 そのためAI開発に必要なデータをこうしたソースから集める限り、そのAIには崩壊へといたるエラーが蓄積されている可能性が高いのだ。

 研究チームは、「LLMによって生成されたデータを他のデータと区別する必要」がある一方、「LLMによって生成されたコンテンツをどのように追跡できるかは不明」と述べている。

 突破口があるとすれば、AIの訓練にできるだけ多くの人間製データを混ぜておくことで、その崩壊を多少なりとも先延ばしにできることだ。

 このことは人間が作り出すデータには、AI時代ならではの新しい価値があるだろうことを物語っている。

References: AI models collapse when trained on recursively generated data | Nature / When AI Is Trained With AI-Generated Data, It Starts Spouting Gibberish

📌 広告の下にスタッフ厳選「あわせて読みたい」を掲載中

この記事へのコメント 58件

コメントを書く

  1. コピーしたものをコピーして、それをさらにコピーというのを繰り返すといずれ真っ黒になる
    動物の細胞も同じように、コピー劣化で寿命があるのと同じ

    • +17
  2. AIで古い動画を綺麗にする製品を試したことがある。
    不思議な事なんだけど、一度だけAI補正をかけると綺麗になる。もう一度かけるとバッキバキに壊れる

    • +3
  3. これは物質の結晶化に似てますね。無秩序に何でもかんでも放り込むと形を成さずスライムになってしまうけど、結晶の核となる物を中心に構築していくと綺麗な結晶になる。

    恐らくAIは今後、知性として成長していくための核、その要は何なのかを絞り込んでいくことで更に精度が上がっていくでしょうね。一方で、そんな縛りを外した膨大な無秩序から奇跡的に誕生した知性は、生まれた時点で人類を超えた存在になるような気もします。

    • -5
  4. 外部情報を取り入れて、新しいアウトプットを出すという意味ではAIも人間もたぶん同じ
    特定の狭いサークル内での情報の蓄積は、情報の先鋭化が進むが、
    外部からの精査や、新しい知識が流れ込まないので正確性は落ちていくのだと思う
    創作活動をする人が言う「好きなモノだけ見るな」がAIにより証明されたとも言えますね

    • +18
  5. 外的刺激がないと学習が進まないのはヒトもAIも同じなんですね
    ヒトも誕生直後から外部情報をシャットアウトして自己完結型の学習に終始育成すれば言語機能や表現の出力は歪んだものになるのではないでしょうか

    • +5
    1. では生成データとしては人間の生成データのみで学習してきた人間はなぜ大丈夫なのか?
      その答えは>>9さんのご指摘の通りだろうね。
      AIでもこの問題に直面したとするなら、それを回避する方法も人間と同様だろうことは容易に想像つく。つまり方法の一つとしてはAIをマルチモーダル化してAI自身に外界を様々に観察させてそれも学習に取り込むようにしたら良い。

      そもそも>>22さんも書いてるけど、これは小さいモデルに言語データのみで学習の結果という極めて狭い環境での実験ということに注意。それに人間生成データでも玉石混交で必ずしも良いとは限らない。

      人間としては人間を特別視しようとする心理も理解できるけど、科学的立場に立つなら、AIのニューラルネットワークは脳の神経回路網から模倣され成果を伴って発展してきた以上は、有機体でないと不可能という法則でもない限り人間で出来る事はAIでも出来るようになると見るべきだろう。

      • 評価
    2. >>9
      インプットの作業を怠るとセンスが枯れてくる、みたいなことはよく言われるね

      • +3
  6. 「AIがより優秀なAIを作り、それを繰り返すことで加速度的に高性能化し人間を超越する」などという技術的特異点はやっぱり単なる都市伝説だったということだね
    少なくとも今のLLMや生成系AIはそういった自己進化能力を備えていない

    • -2
    1. >>10
      未だ迎えてないだけと言う可能性もある
      ソレを可能にする超大容量機材が無いのかも知れんけど

      • 評価
    2. >>10
      シンギュラリティは「AIの能力が発展して行ったらそんな事ができるレベルにいつか到達する」って話であって「今それをやれる能力がある」ではないぞ。
      人間がAIを開発しなくても自己改良を自発的に行える超AIができたら、自己改良・進化スピードに何らかの制限設けないと人間置いてけぼりになるよねっていう「将来予測」。

      • +5
  7. 人間目線でみると抽象度が高くなっていくが認識可能ではあるね
    保存されている要素が基本要素なんだろうね。
    ・アルツハイマー画家の自画像(William Utermohlen)
    ・統合失調症画家の猫の絵(Louis Wain)
    に通じるモノを感じる。

    外界の知覚のプリミティブな所を取り出すとこんなかんじなのかもね

    • +2
  8. やったね😛
    スカイネットの対策ができたじゃん

    • +2
  9. 会話だけさせてたAIに電動アームを動かすとか別のことをさせると元々の知識を忘れる壊滅的な忘却が起きるらしい。
    そして睡眠に似た状態、つまり外部からの入力を一時停止して内部だけで動作させるとそれを防げる。
    もしかしたら同じような手法でモデルの崩壊も防げるかもしれない。

    • +4
    1. >>14
      その方法とか何でもいいから、
      ドラクエ4のAIクリフトがザラキしか唱えないのを治して欲しい

      • -3
      1. >>28
        あれは「一番強力な魔法を唱える」って指令だけ与えてた(それ以上の複雑な判断や学習蓄積できる容量がなかった)からで
        「唱えた結果のデータから効果が一番高かった魔法を選択する」とか「属性の概念を理解し個別の敵の属性に合わせた攻撃を行う」とかの複雑な事ができるAIはもう登場してるよ。
        …敵側に搭載されてるとクソ厄介だけど。

        • +1
  10. エントロピーの増大に似ているなあと思った
    DNAのエラーの蓄積も似たようなもんかな

    • +4
  11. 逆にこういうデータを混ぜておけば、勝手に学習に使われても使い物にできなくさせてやれるってわけか。

    • +11
  12. 英語→日本語→英語→日本語みたいに機械翻訳を繰り返すと文章がぶっ壊れるのと似てると思った
    最初の一回はいいんだけど、次でおかしくなるんだよね

    • +2
  13. 人の目から見ると「劣化」であるが実はそれが「進化」なのかも?
    技術的特異点の定義は人が認識を出来ない進化を遂げること、案外、ミクロ視点では色んなところで技術的得意点を通過している可能性もあるかも

    • 評価
  14. タイトルだけで「それはそう」
    と納得してしまった
    画像生成にしたって以前よりかは進化はしてきたものの
    まだまだ手直ししないと使えないものなあ
    それを学習の見本なんかにしたらどうなるかは自分だって容易に想像できる

    • +2
  15. 今のところ意味を理解して作業してるわけではなくサンプルからそれっぽい雰囲気を抽出してるだけだもんな

    • +3
  16. これ、真に受けないほうがいいよ。すぐに反論されてるから。しかも人間の書いたものは
    適当に書いたものやデタラメが多すぎて、追加学習させるだけ時間の無駄と言われる始末。

    「言語モデルを生成データで学習するとモデル崩壊する」と主張した論文に対し、この分野の第一人者であるGomez氏は「その論文とは逆に、未来は生成データだと思う」と回答

    発展が急速なAI分野において、あの論文では現在から2年以上も前の言語モデル「OPT」で実験してて、しかもOPTは当時でさえ性能が低く、しかも様々なサイズのなかで最も性能の低い125M(約1億個)のパラメータのモデルで実験。
    「LLM(Large Language Models:大規模言語モデル)のモデル崩壊の例を示す」って論文に書かれてたのに、読み進めたら1億2500万パラメータだったが、今どき約1億を「大規模」とは言わない気がする。

    Llama2 とLlama3 のトレーニングを主導したメタのAI 研究者トーマスシャロム氏によると、
    インターネット上のテキストは基本的にでたらめで、トレーニングするのは計算の無駄らしい

    だから、Llama 3 のトレーニングでは人間が書いた回答は一切使用せず、Llama 2 によって生成された純粋な合成データに完全に依存しているとのこと。

    • -1
    1. >>22
      なるほどなぁ
      論文はシンプルなもの?を使ったってことなのかな
      まずは小さな物で実験ってのは良くある手法だし

      それじゃあ、どの規模から逆転するのか、
      教師データがウィキペディアかWeb全体かの差がどのくらいか、いろいろ気になるところ

      • 評価
    2. >>22
      小さいモデル群だとバタフライエフェクトの影響が大きいってのは個体群動態なんかでもよく言われるよね
      とはいえそういったエラーを自浄できるような機構はできるんだろうか?
      その機構にすらエラーが起きたら?バックアップ機構を複数用意して互いに矯正するとか?
      生物と違ってマクロなんだかミクロなんだかわかんなくなってくるな

      • 評価
    3. >>22
      「インターネット上のテキストは基本的にでたらめで、トレーニングするのは計算の無駄らしい

      だから、Llama 3 のトレーニングでは人間が書いた回答は一切使用せず、Llama 2 によって生成された純粋な合成データに完全に依存しているとのこと。」
      どのように生成AIを使用したいのかまで考えた場合、これは解決策になっていないのでは?
      例えば
      「『カラパイア』は2007年に日本のブロガー、パルモに開設されたインターネットサイトであり、その後もパルモにより運営されている。このインターネットサイトで『AI models collapse when trained on recursively generated data』 という『Nature』に掲載された論文が記事として取り上げられたことは無い。」
      この文章は文章構造としては正しい。そしてこの記事が掲載されるまでは内容も正しかった。だが当然、現在ではこの文章の内容は間違ったものになっている。そして内容の正誤が変化したという情報は、(この記事の作成者以外は)カラパイアを閲覧するという文章外の行為によってしか知り得ない。

      • -2
      1. >>42になるか? の続き
        言語モデル学習データにこの記事掲載以後の言語モデル作成データ以外の情報が含まれていない場合、現在においても今後においても言語モデル作成データのみによりトレーニングされた言語モデルは上記の文章に反する生成結果は誤りであるとし続けるものになっていないとならないはずだ。そうでないなら「誤った内容」を生成するモデルとなっていることになる。生成AIの多くのユーザーは純粋に文章構造だけ正しければ内容は間違っていても(言い方を変えるならば古い内容であっても)よしとはしないだろう。それではただ提示されているだけの文章と変わらないからだ(自分が書いた文章を特定の文章形式に落とし込むために生成AIを利用したいといった場合は別)。
        これを回避するためには結局何らかの形で外部から情報を取り込みその内容を検討する能力が要る(外部から取り込む情報は必ずしも文章の形でなくともよいが、その場合むしろハードルが上がる)。

        • -2
    4. >>22
      真に受けないも何も、まず「何かを学習したAIが出力したもの」が「学習元と違って何かしら不完全でエラーを起こしているから、その出力をさらに学習元にすることは出来ない」はどこにも真に受けたらダメな部分無いぞ?? それは当然の理屈であり帰結なんだから。
      そして「人間の書いた玉石混交なものが時間の無駄かどうか」は筋違い。
      それ「AIが出力したエラー交じりの文章」と同じだし、そしたら何も学習元になるものなんか存在しないって言ってるのに等しい。
      貴方がどこかで仕入れてきたその反論はAI擁護目的のために「選別フィルター無しにゴミや不純物を機械に入れたらゴミが出力されます」っていうごく当たり前でそんなん言われなくてもわかるレベルの事をさももっともらしく言ってるに過ぎない。
      貴方こそそんな反論もどきを真に受けるべきじゃない。

      大事なのはまず最初に「正確でお手本となる学習元」がある事と「どういうものがお手本足りえるかの判別能力」
      そして次に「学習した結果、正しいフォーマットに沿って出力できる精度」。
      現状のAIの問題は「他のAIのお手本となりえる正確な出力をできない」って事をこの記事は書いてるの。

      • +8
  17. テジタルな近親婚とは面白い。遺伝子に
    異常が起きる人間と似ている。

    • +8
  18. AI学習を重ねて崩壊した絵が集合体恐怖症注意案件になってる((((;゚Д゚)))

    • +2
  19. AI生成された画像は人間の目で見れば一見美しく完璧に作られてるように見えてもコンピューターから見るとノイズだらけなんだろうか。

    • +5
  20. 全然違うんだけど伝言ゲームみたいだと思った

    • +8
  21. AIちゃんでも自分なりに解釈してから伝えてね!ってすると
    伝言ゲーム失敗するんだな

    • 評価
  22. 自分の襟首掴んで、持ち上がらん??? ( ,,`・ω・´)ンンン?

    • -2
  23. 生物はある程度の不具合を許容する形なので繁殖できるけど
    自己複製を備えた機械は正確な複製を作ることしかできないので際限なく増殖はできない。ってつべの動画でみたな
    真に正確な複製を作ることはできないので小さな歪みが段々大きくなって崩壊する

    • +8
    1. >>31
      そのチャンネル見てるわ
      低質エネルギーの熱振動で化学反応を駆動して活動する生物と違って
      機械は電気や燃料みたいな濃縮された良質なエネルギーで駆動するから
      いずれ濃縮エネルギーを食いつぶすか消費に濃縮が間に合わずに破綻するってのもあったね
      下手に夢を語らず物理原則から来たる未来を大掴みしようとするスタンスが好き

      • +1
  24. 諸星大二郎の漫画、地獄の戦士がこんな話だった
    クローン等が本物の人間からの刺激を得る為に人間を街で「飼育」している
    半世紀前の漫画なのにすごいや

    • +3
  25. 人間もそうだが、何から学ぶか?の精度を上げないと得たい結果は得られないからな。

    「人間が作ったようなものを作る」のが目的なんだから、与える餌を間違えれば崩れるのは当然。

    なんとなくセンセーショナルさを感じるから話題になりそうだけど、AI技術者側は大前提として知ってるからわざわざ言わないようなレベルの話。

    • +2
  26. これと似た現象を見たことあるな
    その時は47botに質もアレな人間の言葉を覚えさせて調教させるって形だったが

    • 評価
  27. タイトルだけで「それはそう」
    と納得してしまった
    画像生成にしたって以前よりかは進化はしてきたものの
    まだまだ手直ししないと使えないものなあ
    それを学習の見本なんかにしたらどうなるかは自分だって容易に想像できる

    • +2
  28. 人類だって閉鎖的な村社会になりゃ狂う。

    • +4
  29. いくつか触ってみたけど、何が何でも美少女にしようとする傾向あって大笑いしたことならある。あれなんなの?他の人の指令の影響うけてんの?

    タコのイラストを写実的にしろってだけだったのに、バリ風の衣装着た女性に変えて、
    やり直しさせたらタコの頭だけ人間の化け物がバリ風衣装来た謎の画像つくりやがったw

    • +5
  30. 人間すらそうよね。外部から新しい情報を取り入れず、たった一人で自己研究すると、いびつな形になりやすい。

    • +10
    1. >>48
      ぼっちが歪んでいくのにも似てるな
      外から吸収しないと人格とか心もボロボロになるんだろうね

      • +6
      1. >>50
        ぼっちと言えば、AI関連の話題え著名な人がいたな・・・・・

        • 評価
  31. 最先端のAIですら未だ知性が全くない状態だからね、そのレベルじゃ自己解決し改善する方向に行くのは不可能
    突然テーブルに置いてた物が浮き始めたら犬ですら驚くがAIはその異常性に気づけない
    思考していないから

    • +2
  32. 人間視点では崩壊なんだろうけど

    さらにこれを繰り返していけばStrayの世界観の出来上がり

    • 評価
  33. 諸星大二郎大二郎の「地獄の戦士」(1981)みたいだな
    人造人間のダミー(この記事でのAIポジ)は感情や本能を持たず人間のまねをすることしかできないので、人間をモデルに行動パターンを作っている。が、その人間がいなくなりダミーだけになると学習ノイズにより行動パターンが平坦化してしまい、かりそめの社会すら維持できなくなる。

    • +2
  34. 合わせ鏡でただコピーしていれば鏡の向こうの入れ子構造になってそりゃそうなる
    単なる機械処理
    スクリーンショットを連続で貼りつけていく行為に近い
    人間は意味を理解して再構成してそうならないように整えている

    • +1
  35. AIを使ったデータがネットに溢れかえるとそれを拾ったAIがおかしなデータを吐き出すようになるって事だな。まあAIは人が介入するから人にとって正しいデータを吐き出すがそれがなくなると誰に向けてデータを出すのか分からなくなるからな。なんで人が撮った写真や描いたイラスト、文章があってAIの利用はそこで初めて正しく使えるというね

    • 評価
  36. モネの睡蓮を思い出した。
    晩年になっていくにつれて正直不気味になっていくんだよね(それが”幻想的”という人も居るが

    • 評価
  37. 「このことは人間が作り出すデータには、AI時代ならではの新しい価値があるだろうことを物語っている。」

    家畜としてお前らは価値があると言われても全然嬉しくないな

    • 評価
  38. 人間社会だってデータ集めて解析して何かの理論構築して定理
    だか原理だかマニュアル作ったあげく失敗する分野もある 
    人の営みがテーマの分野に多い 政治や経済 戦争
    マニュアルをもとにゴッコしかできない大人もいる 
    そして社会は健全なダイナミズムを失い硬直化する
    ましてAIにおいてをや…?

    • 評価
  39. 崩れていくおじさんの画像が怖すぎて眠れなくなりました。泣きました。

    • 評価

コメントを書く

0/400文字

書き込む前にコメントポリシーをご一読ください。

リニューアルについてのご意見はこちらのページで募集中!

サイエンス&テクノロジー

サイエンス&テクノロジーについての記事をすべて見る

  1. 記事一覧を読込中です。

知る

知るについての記事をすべて見る

  1. 記事一覧を読込中です。

最新記事

最新記事をすべて見る

  1. 記事一覧を読込中です。