ホーム jpn AIの「モデル崩壊」に注意：合成データによるトレーニングが次世代を汚染する仕組み

AIの「モデル崩壊」に注意：合成データによるトレーニングが次世代を汚染する仕組み

から

7月 29, 2024

エフゲニー・オストロシュコ/ゲッティイメージズ

尽きることのない食欲を満たすために生成型人工知能 (gen AI) データについては、研究者は近年、AI モデルのトレーニングに使用されてきた人間が作成した作品に似ているが、それ自体が AI によって作成された「合成」データを作成しようとする傾向が強まっています。

合成データの動きは、人間ベースのトレーニングデータによる著作権侵害の問題と、より優れたモデルをトレーニングするための要件が最終的に人間が生成したデータの可用性を超える可能性があるため、活発に行われています。

また： Meta の Llama 3.1 が Gen AI にとって進歩である 3 つの理由

例えば、Metaの主力オープンソースモデルであるLlama 3.1 405Bでは、同社が先週紹介された研究者らは、モデルを「微調整」し、収集した人間からのフィードバックを補足するために、合成データを広範に活用した。

しかし、落とし穴がある。オックスフォード大学の学者は警告している。権威ある科学雑誌ネイチャーの最新号このような合成データを使用して gen AI をトレーニングすると、モデルの精度が大幅に低下し、役に立たなくなる可能性があります。

オックスフォード大学の学者たちは、大規模な言語モデルの出力を後続のモデルのトレーニング計画に投入し、最終的に数世代後にモデルが意味不明な文字列を生成するようにした。

オックスフォード大学

論文の中で、主執筆者のイリア・シュマイロフ氏と彼のチームは、いわゆる「モデル崩壊」について説明し、モデルが次のモデルに偽のデータを投入するたびに、それがどのように悪化するかについて述べている。

また： Google の DeepMind AI が複雑な数学コンテストで銀メダルを獲得

「モデルの崩壊は、学習した生成モデルの世代に影響を及ぼす退化プロセスであり、生成したデータが次の世代のトレーニングセットを汚染してしまう」とシュマイロフ氏のチームは書いている。「汚染されたデータでトレーニングされると、モデルは現実を誤って認識することになる」

分布シフトとは、AI モデルの変化に伴って特定の回答の確率が変化することです。グラフでは、AI モデルの第 9 世代バージョンの曲線が左にシフトしているため、「困惑度」、つまり回答の多様性が減り、より一般的な回答が優勢になり、モデルの応答の品質が低下しています。

オックスフォード大学

具体的には、モデルは世代を重ねるごとにあまり一般的でない事実を忘れ、ますます一般的なものになっていく。そうなると、モデルが出す答えは質問とはまったく関係のないものとなり、事実上意味不明なものに変わってしまう。「モデルは時間の経過とともにあり得ない出来事を忘れ始める。モデルが現実の投影に毒されていくからだ」と研究者たちは書いている。

著者らは、この発見は「真剣に受け止めなければならない」と書いている。なぜなら、インターネットがAIモデルの出力で溢れ、再利用されるほど、世代AIは劣化の複合プロセスに陥るリスクがあるからだ。「インターネット上でコンテンツを公開するためにLLMを大規模に使用すると、後継者を訓練するためのデータ収集が汚染される。LLMと人間のやりとりに関するデータはますます価値が増すだろう」と著者らは書いている。

また： OpenAIはアプリケーションのコストを大幅に削減するGPT-4o miniを提供

この結論に至るために、著者らはMetaのオープンソースAIモデルOPT（「オープン事前トレーニング済みトランスフォーマー」）を使用して実験を行った。 2022年に導入OpenAI の GPT-3 と構造は似ていますが、はるかに小さく、ニューラルパラメータ、つまり「重み」は 1 億 2500 万個しかありません。

シュマイロフ氏のチームは、Wikipedia の記事の Wikitext2 データセットを使用して OPT を「微調整」しました。つまり、追加データを使用して再トレーニングするということです。これは、世代 AI では非常に一般的な方法です。次に、著者らは微調整された OPT を使用して、Wikitext データの合成コピーを生成し、その新しい偽データを次の微調整操作に入力しました。これは、あるモデルの出力を別のモデルの入力として使用する一種の共食いです。

著者らは、次の世代の教育のソースとして、各微調整モデルを5回使用した後に何が起こるかの例を挙げた。5世代目までに、それは完全に意味不明なものになった。同時に、彼らは、世代が進むにつれて、特定の事実の誤りがより一般的になったと書いている。「世代が進むにつれて、モデルは […] 彼ら自身のあり得ないシーケンス、つまりエラーを導入し始めます。」

以前のモデルの出力を使用してトレーニングを 5 回繰り返しただけで AI モデルが崩壊する例。

オックスフォード大学

モデルの崩壊を避けるために何ができるかを考え、著者らは論文を不吉な言葉で締めくくった。人間が作成したオリジナルのトレーニングデータを保存すること、また人間が作成した新しいデータに継続的にアクセスできるようにすることが重要だが、ジェネレーション AI からの合成データがインターネットをどんどん埋め尽くし、過去の失われたインターネットのようなものが生まれるにつれて、それを実現するのは難しくなる。

自然

彼らは、「この技術が大規模に採用される前にインターネットから収集されたデータにアクセスしたり、人間が大規模に生成したデータに直接アクセスしたりしなければ、LLM の新しいバージョンをトレーニングすることがますます困難になる可能性がある」と警告した。

雑誌の編集者は、表紙に載せたデータサイエンスの古い格言「ゴミを入れればゴミが出る」で、おそらく最も簡潔に問題を要約した。

もっとニュース

関連記事同じ著者から

主要な台湾港とエネルギー施設を打つ中国の軍事慣行

ミャンマーの致命的な地震は、軍事長官の外交の見返りをもたらします

ニール・ヤングは、彼が再び「トランプについて話す」ならば、彼の帰国を恐れます

返事を書く 返事をキャンセル

返事を書く返事をキャンセル