尽きることのない食欲を満たすために 生成型人工知能 (gen AI) データについては、研究者は近年、AI モデルのトレーニングに使用されてきた人間が作成した作品に似ているが、それ自体が AI によって作成された「合成」データを作成しようとする傾向が強まっています。
合成データの動きは、人間ベースのトレーニング データによる著作権侵害の問題と、より優れたモデルをトレーニングするための要件が最終的に人間が生成したデータの可用性を超える可能性があるため、活発に行われています。
また: Meta の Llama 3.1 が Gen AI にとって進歩である 3 つの理由
例えば、Metaの主力オープンソースモデルであるLlama 3.1 405Bでは、同社が 先週紹介された研究者らは、モデルを「微調整」し、収集した人間からのフィードバックを補足するために、合成データを広範に活用した。
しかし、落とし穴がある。オックスフォード大学の学者は警告している。 権威ある科学雑誌ネイチャーの最新号 このような合成データを使用して gen AI をトレーニングすると、モデルの精度が大幅に低下し、役に立たなくなる可能性があります。
論文の中で、主執筆者のイリア・シュマイロフ氏と彼のチームは、いわゆる「モデル崩壊」について説明し、モデルが次のモデルに偽のデータを投入するたびに、それがどのように悪化するかについて述べている。
また: Google の DeepMind AI が複雑な数学コンテストで銀メダルを獲得
「モデルの崩壊は、学習した生成モデルの世代に影響を及ぼす退化プロセスであり、生成したデータが次の世代のトレーニングセットを汚染してしまう」とシュマイロフ氏のチームは書いている。「汚染されたデータでトレーニングされると、モデルは現実を誤って認識することになる」
具体的には、モデルは世代を重ねるごとにあまり一般的でない事実を忘れ、ますます一般的なものになっていく。そうなると、モデルが出す答えは質問とはまったく関係のないものとなり、事実上意味不明なものに変わってしまう。「モデルは時間の経過とともにあり得ない出来事を忘れ始める。モデルが現実の投影に毒されていくからだ」と研究者たちは書いている。
著者らは、この発見は「真剣に受け止めなければならない」と書いている。なぜなら、インターネットがAIモデルの出力で溢れ、再利用されるほど、世代AIは劣化の複合プロセスに陥るリスクがあるからだ。「インターネット上でコンテンツを公開するためにLLMを大規模に使用すると、後継者を訓練するためのデータ収集が汚染される。LLMと人間のやりとりに関するデータはますます価値が増すだろう」と著者らは書いている。
また: OpenAIはアプリケーションのコストを大幅に削減するGPT-4o miniを提供
この結論に至るために、著者らはMetaのオープンソースAIモデルOPT(「オープン事前トレーニング済みトランスフォーマー」)を使用して実験を行った。 2022年に導入OpenAI の GPT-3 と構造は似ていますが、はるかに小さく、ニューラル パラメータ、つまり「重み」は 1 億 2500 万個しかありません。
シュマイロフ氏のチームは、Wikipedia の記事の Wikitext2 データセットを使用して OPT を「微調整」しました。つまり、追加データを使用して再トレーニングするということです。これは、世代 AI では非常に一般的な方法です。次に、著者らは微調整された OPT を使用して、Wikitext データの合成コピーを生成し、その新しい偽データを次の微調整操作に入力しました。これは、あるモデルの出力を別のモデルの入力として使用する一種の共食いです。
著者らは、次の世代の教育のソースとして、各微調整モデルを5回使用した後に何が起こるかの例を挙げた。5世代目までに、それは完全に意味不明なものになった。同時に、彼らは、世代が進むにつれて、特定の事実の誤りがより一般的になったと書いている。「世代が進むにつれて、モデルは […] 彼ら自身のあり得ないシーケンス、つまりエラーを導入し始めます。」
モデルの崩壊を避けるために何ができるかを考え、著者らは論文を不吉な言葉で締めくくった。人間が作成したオリジナルのトレーニング データを保存すること、また人間が作成した新しいデータに継続的にアクセスできるようにすることが重要だが、ジェネレーション AI からの合成データがインターネットをどんどん埋め尽くし、過去の失われたインターネットのようなものが生まれるにつれて、それを実現するのは難しくなる。
彼らは、「この技術が大規模に採用される前にインターネットから収集されたデータにアクセスしたり、人間が大規模に生成したデータに直接アクセスしたりしなければ、LLM の新しいバージョンをトレーニングすることがますます困難になる可能性がある」と警告した。
雑誌の編集者は、表紙に載せたデータサイエンスの古い格言「ゴミを入れればゴミが出る」で、おそらく最も簡潔に問題を要約した。