ホーム jpn MetaのGenAIは単純な予測から結果のチェスゲームへと移行

MetaのGenAIは単純な予測から結果のチェスゲームへと移行

28
0


マルチトークン予測と呼ばれるものに対する Meta のアプローチの概略図。AI モデルのトレーニング中、入力は通常どおりに入力されますが、AI モデルは応答として単一のトークン (次に可能性の高い単語など) を生成するようにトレーニングされるのではなく、4 つ以上の可能性の高いトークンを同時に生成するようにモデルがトレーニングされます。

メタ

生成AIモデル GPT-4 人工知能は、多肢選択式の質問に対する回答など、思考に似たテキスト出力を生成する能力で私たち全員を驚かせてきました。しかし、質問に答えるなど「正しい」思考に到達することは、AI モデルが明らかに自信を持って誤った発言をする「幻覚」という現象からもわかるように、より深刻な問題のままです。

新しい研究で、Meta の科学者たちは、間違った答えに対するペナルティの概念を導入することで、大規模言語モデル (LLM) を微調整し、特定の状況でより正確な出力を生成できるようにしました。

また: Meta の Llama 2 モデルの「剪定」は、よりスリムな AI への道を示している

「マルチトークン予測」と呼ばれるこのアプローチは、AI モデルに、あまり望ましくない回答に対するコストを植え付けようとするものである。その意味では、これは、OpenAI が ChatGPT の最もとんでもない出力を抑制するために普及させた「人間のフィードバックからの強化学習」または RLHF などの AI のガードレールを確立するための一般的なアプローチに似ている。

(「AI モデル」は、AI プログラムの機能の重要な要素である多数のニューラル ネット パラメータとアクティベーション関数を含む AI プログラムの一部です。)

「特にコーディングのような生成ベンチマークで顕著な成果が見られ、私たちのモデルは一貫して強力なベースラインを数パーセント上回っています」と「マルチトークン予測による大規模言語モデルの高速化と改善」の著者らは書いている。主著者のファビアン・グロエックルは、Facebook AI Researchの同僚や協力機関のCERMICS École des Ponts ParisTech、LISN Université Paris-Saclayとともに、 先月、arXivプレプリントサーバーに論文を掲載した。

著者らの主な懸念は、LLM が、その素晴らしい成果にもかかわらず、推論や計画といったものを達成していないことだ。ChatGPT などの従来のアプローチは「次のトークン予測」と呼ばれており、「言語、世界知識、推論能力を獲得する方法としては依然として非効率的なままである」と著者らは書いている。

単純な次のトークン予測では、AIモデルはトークンの文字列内の単語や文字(たとえば文中の次の単語)などの単一の「トークン」を予測するようにトレーニングされますが、Metaチームのマルチトークンバージョンでは、テキストの複数のトークンを同時に予測するようにトレーニングされます。 できた シーケンスが正しく完了している必要があります。

技術的には、Gloeckle 氏のチームは、トランスフォーマーと呼ばれる LLM の基本構造を変更し、標準の単一のヘッドではなく、単語、文字、またはその他の記号をそれぞれ生成する 4 つの出力「ヘッド」を持つようにしました。

このアプローチの直接的な利点は、AI モデルが稼働してユーザーのために予測を行う (AI の推論段階と呼ばれる) ときに、メモリ効率が向上することです。複数の出力ヘッドが裏で動作して可能性を試すことができるため、高度な並列処理が可能になります。この形式の「推測的デコード」は、マルチトークン アプローチが、一度に 1 つずつ予測する場合と比べて「推論を 3 倍高速化できる」ことを意味します。

また: Metaが第2世代のAIトレーニングおよび推論チップを発表

さらに深い洞察もあります。一度に 1 つのトークンを選択する通常の AI モデルは、ある意味ではフラットです。つまり、現在の予測が適切である限り、どの予測も前回の予測よりも重要であるとは見なさないのです。

実際、研究チームは、フレーズ内の特定のトークンには大きな違いがあることを指摘している。よく引用される句読点のミーム「子アザラシ、棍棒で殴るのはやめなさい」では、中間のフレーズにコンマがあるかどうかが、動物の権利を求める切実な訴えか、面白い画像かの違いとなる。コンマによってフレーズの意味が変わるため、発話のユーモアが心に響くのだ。

他の人が指摘しているように、ポイントは「言語モデルから有用なテキストを生成するために、すべてのトークンの決定が同じように重要というわけではない」ということだ、とグロエックルのチームは書いている。「一部のトークンは、テキストの残りの部分を制限しない文体のバリエーションを許可しますが、他のトークンは、 選択ポイント テキストの高次の意味特性と結びついており、回答が有用であるかどうかを決定する可能性がある。 脱線する

また: 機械的な自動化は時代遅れ:AI がソフトウェア開発にさらなるインテリジェンスをもたらす

研究チームによれば、マルチヘッド、マルチトークンのアプローチでは、同時に行われている他の予測に基づいて各予測に適合度を割り当てる。「一般的に、テキスト生成の品質は選択ポイントで正しい決定を下すことにかかっており、nトークン予測の損失はそれを促進すると私たちは考えています」と研究チームは書いている。

「選択ポイント」とは、1 つの予測が将来的に他の予測を導き、フレーズ全体の成否を左右する可能性がある瞬間を指します。「マルチトークン予測では、トレーニング トークンが後続トークンとどの程度密接に相関しているかに応じて、暗黙的にトレーニング トークンに重みを割り当てます」と研究チームは書いています。

同様に、グロエクル氏のチームは、次の単語を選択することを迷路を進むことに例えている。つまり、それぞれの選択は報酬への道にもなり得るし、恐ろしい運命への道にもなり得るのだ。

彼らは迷路のイメージを使って「連続予測タスク」(次の単語を予測すること)を説明している。次の正しいステップは、AI モデルを正しい道に導くか間違った道に導くかの重要なステップになる可能性がある。彼らはこれを「重要な選択」と呼んでいる。

次の正しいトークンを選択することは迷路を歩くようなものだと著者は書いています。ある瞬間、選択はプログラムを成功(トロフィー)または敗北(ドクロマーク)に導く「重大な」選択となります。

メタ

著者らは、驚くべき技術の融合により、マルチトークン アプローチを RLHF アプローチにリンクさせ、はるか先の報酬を予測しようと試みています。「言語モデルが、人間のフィードバックからの強化学習のような強化学習設定で展開されていると仮定します… [where] アクションは単一のトークンである […] 引き起こす。”

このようにテキスト予測を報酬関数にリンクすると、ゲームで報酬関数が大きく進歩したすべての領域が活用されます。報酬関数は、RLHF だけでなく、強化学習と呼ばれるあらゆる種類の AI 問題で使用されます。

たとえば、Google の DeepMind 部門は強化学習を使用して、チェスと囲碁で人間に勝てるプログラム AlphaZero を開発しました。また、リアルタイム戦略ゲーム StarCraft II で人間とビデオゲームのスキル競争を行うプログラム AlphaStar でも強化学習が使用されました。

また: スノーフレークは、新しいLLMがトレーニングの半分でMetaのLlama 3を上回ると発表

このゲーミフィケーションにより、マルチトークン アプローチからより「最適な」答えがすぐに得られるようになります。著者らはさまざまなベンチマーク結果を提供しています。たとえば、70 億のニューラル パラメータ (重み) を持つ AI モデルが、単一トークン予測からマルチトークン予測に移行したときにパフォーマンスがどのように向上するかを比較しています。

「Mostly Basic Programming Problems」またはMBPPと呼ばれるテストでは、 2021年にGoogleで開発されたAI モデルは、特定の関数に対して Python の行などのコードを生成する必要があります。そのベンチマークでは、プログラムは常にマルチトークン予測でより高い精度を達成します。

スイートスポットもあります。AI モデルは 4 つのトークンが同時に存在する場合に最高のパフォーマンスを発揮するようです。一方、それ以上の数 (6 つまたは 8 つ) を予測すると、それほど良い結果は得られません。

LLM がプログラミング コードを生成する必要がある「Mostly Basic Programming Problems」などの標準化されたテストでは、70 億のニューラル パラメーターまたは重みを持つ同じサイズの AI モデルは、同時に生成されるトークンの数「n」で示されるように、より多くのトークンが生成されるほど、より高い精度を実現します。

メタ

ニューラル ネットワークの多くの事柄と同様に、マルチ トークン予測がシングル トークン予測よりも優れている理由はすぐにはわかりません。著者らが示唆しているのは、マルチ トークン予測用にモデルをトレーニングすることで、結果として得られるモデルは、ユーザーからの実際のプロンプトで AI モデルがライブ予測を行うときに発生する断絶を回避するということです。これは、「教師による強制トレーニングと自己回帰生成の間の分布の不一致」と呼ばれるものです。

また: AIで大金を稼ぐことはできるが、それは人々があなたのデータを信頼している場合に限られる

Gloeckle 氏と同僚は、解明すべきことがまだたくさんあると書いている。目標の 1 つは、最高の精度につながる最適な同時トークン数であるスイート スポットを自動化する方法を開発することだ。もう 1 つは、「マルチ トークン予測に最適な語彙サイズは、次のトークン予測の語彙サイズとは異なる可能性があり、それを調整することでより良い結果が得られる可能性がある」ことを考慮して、AI モデルをトレーニングするために必要な適切なデータ量を自動的に決定する方法だ。

より大きな教訓は、従来の強化学習が生成 AI にこれまで多くの人が予想していたよりもはるかに多くのものを提供できる可能性があることであり、今後 2 つの方法論の融合が進むことを示唆しています。





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください