ホーム jpn Meta の Llama 3.1 が Gen AI にとって進歩である 3 つの理由

Meta の Llama 3.1 が Gen AI にとって進歩である 3 つの理由

25
0


Meta の Llama 3.1 405B は、現在までに最大のオープンソースの大規模言語モデルであり、マルチモーダル タスクと「ツールの使用」が可能です。その構築とトレーニングは、エンジニアリングの選択の傑作です。

メタプロパティ

火曜日のメタ 公開された 大規模言語モデル(LLM)ファミリーであるLlamaの最新版。同社は次のように述べている。 ラマ 3.1 これは、一般的に AI コードの最大の例にのみ適用される、最初のオープンソース「フロンティア モデル」です。

Llama 3.1 には複数のサイズがあり、最大の「405B」は、そのコンピューティングの規模だけでなく (Llama 3.1 には 4050 億のニューラル「重み」、つまりパラメーターがあり、Nvidia の Nemotron 4、Google の Gemma 2、Mixtral などの著名なオープンソース モデルよりも大きい)、Meta チームが行った 3 つの選択でも注目に値します。

これら3つの決定は、ニューラルネットワークエンジニアリングの傑作であり、同社がLlama 3.1 405Bを構築しトレーニングした方法の核心です。これらはMetaの進歩を補完します。 ラマ2と一緒に登場 ディープラーニングの総計算予算を削減する方法を提案しました。

また: Meta の Llama 2 モデルの「剪定」は、よりスリムな AI への道を示している

(「AI モデル」とは、AI プログラムの機能の重要な要素である多数のニューラル ネット パラメータとアクティベーション関数を含む AI プログラムの一部です。)

まず、Llama 3.1 405Bは、Googleが最新のクローズドソースモデルで採用している「専門家の混合」と呼ばれる手法を廃止しました。 ジェミニ1.5、および Mistral が Mixtral モデルに使用しているもの。

専門家の混合により、ニューラル ウェイトのさまざまな代替組み合わせが作成されます。一部のウェイトをオフにして、ウェイトのサブセットを使用して予測を行うこともできます。Meta の研究者は、「標準的なデコーダーのみのトランスフォーマー モデル アーキテクチャ」を選択しました。これは、2017 年に Google のトランスフォーマーとして初めて開発された、ほぼ普遍的な構成要素です。研究者は、これによりトレーニング中のモデルの安定性が向上すると主張しています。

また: Anthropic が Claude 3.5 Sonnet をリリースし、コラボレーションのための Artifacts を発表

2 番目に、プレーンバニラのトランスフォーマー ベース モデルの結果を改善するために、Meta の研究者は、段階的にモデルをトレーニングする独創的なアプローチについて説明します。トレーニング データの量と使用されるコンピューティングの量の両方を最適な方法でバランスさせることで、より優れた予測を生成できることはよく知られています。

として Llama 3.1の公式論文に記載されている研究者らは、モデルのサイズとトレーニング データの量に応じて、モデルがどの程度正確に予測できるかを示す既存の「スケーリング法則」に注目しました。このアプローチでは、モデルが推論の標準化テストなどの「下流」タスクをどの程度うまく実行できるかはわかりません。

代わりに、Meta は独自のスケーリング法則を考案しました。同社は、トレーニング データの量とコンピューティングの量の両方を徐々に増やし、複数の反復をチェックして、結果として得られるトレーニング済みモデルが下流のタスクでどの程度うまく機能するかを確認しました。

Meta は、コンピューティング強度とデータ量のさまざまな組み合わせをテストし、その組み合わせが「ダウンストリーム」ベンチマーク タスクで最適なパフォーマンスに達するスイート スポットを見つけました。

メタプロパティ

「結果として得られた計算最適化モデルを使用して、ベンチマークデータセットにおけるフラッグシップモデルであるLlama 3のパフォーマンスを予測します」とMetaチームは書いています。

このアプローチには、 メタの最近の研究によると、 研究者は、次の単語を予測する単なる生のスコアではなく、最終的な結果に向けてモデルをトレーニングします。

Meta は、Llama 3.1 405B を広範囲にわたるトレーニング後のプロセスにかけ、人間からのフィードバックと正解の例を提示して微調整しました。

メタプロパティ

重要なのは、連続するデータと計算の組み合わせを検証する反復プロセスによって、4050億個のパラメータが最適なパラメータとして選択されるという点だ。「この観察に基づいて、最終的に4050億個のパラメータでフラッグシップモデルをトレーニングすることに決めた」と研究者らは書いている。

4,050億のパラメータを持つモデルの最終的なトレーニングは、MetaのGrand Teton AIサーバー上で実行される16,000個のNvidia H100 GPUチップで行われた。Metaは、多数のサーバーをクラスタリングして、データのバッチとニューラルウェイトを並行して実行する複雑なシステムを使用した。

また: MetaのGenAIは単純な予測から結果のチェスゲームへと移行する

3 つ目の大きなイノベーションは、モデルのトレーニングの各ラウンドの後に、同様に独創的なステップの組み合わせを実行することです。これは「ポストトレーニング」と呼ばれます。ポストトレーニングでは、事前にトレーニングされた Llama 3.1 は、まず人間の評価者が表明した好みの対象となります。これは、OpenAI などがモデルが生成する出力の種類を形成するために行っていることと似ています。

次に、Meta は人間の好みを使用して、いわゆる「教師あり微調整」でモデルを再トレーニングします。この再トレーニングでは、人間からのフィードバックで望ましい出力と望ましくない出力を区別できるようになるまで、モデルが再トレーニングされます。

メタはテクニックを使って微調整を加える 今年導入された スタンフォード大学の AI 研究者はこれを「直接選好最適化」、または DPO と呼んでいます。これは、OpenAI が普及させた「人間のフィードバックからの強化学習」の一種ですが、はるかに効率的になるように設計されています。

これらの幅広いトレーニング後のアプローチに、Meta の研究者たちはいくつかの工夫を加えています。まず、Llama 3.1 405B を「ツール」、つまり検索エンジンなどの機能を実行できる外部プログラムを使用するようにトレーニングしました。これには、API 呼び出しを呼び出して解決するプロンプトの例をモデルに入力することなどが含まれます。

Meta 社は、Llama を例に基づいて微調整することで、モデルが「ゼロショット」ツールの使用、つまりトレーニング データで実際に示されていないツールを呼び出す能力を大幅に向上できると主張しています。

「幻覚」の蔓延を減らすために、著者らはトレーニング データから厳選した例を抽出し、独自の質問と回答のペアを作成します。著者らはこれを使用してモデルをさらに微調整し、「モデルが知識のある質問にのみ回答し、確信のない質問には回答しないように促します」。

また: Facebook の Meta AI から逃れる方法を発見 – ただし、落とし穴がある

Meta の研究者たちは、すべての選択がシンプルさを目指したものであると特徴づけました。

「Llama 3 モデル ファミリーの開発を通じて、高品質のデータ、規模、シンプルさに重点を置くことで、一貫して最良の結果が得られることがわかりました」と研究者らは述べています。「予備実験では、より複雑なモデル アーキテクチャとトレーニング レシピを検討しましたが、そのようなアプローチの利点が、モデル開発に導入される追加の複雑さを上回るとは考えられませんでした。」

確かに、このプログラムの規模は、これまで商用のクローズドソースの競合製品よりもはるかに小規模であったオープンソース モデルにとって画期的なものです。

Meta は、Llama 31.405B が大規模な商用のクローズドソース モデルに勝っている、またはそれに匹敵していることを自慢しています。

メタプロパティ

Metaの共同創設者兼CEOマーク・ザッカーバーグ 賞賛された Llama 3.1を使用する経済性。「開発者は独自のインフラでLlama 3.1 405Bの推論を実行できます。[structure] 「ユーザー向けとオフラインの推論タスクの両方において、GPT-4o のようなクローズド モデルを使用する場合のおよそ 50% のコストで済みます」とザッカーバーグ氏は書いている。

ザッカーバーグ氏はまた、オープンソース AI はソフトウェアの自然な進化であると広く擁護した。同氏は、オープンソース版のおかげで初期の独自バージョンから「より先進的で安全、かつより広範なエコシステム」へと進化した Unix オペレーティング システムと同等であると記している。

また: Meta は新しい LLaMA 3.1 でオープンソース AI に近づいています

ZDNETのスティーブン・ヴォーン・ニコルズ 書くただし、Hugging Face に掲載された Meta のコードにはいくつかの詳細が省略されており、そのコード ライセンスは他のオープン ソース ライセンスよりも制限が厳しくなっています。つまり、Llama 3.1 は、ある意味ではオープン ソースですが、完全にオープン ソースというわけではありません。

Llama 3.1 のオープンソース性をどの程度厳密に認識するかについては、合理的な意見の相違があるかもしれませんが、モデルのトレーニング プロセスについて非常に多くの詳細が提供されているという事実自体が、情報開示の宝庫として歓迎すべきものです。これは、OpenAI と Google がクローズド ソース モデルの構築方法についてほとんど、あるいはまったく情報を共有しなくなっている現在では特に当てはまります。





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください