ホーム jpn Meta の Llama 3.1 が Gen AI にとって進歩である 3 つの理由

Meta の Llama 3.1 が Gen AI にとって進歩である 3 つの理由

から

7月 24, 2024

Meta の Llama 3.1 405B は、現在までに最大のオープンソースの大規模言語モデルであり、マルチモーダルタスクと「ツールの使用」が可能です。その構築とトレーニングは、エンジニアリングの選択の傑作です。

メタプロパティ

火曜日のメタ公開された大規模言語モデル（LLM）ファミリーであるLlamaの最新版。同社は次のように述べている。ラマ 3.1 これは、一般的に AI コードの最大の例にのみ適用される、最初のオープンソース「フロンティアモデル」です。

Llama 3.1 には複数のサイズがあり、最大の「405B」は、そのコンピューティングの規模だけでなく (Llama 3.1 には 4050 億のニューラル「重み」、つまりパラメーターがあり、Nvidia の Nemotron 4、Google の Gemma 2、Mixtral などの著名なオープンソースモデルよりも大きい)、Meta チームが行った 3 つの選択でも注目に値します。

これら3つの決定は、ニューラルネットワークエンジニアリングの傑作であり、同社がLlama 3.1 405Bを構築しトレーニングした方法の核心です。これらはMetaの進歩を補完します。ラマ2と一緒に登場ディープラーニングの総計算予算を削減する方法を提案しました。

また： Meta の Llama 2 モデルの「剪定」は、よりスリムな AI への道を示している

(「AI モデル」とは、AI プログラムの機能の重要な要素である多数のニューラルネットパラメータとアクティベーション関数を含む AI プログラムの一部です。)

まず、Llama 3.1 405Bは、Googleが最新のクローズドソースモデルで採用している「専門家の混合」と呼ばれる手法を廃止しました。ジェミニ1.5、および Mistral が Mixtral モデルに使用しているもの。

専門家の混合により、ニューラルウェイトのさまざまな代替組み合わせが作成されます。一部のウェイトをオフにして、ウェイトのサブセットを使用して予測を行うこともできます。Meta の研究者は、「標準的なデコーダーのみのトランスフォーマーモデルアーキテクチャ」を選択しました。これは、2017 年に Google のトランスフォーマーとして初めて開発された、ほぼ普遍的な構成要素です。研究者は、これによりトレーニング中のモデルの安定性が向上すると主張しています。

また： Anthropic が Claude 3.5 Sonnet をリリースし、コラボレーションのための Artifacts を発表

2 番目に、プレーンバニラのトランスフォーマーベースモデルの結果を改善するために、Meta の研究者は、段階的にモデルをトレーニングする独創的なアプローチについて説明します。トレーニングデータの量と使用されるコンピューティングの量の両方を最適な方法でバランスさせることで、より優れた予測を生成できることはよく知られています。

として Llama 3.1の公式論文に記載されている研究者らは、モデルのサイズとトレーニングデータの量に応じて、モデルがどの程度正確に予測できるかを示す既存の「スケーリング法則」に注目しました。このアプローチでは、モデルが推論の標準化テストなどの「下流」タスクをどの程度うまく実行できるかはわかりません。

代わりに、Meta は独自のスケーリング法則を考案しました。同社は、トレーニングデータの量とコンピューティングの量の両方を徐々に増やし、複数の反復をチェックして、結果として得られるトレーニング済みモデルが下流のタスクでどの程度うまく機能するかを確認しました。

Meta は、コンピューティング強度とデータ量のさまざまな組み合わせをテストし、その組み合わせが「ダウンストリーム」ベンチマークタスクで最適なパフォーマンスに達するスイートスポットを見つけました。

メタプロパティ

「結果として得られた計算最適化モデルを使用して、ベンチマークデータセットにおけるフラッグシップモデルであるLlama 3のパフォーマンスを予測します」とMetaチームは書いています。

このアプローチには、メタの最近の研究によると、研究者は、次の単語を予測する単なる生のスコアではなく、最終的な結果に向けてモデルをトレーニングします。

Meta は、Llama 3.1 405B を広範囲にわたるトレーニング後のプロセスにかけ、人間からのフィードバックと正解の例を提示して微調整しました。

メタプロパティ

重要なのは、連続するデータと計算の組み合わせを検証する反復プロセスによって、4050億個のパラメータが最適なパラメータとして選択されるという点だ。「この観察に基づいて、最終的に4050億個のパラメータでフラッグシップモデルをトレーニングすることに決めた」と研究者らは書いている。

4,050億のパラメータを持つモデルの最終的なトレーニングは、MetaのGrand Teton AIサーバー上で実行される16,000個のNvidia H100 GPUチップで行われた。Metaは、多数のサーバーをクラスタリングして、データのバッチとニューラルウェイトを並行して実行する複雑なシステムを使用した。

また： MetaのGenAIは単純な予測から結果のチェスゲームへと移行する

3 つ目の大きなイノベーションは、モデルのトレーニングの各ラウンドの後に、同様に独創的なステップの組み合わせを実行することです。これは「ポストトレーニング」と呼ばれます。ポストトレーニングでは、事前にトレーニングされた Llama 3.1 は、まず人間の評価者が表明した好みの対象となります。これは、OpenAI などがモデルが生成する出力の種類を形成するために行っていることと似ています。

次に、Meta は人間の好みを使用して、いわゆる「教師あり微調整」でモデルを再トレーニングします。この再トレーニングでは、人間からのフィードバックで望ましい出力と望ましくない出力を区別できるようになるまで、モデルが再トレーニングされます。

メタはテクニックを使って微調整を加える今年導入されたスタンフォード大学の AI 研究者はこれを「直接選好最適化」、または DPO と呼んでいます。これは、OpenAI が普及させた「人間のフィードバックからの強化学習」の一種ですが、はるかに効率的になるように設計されています。

これらの幅広いトレーニング後のアプローチに、Meta の研究者たちはいくつかの工夫を加えています。まず、Llama 3.1 405B を「ツール」、つまり検索エンジンなどの機能を実行できる外部プログラムを使用するようにトレーニングしました。これには、API 呼び出しを呼び出して解決するプロンプトの例をモデルに入力することなどが含まれます。

Meta 社は、Llama を例に基づいて微調整することで、モデルが「ゼロショット」ツールの使用、つまりトレーニングデータで実際に示されていないツールを呼び出す能力を大幅に向上できると主張しています。

「幻覚」の蔓延を減らすために、著者らはトレーニングデータから厳選した例を抽出し、独自の質問と回答のペアを作成します。著者らはこれを使用してモデルをさらに微調整し、「モデルが知識のある質問にのみ回答し、確信のない質問には回答しないように促します」。

また： Facebook の Meta AI から逃れる方法を発見 – ただし、落とし穴がある

Meta の研究者たちは、すべての選択がシンプルさを目指したものであると特徴づけました。

「Llama 3 モデルファミリーの開発を通じて、高品質のデータ、規模、シンプルさに重点を置くことで、一貫して最良の結果が得られることがわかりました」と研究者らは述べています。「予備実験では、より複雑なモデルアーキテクチャとトレーニングレシピを検討しましたが、そのようなアプローチの利点が、モデル開発に導入される追加の複雑さを上回るとは考えられませんでした。」

確かに、このプログラムの規模は、これまで商用のクローズドソースの競合製品よりもはるかに小規模であったオープンソースモデルにとって画期的なものです。

Meta は、Llama 31.405B が大規模な商用のクローズドソースモデルに勝っている、またはそれに匹敵していることを自慢しています。

メタプロパティ

Metaの共同創設者兼CEOマーク・ザッカーバーグ賞賛された Llama 3.1を使用する経済性。「開発者は独自のインフラでLlama 3.1 405Bの推論を実行できます。[structure] 「ユーザー向けとオフラインの推論タスクの両方において、GPT-4o のようなクローズドモデルを使用する場合のおよそ 50% のコストで済みます」とザッカーバーグ氏は書いている。

ザッカーバーグ氏はまた、オープンソース AI はソフトウェアの自然な進化であると広く擁護した。同氏は、オープンソース版のおかげで初期の独自バージョンから「より先進的で安全、かつより広範なエコシステム」へと進化した Unix オペレーティングシステムと同等であると記している。

また： Meta は新しい LLaMA 3.1 でオープンソース AI に近づいています

ZDNETのスティーブン・ヴォーン・ニコルズ書くただし、Hugging Face に掲載された Meta のコードにはいくつかの詳細が省略されており、そのコードライセンスは他のオープンソースライセンスよりも制限が厳しくなっています。つまり、Llama 3.1 は、ある意味ではオープンソースですが、完全にオープンソースというわけではありません。

Llama 3.1 のオープンソース性をどの程度厳密に認識するかについては、合理的な意見の相違があるかもしれませんが、モデルのトレーニングプロセスについて非常に多くの詳細が提供されているという事実自体が、情報開示の宝庫として歓迎すべきものです。これは、OpenAI と Google がクローズドソースモデルの構築方法についてほとんど、あるいはまったく情報を共有しなくなっている現在では特に当てはまります。

もっとニュース

Meta の Llama 3.1 が Gen AI にとって進歩である 3 つの理由

返事を書く返事をキャンセル

日本人少年殺害事件後、習近平の国家主義は試練に直面

イスラエルがレバノン攻撃を開始、米英が自制求める

35年を経て『パトレイバー』は今や非常に先見の明があったように見える

爆発するポケベル攻撃がサプライチェーンのセキュリティに対する世界的な信頼を揺るがす

デュボアとジョシュア、ウェンブリーでのヘビー級対決に備える

塚田麻里奈さんは地元の人々の暮らしを作品に反映させている

大谷翔平、マイアミでの大活躍で野球史上初の50勝50敗のシーズンを記録

ゆりやんレトリィバァは日本最大の悪役であり、それを誇りに思っている

東京の公園で10代のギャングがエアガンで少年を襲う

若隆景、秋のリーダー小野里に初黒星

2024年のベストMP3プレーヤー

返事を書く 返事をキャンセル

返事を書く返事をキャンセル