ホーム jpn アマゾンはRAGを測定するための新しいAIベンチマークを提案

アマゾンはRAGを測定するための新しいAIベンチマークを提案

6
0


生成 AI の RAG 実装に対して Amazon が提案したベンチマーク プロセスの概要。

アマゾンAWS

今年は 生成型人工知能 (GenAI)は企業で普及し、 多くの観察者によるとこれが起こる可能性のある方法の1つは、 検索拡張生成 (RAG) は、AI 大規模言語モデルを、企業ファイルなどのドメイン固有のコンテンツを含むデータベースに接続する手法です。

しかし、RAG は新しい技術であり、落とし穴もあります。

また: RAG のためのスペースを確保: Gen AI のパワーバランスがどのように変化しているか

そのため、Amazon の AWS の研究者は新しい論文の中で、RAG がドメイン固有のコンテンツに関する質問にどれだけうまく答えられるかを具体的にテストする一連のベンチマークを設定することを提案しています。

「私たちの方法は、RAGシステムに最適なコンポーネントを選択するための自動化され、コスト効率が高く、解釈可能で、堅牢な戦略です」と、主著者のGauthier Guinet氏とチームは「タスク固有の試験生成による検索強化言語モデルの自動評価」という論文の中で書いています。 arXivプレプリントサーバーに投稿

この論文は、 第41回機械学習国際会議7月21日から27日までウィーンで開催されるAIカンファレンス。

ギネット氏とチームの説明によると、基本的な問題は、さまざまな大規模言語モデル (LLM) の能力を多数のタスクで比較するベンチマークは多数あるが、特に RAG の分野では、「真実性」や「事実性」など、重要な多くの品質を「タスク固有の包括的な評価」する「標準的な」測定方法が存在しないことだ。

著者らは、自動化された方法によって一定の統一性が生まれると考えています。「各タスクに関連付けられた文書コーパスに合わせて多肢選択式の試験を自動的に生成することで、私たちのアプローチは、さまざまな RAG システムの標準化された、スケーラブルで解釈可能な採点を可能にします。」

その作業に着手するために、著者らは 4 つのドメインの資料を利用して質問と回答のペアを生成しました。その 4 つのドメインとは、DevOps に関する AWS のトラブルシューティング ドキュメント、arXiv プレプリント サーバーの科学論文の要約、StackExchange の質問、および上場企業の最高規制機関である米国証券取引委員会の提出書類です。

また: 生成AIを医療データに接続することで医師の有用性が向上

次に、各LLMが正解にどれだけ近いかを評価するために、LLM用の多肢選択式テストを考案します。オープンソースLLMの2つのファミリーにこれらの試験を受けさせます。 ミストラル、同名のフランスの会社、およびメタプロパティーズの ラマ

彼らは 3 つのシナリオでモデルをテストします。1 つ目は「クローズド ブック」シナリオで、LLM は RAG データにまったくアクセスできず、事前にトレーニングされたニューラル「パラメータ」、つまり「重み」に頼って答えを出す必要があります。2 つ目は RAG の「オラクル」形式と呼ばれるもので、LLM は質問を生成するために使用された正確なドキュメント、いわゆるグラウンド トゥルースにアクセスできます。

3番目の形式は「古典的な検索」であり、モデルはさまざまなアルゴリズムを使用してデータセット全体を検索し、質問のコンテキストを探します。いくつかの一般的なRAG式が使用されます。 2019年に導入 テルアビブ大学とアレン人工知能研究所の学者、MultiQA、そして古いが BM25と呼ばれる情報検索のための非常に人気のあるアプローチ

また: Microsoft Azure が「Models as a Service」を導入、エンタープライズ生成 AI 向けの RAG サービスが強化される

その後、彼らは試験を実施し、結果を集計します。その結果は、LLMとさまざまなRAGアプローチの相対的な長所と短所に関する大量のチャートと表を埋めるのに十分なほど複雑です。著者は、教育分野でよく知られている「ブルームの分類

試験から得られるデータ ポイントよりもさらに重要なのは、実装の詳細に関係なく、RAG に当てはまる可能性がある広範な調査結果です。

1 つの大きな発見は、より優れた RAG アルゴリズムを使用すると、たとえば LLM を大きくするよりも LLM を改善できるということです。

「検索方法を適切に選択すると、単に LLM を大きくした場合よりもパフォーマンスが向上することが多い」と研究者らは書いている。

GenAI のリソース集約度が急上昇していることへの懸念を考えると、これは重要です。より少ないリソースでより多くのことができるのであれば、それは探求する価値のある道です。また、これは、スケーリングが常に最善であるという現在の AI の常識が、具体的な問題を解決することに関しては完全に真実ではないことを示唆しています。

また: クラウドストライクのCTOは、ジェネレーティブAIは企業を危険にさらす新たな攻撃ベクトルであると語る

同様に重要なのは、RAG アルゴリズムが正しく機能しない場合、RAG のないクローズドブックのプレーン バニラ バージョンと比較して LLM のパフォーマンスが低下する可能性があることを著者らが発見したことです。

「回収コンポーネントの位置がずれていると、回収をまったく行わない場合よりも精度が悪くなる可能性がある」とギネット氏とチームは述べている。





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください