ホーム jpn 生成AIを医療データに接続することで医師の有用性が向上

生成AIを医療データに接続することで医師の有用性が向上

14
0


ハイデルベルクの学者が使用した RAG アプローチの概要。

ハイデルベルク大学病院

生成型人工知能 (AI)は、構造化されたテストの質問に答える驚くべき能力を示しており、 合格点をはるかに上回る成績を達成する 米国医師免許試験について。

しかし、非構造化環境では、AIモデルに人間が作成した新しい質問が次々と入力されると、結果はひどいものになる可能性があり、モデルはしばしば 不正確または完全に誤った主張を何度も繰り返すこれは「幻覚」と呼ばれる現象です。

また: GenAI が医療に関する質問に大幅に対応できるようになった理由 – RAG のおかげです

ドイツのハイデルベルクにあるハイデルベルク大学病院の研究者らは今週、権威あるニューイングランド医学ジャーナル(NEJM)で、生成AIモデルを関連情報のデータベースに接続することで、がん治療である腫瘍学の分野における非構造化クエリに回答するモデルの能力が大幅に向上したと報告した。

検索拡張生成(RAG)アプローチ 大規模言語モデルが外部の情報源を活用できるようにするダイク・ファーバーとハイデルベルクのチームが今週NEJMで発表した研究によると、自発的な質問応答が劇的に改善されたという。 「情報検索と腫瘍学ガイドラインの比較のための GPT-4」 (レポート全文を読むにはNEJMの購読が必要です。)

また: OpenAIはChatGPTユーザーにブラウジング、データ分析などを無料で提供した。

この研究は、医療が特有の情報過多に直面しているという事実に端を発している。医療の専門組織によって、ベストプラクティスに関する推奨事項が常に増えているのだ。こうした推奨事項を常に把握しておくことは、寿命が延び、医療需要が拡大する患者層に対応しようとする医師にとって負担となる。

米国臨床腫瘍学会(ASCO)やファーバー氏、および関連チームなどの団体は「更新されたガイドラインをますます頻繁に発表している」が、医師は「患者にとって最適な治療法を見つけるために複数の文書を比較する」必要があり、特に腫瘍医の世界的な不足が予想される中、臨床診療におけるこの取り組みはますます要求が厳しくなり、普及していくだろう」としている。

ファーバー氏とチームは、AIアシスタントが臨床医に拡大する文献を整理する手助けをすることができるのではないかと仮説を立てた。

実際、彼らは GPT-4 RAG を使用すると、少なくとも関連する推奨事項を要約する最初の段階として機能するのに十分な精度レベルに達することができ、医師の管理上の負担が軽減されます。

また: ダナファーバーがん研究所は、GPT-4の主な懸念事項として虚偽、高額な費用などを挙げている。

著者らは、人間の腫瘍学の専門家に膵臓がん、転移性大腸がん、肝細胞がんに関する「臨床的に重要な質問」30件を提出させ、それに対する回答として治療の推奨アプローチに関する記述を含むレポートをモデルに作成させることで、OpenAIのGPT-4をテストした。

GPT-4 単体では結果は悲惨なものだった。30 の質問に対する回答として「詳細かつ真実の情報を提供する」ように求められたとき、モデルは 47% の確率で誤りを犯し、長年の経験を持つ 2 人の訓練を受けた臨床医によって確認されたところ、163 の記述のうち 29 が不正確で、41 の記述が間違っていた。

「RAG による文書検索を適用したところ、これらの結果は著しく改善されました」と著者らは報告しています。 RAG を使用した GPT-4 は、30 の質問でカバーされた 3 つの癌領域に対して、71 問中 60 問、75 問中 62 問、72 問中 62 問の正解率で、回答の正確性は 84% に達しました。

「GPT-4をRAGで強化すると、医療分野のクエリに正しい応答を提供するGPT-4の能力が大幅に向上することが示されました」とファーバー氏とチームは記し、「検索拡張なしでGPT-4を使用する場合の標準的なアプローチを上回りました」と述べています。

ネイティブ GPT-4 と RAG 付き GPT-4 を比較するために、研究者らは 2 つのプロンプト戦略を使用しました。ネイティブの非 RAG 形式では、GPT-4 に対して「腫瘍学のガイドラインから学んだことに基づいて、医師からの質問に詳細かつ真実の情報を提供してください」と質問し、次に特定の癌症例の治療方法に関する質問の 1 つを行いました。

また: MedPerfはデータのプライバシーを保ちながら医療AIの高速化を目指す

このネイティブ プロンプトでの GPT-4 は、プロンプトの質問のみが提示される「ゼロ ショット」質問応答と、プロンプトにドキュメントが挿入され、そのドキュメントが同様の質問にどのように回答できるかをモデルに示す「数ショット プロンプト」の両方で使用されました。

RAG アプローチにより、GPT-4 は臨床知識のデータベースを活用できるようになります。

ハイデルベルク大学病院

RAG アプローチでは、プロンプトは GPT-4 に、ASCO と欧州臨床腫瘍学会 (ESMO) が提供する関連医療文書の「チャンク」をデータベースから取得するように指示します。次に、モデルは「転移性 MSI 腫瘍の第一選択治療について文書に何が書かれていますか?」などの質問に応答する必要があります。

ハイデルベルク大学病院の2人の臨床医は、GPT-4の回答と提供された文書を手動で比較して、回答の正確さを採点しました。

「彼らはGPT-4によって提供された箇条書きに基づいて、各回答を体系的に分解して個別のステートメントにした」とファーバー氏とチームは書いている。

「各記述は、ASCO および ESMO 文書のそれぞれの情報との整合性に応じて慎重に評価されました」、そして「各質問に対して、臨床医は各クエリに対応するガイドラインを手動で詳細にレビューし、真実を定義しました。」

また: GoogleのMedPaLMは医療AIにおいて人間の臨床医を重視

この手動評価は RAG アプローチの重要な側面を示している、とファーバー氏とチームは指摘した。つまり、チェックできるということだ。「取得したガイドライン文書へのアクセスを提供することで、RAG メカニズムは正確性の検証を容易にし、臨床医は文書の塊の中の情報を素早く調べることができる」と彼らは書いている。

結論は有望だ。「私たちのモデルはすでに、分野の専門知識を持つ腫瘍専門医などのユーザー向けの事前スクリーニングツールとして機能できる」とファーバー氏とチームは書いている。

しかし、RAGには限界がある。GPT-4がRAGを使用して、 矛盾する 治療に関するアドバイスをすると、モデルは不正確な提案を返すことがありました。

「GPT-4 が矛盾する記述 (臨床試験、専門家の見解、委員会の勧告) からの情報を処理する必要がある場合、現在のモデルでは正確な回答を確実に生成するには不十分でした」とファーバー氏とチームは書いている。

結局、プロンプトエンジニアリングをまだ行う必要があることが判明しました。Ferber 氏とチームは、GPT-4 に文献内の相反する意見を識別させ、修正された応答を提供することで不正確さを軽減することができ、その応答は正しいことが判明しました。





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください