ホーム jpn OpenAIはChatGPTのコードミスを検知するための2番目のニューラルネットを提案

OpenAIはChatGPTのコードミスを検知するための2番目のニューラルネットを提案

6
0


CriticGPT は、ChatGPT によって作成されたコードを批評し、コード内のバグを指摘するニューラル ネット ベースの AI モデルです。

OpenAI

幻覚の問題―― 人工知能 権威があるように見せかけて虚偽を主張する(AI)モデルは、 一部の学者は結論づけている 生成 AI ではエラーを検出したり修正したりできないということです。

昨年10月に発表された論文で、グーグルのディープマインドの研究者らは 主張した 「LLM はまだ自らの推論を自己修正する能力がない」

また: AI がそんなにすごいのなら、なぜ ChatGPT はこの単純な画像編集タスクでメルトダウンしてしまうのでしょうか?

しかし、 ChatGPT 作成者 OpenAI この主張には同意できない。そして先週、同社は GPT-4CriticGPTと呼ばれるこの技術は、間違いを見つけて修正することで、モデル全体の精度を向上させることができると主張している。

この結果は、AI の支援を受けてコードをクリーンアップする人間のチームにとって励みになる。しかし、この結果は、支援するボットによる幻覚を回避することはできないことも示唆している。

また: 生成 AI は独自のエラーを見つけることができません。より優れたプロンプトが必要ですか?

CriticGPT の設定はプログラミング コードの記述です。研究者は、CriticGPT を、ChatGPT が生成したコードで間違いを犯した場合をキャッシュする 2 番目のニューラル ネットとして提案しています。

彼らがコード作成に注力しているのは、彼らの言葉を借りれば、コンピュータコードは「明快」であり、正しい答えと間違った答えが明確だからだ。また、OpenAI は組織として、生成 AI を「調整研究アシスタント」として使用し、新興技術のガードレールの確立の一部を自動化したいと考えている。コード作成はすでに生成 AI の大きなユーザーであるため、追い求める価値のあるターゲットである。

arXivプレプリントサーバーに投稿された論文では、「LLM 批評家が LLM のバグ発見に貢献「これは、人間が現実世界のRLHFデータ内の問題をより包括的に発見するのに役立つ、シンプルでスケーラブルな監視方法の初の実証である」と、OpenAIの主執筆者ナット・マッカリース氏とその同僚は説明しています。

RLHF (人間からのフィードバックによる強化学習) とは、チャットボットに人間からの応答をさせて、その出力をより受け入れやすくするというよく知られた手法を指します。これは、OpenAI などが望ましくない動作を防ぐために確立したガードレールの 1 つです。

この場合、CriticGPT は、CriticGPT が生成したプログラミング コードの批評をレビューする契約プログラマーのフィードバックを受けます。人間は、生成された批評の関連性、特異性、包括性などを評価します。CriticGPT は、人間のフィードバックに基づいて批評を改良し、より高い承認スコアに近づくようにトレーニングされます。

また: AIは私たちに嘘をついているのか?研究者たちはそれを調べるためにLLM嘘発見器のようなものを作った。

しかし、マッカリース氏とチームはさらに一歩踏み込んだ。彼らは、人間の請負業者に故意に間違いを挿入させることで、CriticGPT がレビューするコードに意図的にバグを仕込んだのだ。研究者たちは、請負業者にバグを説明してもらい、CriticGPT がその説明を吸収して、バグと説明を関連付けることを学習することを望んでいた。

CriticGPT が、既知のバグについて人間の請負業者が書いた内容に近いバグの説明を生成することで、改善されるだろうと期待されていました。

McAleese 氏とチームは、トレーニングの結果、ChatGPT は人間のコードレビュー担当者よりも多くのバグを発見できると書いている。CriticGPT は「挿入されたバグの検出率を大幅に向上させ、LLM 批評家 (プロンプト付き ChatGPT と CriticGPT) の両方が人間の注釈者よりも多くのバグを検出します」と彼らは書いている。

彼らは、人間の請負業者でさえ、コード分析で機械が生成したものを、他の人間が書いたものよりも好むと指摘しています。

「総合評価によると、請負業者は、CriticGPT によって書かれた批評を、ChatGPT によって指示された批評や、請負業者のグループから提供された人間が書いた批評よりも大幅に好んでいます。」

AI モデルは、人間の請負業者がバグ批評をより豊かにするのに役立ちます。これは、AI が人間を補強する一種の結果であり、誰もが満足するはずです。「人間 + CriticGPT チームは、人間だけの場合よりも大幅に包括的な批評を作成し、CriticGPT は、人間が検出したバグと挿入したバグの両方で ChatGPT よりも包括性を向上させます。」

著者らは次のように書いている 関連ブログ記事「CriticGPT の提案は常に正しいとは限りませんが、AI の助けがない場合よりも、モデルで記述された回答によってトレーナーがより多くの問題を検出できることがわかりました。」

また: AIはコーディングできるか?まだほんの一歩

しかし、落とし穴があります。ChatGPT やさまざまな AI モデルが誤った記述を「幻覚」する可能性があるのと同様に、CriticGPT も存在しないバグを識別できると主張できることが判明しました。

「しかし、細かい点にこだわりすぎたり、幻覚的なバグが発生する割合は、人間よりもモデルの方がはるかに高いことがわかった。ただし、CriticGPT は ChatGPT よりもこの割合を大幅に削減できる」と研究者らは書いている。

CriticGPT は人間のコード内のバグを幻覚します。

OpenAI

それはジレンマです。AI モデルがバグをうまくキャッチできればできるほど、バグを幻覚しているように思われるようになります。「残念ながら、批評を使用してモデルのパフォーマンスを向上させる全体的な RLHF システムにとって、幻覚とバグ検出の間の適切なトレードオフが何であるかは明らかではありません。」

そして、妥協点を見つけるのは簡単ではないと彼らは指摘する。「理想的な実験では、精度/再現率のポイントごとに、批評を強化した RLHF データ収集ループをまったく別々に実行することになるが、これは非常に高価である」からだ。

この危機に際して、McAleese 氏とチームは妥協案を思いつきました。Force Sampling Beam Search は、CriticGPT の批評のうち最も価値のあるものを引き出すと同時に、誤った批評の数を最小限に抑えようとします。

OpenAI のアプローチの潜在的な落とし穴の 1 つは、Critic GPT のトレーニングが人間による意図的なバグの挿入に基づいていることです。McAleese 氏とチームは、このアプローチは自然な LLM エラーの分布とは異なると書いています。

「(バグを挿入するために人間にお金を支払うのではなく)微妙な分布内問題を挿入するようにモデルをトレーニングすると、この懸念を軽減できる可能性がありますが、そのような方向性は将来の研究に残します。」

また: AIトレーナーから倫理学者まで:AIは一部の仕事を廃止するかもしれないが、新しい仕事を生み出すかもしれない

したがって、問題は常に、人間の助けを借りずに自動化をどのようにブートストラップするかということを中心に展開されます。

もう 1 つの問題 (著者らは言及していない) は、OpenAI のすべてのものと同様に、新しい CriticGPT モデルもそのトレーニング データも公開されていないことです。すべてが非公開で、調査用のソース コードはなく、他の人がダウンロードできるデータ セットもありません。この非公開性により、外部の倫理またはセキュリティの専門家が CriticGPT モデルによる修正を精査する方法はほとんど、またはまったくありません。

OpenAI の外部からの監視がなければ、監視者を誰が監視するのか、ということわざがあります。





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください