ホーム jpn AIは編集できない:ChatGPTが私の単純な画像タスクで滑稽なほど失敗した理由

AIは編集できない:ChatGPTが私の単純な画像タスクで滑稽なほど失敗した理由

6
0


ChatGPT と Tiernan Ray/ZDNET によって作成

現在の最先端技術 人工知能 (AI) はマルチモーダル モデルであり、テキストだけでなく、画像、場合によってはオーディオやビデオなどの他のモダリティでも動作できます。

また: ChatGPTの5つの設定を変更して、生産性を即座に向上させました

例えば、これは簡単な作業です OpenAI の ChatGPT 「スプーンに恋するナプキンの画像を作ってください」などのテキストプロンプトから画像を生成します (上記)。

別のプロンプトを使用すると、ChatGPT は描画を簡略化し、詳細度の低い画像を作成できます。

ChatGPT と Tiernan Ray/ZDNET によって作成

しかし、ChatGPT や、その他の AI モデルは、ツールによって作成されていない特定の画像を変更するよう要求されると、現在、失敗します。GPT-4o モデルを使用する ChatGPT は、プログラムが一生懸命に努力しているかのように応答するため、最も興味深い失敗です。

また: 生成型AIは、人間の思考の非常に一般的な能力を欠いている。

他のAIモデルは、 Googleのジェミニアントロピックのクロード、さらにアプリ 困惑 そして マイクロソフトのコパイロット (GPT-4 も実行) は、単にタスクの実行を拒否したために失敗しました。

このプロジェクトは、地下鉄で一緒に座ってiPhoneを見ている2人の絵を描いたことから始まりました。これは、 iPad Concepts 描画アプリを使用します。これが描画です:

Tiernan Ray が iPad で描いた / ZDNET

私は iOS 上の ChatGPT アプリに図面をアップロードし、「この図面を簡略化する方法はありますか?」というプロンプトを入力しました。

ChatGPT はいくつかの妥当な提案を返して、状況に応じて適切な応答を見つける能力を示しました。たとえば、ボットは次のように提案しました。「細かい部分を削除する: 複雑な髪の毛や衣服の細かいしわなどの細かい部分を削除します。」

それはかなり良い提案です。出力は、モデルが画像内の要素を正確に認識する能力があることも示しています。つまり、モデル内では、画像の内容を識別できるようにする何かが起こっているのです。

また: GeminiとGPT-4にディープラーニングAIの説明を依頼したところ、Geminiが圧勝した

すると ChatGPT が「図面の簡易版を作成しませんか?」と尋ねてきました。とても興味深かったので、「はい、お願いします」と答えました。

しかし、ボットの出力(チャット スレッド内の画像)は、私の画像の正確なコピーであり、簡略化も変更もされていませんでした。ご自身で判断してください。

ChatGPT と Tiernan Ray/ZDNET によって作成

「見た目は何も変わっていませんね」と私は ChatGPT に返信し、出力についてコメントしました。

しかしその後、ChatGPT は、映画「2001 年宇宙の旅」で宇宙飛行士のデイブ・ボーマンが HAL の回路を取り外したときのコンピューター HAL 9000 のように、非常に迅速に反応し始めました。「図面をさらに簡素化するために、線の密度を減らし、主要な形状と輪郭をより効果的に強調することに焦点を当てます。プロセスを改良してみましょう。」

また: クラウドストライクのCTOは、ジェネレーティブAIは企業を危険にさらす新たな攻撃ベクトルであると語る

結果は、またもや同じでした。私がこの事実を指摘したとき、ChatGPT は意味不明な言葉で私を驚かせました。

「自動方法では、意図したとおりに画像を効果的に簡素化できていないようです」と、そのツールは私に返しました。「重要度の低い詳細を手動で削除し、必須の要素のみを残します。この方法をさらに改良してみましょう。」

ソフトウェア プログラムに「自動」モードと「手動」モードの両方があるとは知りませんでした。私の感覚では、すべてのソフトウェアは自動です。結局のところ、それ以外に何のためにソフトウェアを使うのでしょうか?

ChatGPT の「手動」方式では、画像を反転して、黒い線を白に、白い背景を黒に反転するだけです。

スクリーンショット:Tiernan Ray/ZDNET

ボットは自身の成果を自慢し、「このバージョンは主要な輪郭と基本的な線のみを保持しています」と述べた。

出力は単純化ではなく、単なる反転であると抗議したところ、ボットは「重要な線」に焦点を当てると私に伝え、線がまったくない完全に黒い四角形を生成しました。よく知らなかったら、この出力は AI のユーモアの一例だと言うでしょう。

また: ChatGPT と ChatGPT Plus: 有料サブスクリプションはまだ価値がありますか?

その後、モデルは私の指示に応じて、選択した方法で画像を修正し、ほとんどの場合、画像を単純化するのではなく、スタイル的にぼやけさせるという試みを何度か繰り返しました。

ある時点で、ボットは私の抗議に反応して、まったく異なる線画を生成しました。

ChatGPT と Tiernan Ray/ZDNET によって作成

このナンセンスは、ChatGPT が最初に戻って、私が最初にアップロードしたのと同じ画像を生成するまで続きました。

毎回、ボットは出力(通常は元の画像と同じバージョン)に、次のような大量の専門用語を添えました。「最新の画像は、主要な輪郭のみを強調した、より簡略化されたバージョンです。」

スクリーンショット:Tiernan Ray/ZDNET

他のプログラムは、スタートラインから出ることすらできなかった。Google の Gemini は、画像を簡素化するための提案はしたものの、人物の画像は作成できないという謝罪のメッセージを表示した。Claude は、まだ画像を生成できないと述べた。Perplexity アプリも同じメッセージを表示した。

マイクロソフトのコパイロット 奇妙なことに、私の絵をアップロードした後、プライバシー上の理由から頭の部分を切り取ったそうです。(素敵な絵だとは思いますが、顔認識システムで個人の身元を明らかにするのに使用できるほどリアルではありません。)

その後、Copilot は ChatGPT と同じ簡素化の提案をしましたが、図面を変更する代わりに、まったく関係のないまったく新しい線画を作成しました。私が抗議すると、Copilot は画像を直接変更することはできないと説明しました。

また: ChatGPTを使用してPDFを無料で分析する方法

他のモデルの失敗例を除けば、ChatGPT の失敗について何が言えるでしょうか?

このプログラムは、画像の内容を含め、適切な分析を行うことができます。しかし、その分析に基づいて行動する方法はありません。画像内のオブジェクトなどの高レベルの概念に基づいて画像を組み立てることができなければ、ChatGPT には前進する道がないと思われます。

その仮説を検証するために、私はプロンプトを「地下鉄で携帯電話を見ている2人の友人の絵を簡略化する方法はありますか?」と変更しました。そのプロンプトは、いくつかの意味的な手がかりを提供していると思いました。

再び、モデルは同じ絵を返しました。しかし、私が再度抗議すると、ボットは意味的に類似したまったく新しい画像、つまり公共交通機関で携帯電話を見ている人々を生成しました。ボットは意味的な手がかりを拾いましたが、提供された絵にはまったく適用できませんでした。

ChatGPT は線などの最も基本的な種類の個々の画像要素には作用できないということ以外、何が起こっているのかを技術的な観点から詳しく説明することはできません。作用したとしても、ツールは特定の線を切り取って、テキスト応答で提案する簡略化を実行します。

私は、トランスクリプトの編集などのテキスト編集タスクにも当てはまるが、ChatGPTとGPT-4は個々の要素にどのように対処すればよいかわからないと示唆したい。 何のこの機能がないことが、ChatGPT がひどいエディターである理由です。つまり、特定のオブジェクトで何が重要で、何を省略できるかがわからないのです。

また: OpenAIの株式投資GPTは株式投資に関するこの基本的な質問に答えられない

AI モデルは、トレーニング例から推定されたターゲットの「確率分布」に一致するオブジェクトを生成できますが、元の作品の要素を本質的なものに選択的に削減することはできません。

おそらく、インテリジェントに編集されたターゲット確率分布は、 何でも それは、確率の「ロングテール」のどこか、つまり人間が異常なものを見つけることに優れ、AI がまだ到達できない領域、つまり私たちが創造性と考える類のものである。

Apple の共同設立者である Steve Jobs 氏はかつて、ソフトウェア メーカーの最高機能 (彼の言葉を借りれば「高位ビット」) は、何を省略し、何を残すかを判断する「編集」機能であると述べました。現時点では、ChatGPT には高位ビットが何であるかがわかりません。





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください