ホーム jpn 私はClaude 3.5 SonnetをAIコーディングテストChatGPTと対戦させましたが、ChatGPTは成功しました – そして創造性は失敗しました

私はClaude 3.5 SonnetをAIコーディングテストChatGPTと対戦させましたが、ChatGPTは成功しました – そして創造性は失敗しました

13
0


デビッド・ゲヴィルツ/ZDNET

先週、Anthropic から Claude 3.5 Sonnet が利用可能になったことを知らせるメールを受け取りました。AI 企業によると、「Claude 3.5 Sonnet は、さまざまな評価で競合モデルや Claude 3 Opus を上回り、インテリジェンスの業界基準を引き上げました。」

同社は次のように付け加えた。「Claude 3.5 Sonnet は、コード生成などの複雑なタスクに最適です。」私はそれが本当かどうか確かめてみることにした。

また: ChatGPTを使用してアプリを作成する方法

新しいClaude 3.5 Sonnetモデルを、私が標準的にテストした一連のコーディングテストにかけます。これは、さまざまなAIに対して実行したテストで、さまざまな結果が得られました。独自のテストも試してみたい場合は、ブラウザで AI チャットボットのコーディング能力をテストする方法 – あなたもできますには、私が適用するすべての標準テスト、その仕組みの説明、結果で注目すべき点などが含まれています。

さて、各テストの結果を詳しく調べて、以前のテストとどのように比較するかを見てみましょう。 マイクロソフト コパイロットメタAIメタコード呼び出しGoogle Gemini アドバンス、 そして チャットGPT

1. WordPressプラグインの作成

最初は、これは非常に有望に思えました。まずは、私のテストプロンプトに基づいて Claude 3.5 Sonnet が作成したユーザー インターフェイスから始めましょう。

David Gewirtz/ZDNET によるスクリーンショット

AI が 2 つのデータ フィールドを並べて配置することを決定したのはこれが初めてです。レイアウトはすっきりしていて見栄えがよいです。

Claude は、AI が行うのを見たこともないような別のことも行うことにしました。このプラグインは、WordPress サーバーのバックエンドで実行されるコードである PHP コードだけを使用して作成できます。

また: AI チャットボットのコーディング能力をテストする方法 – あなたもできます

しかし、一部の AI 実装では、JavaScript コード (ブラウザー内で実行され、動的なユーザー インターフェイス機能を制御する) と CSS コード (ブラウザーで情報を表示する方法を制御) も追加されています。

PHP 環境で PHP、JavaScript、CSS が必要な場合は、CSS と JavaScript を PHP コード内に直接含めるか (これは PHP の機能です)、コードを 3 つの別々のファイル (PHP 用、JavaScript 用、CSS 用) に配置することができます。

通常、AI が 3 つの言語すべてを使用する場合、PHP ファイルに切り取って貼り付ける必要があるもの、JavaScript ファイルに切り取って貼り付ける別のブロック、CSS ファイルに切り取って貼り付ける 3 番目のブロックが表示されます。

しかし、Claude は PHP ファイルを 1 つ提供しただけで、それを実行すると、プラグインのホーム ディレクトリに JavaScript ファイルと CSS ファイルを自動生成しました。これはかなり印象的ですが、少し間違っています。プラグインの作成プロセスを簡単にしようとしたのは素晴らしいことですが、プラグインが独自のフォルダーに書き込めるかどうかは OS 構成の設定に依存しており、失敗する可能性が非常に高くなります。

私はテスト環境ではそれを許可しましたが、実稼働環境でプラグインが自身のコードを書き換えることは決して許可しません。これは非常に深刻なセキュリティ上の欠陥です。

また: ChatGPT を使ってコードを書く方法: ChatGPT でできることとできないこと

Claude のコード生成ソリューションはかなり独創的であるにもかかわらず、結局のところ、プラグインは失敗しました。Randomize ボタンを押しても何も起こりません。前述したように、非常に期待が持てたので残念です。

今回のテストと前回のテストの集計結果は次のとおりです。

  • クロード 3.5 ソネット: インターフェース: 良好、機能性: 不合格
  • チャットGPT GPT-4o: インターフェース: 良好、機能性: 良好
  • マイクロソフト コパイロット: インターフェース: 適切、機能性: 不合格
  • メタAI: インターフェース: 適切、機能性: 不合格
  • メタコード呼び出し: 完全な失敗
  • Google Gemini アドバンス: インターフェース: 良好、機能性: 不合格
  • チャットGPT 4: インターフェース: 良好、機能性: 良好
  • チャットGPT 3.5: インターフェース: 良好、機能性: 良好

2. 文字列関数の書き換え

このテストは、AI が特定のニーズ (この場合はドルとセントの変換) に応じてより適切に動作するようにコードを書き直す方法を評価するように設計されています。

Claude 3.5 Sonnet の改訂版では、先頭のゼロが適切に削除され、「000123」などのエントリが「123」として扱われるようになりました。整数と小数点以下 2 桁までの小数を適切に許可します (これはプロンプトが要求した重要な修正です)。負の値は防止されます。また、奇妙な入力や予期しない入力に対しては「0」を返すほどスマートなので、コードが異常終了してエラーになるのを防ぎます。

また: AI検出器はChatGPTから私たちを救えるか?それを知るために6つのオンラインツールを試した

1 つの失敗は、小数値のみの入力が許可されないことです。したがって、ユーザーが 50 セントを「0.50」ではなく「.50」と入力した場合、入力は失敗します。テストの元のテキストの説明の書き方に基づくと、この入力フォームは許可されているはずです。

修正されたコードの大部分は機能しましたが、このコードを本番プロジェクトに貼り付けた場合、ユーザーはセント値のみを含む入力を行えなくなるため、これは失敗とみなさざるを得ません。

今回のテストと前回のテストの集計結果は次のとおりです。

  • クロード 3.5 ソネット: 失敗した
  • チャットGPT GPT-4o: 成功しました
  • マイクロソフト コパイロット: 失敗した
  • メタAI: 失敗した
  • メタコード呼び出し: 成功しました
  • Google Gemini アドバンス: 失敗した
  • チャットGPT 4: 成功しました
  • チャットGPT 3.5: 成功しました

3. 厄介なバグを見つける

このテストの大きな課題は、AI が明白ではないバグを見つけることを課せられており、正しく解決するには WordPress プラットフォームのプラットフォーム知識が必要になることです。これは私自身がすぐには気づかなかったバグでもあり、当初は ChatGPT に解決を依頼しました (解決してくれました)。

また: 2024 年の最高の無料 AI コース (そして AI 認定資格を取得する価値があるかどうか)

クロードはこれを正しく理解しただけでなく、エラーの微妙な部分を捉えて修正しただけでなく、私が公開して以来初めてのAIでもありました。 完全なテストをオンラインで 公開プロセスによってサンプル クエリにエラーが発生したという事実を把握するため (その後、修正して再公開しました)。

今回のテストと前回のテストの集計結果は次のとおりです。

  • クロード 3.5 ソネット: 成功しました
  • チャットGPT GPT-4o: 成功しました
  • マイクロソフト コパイロット: 失敗。見事に。熱狂的に。絵文字的に。
  • メタAI: 成功しました
  • メタコード呼び出し: 失敗した
  • Google Gemini アドバンス: 失敗した
  • チャットGPT 4: 成功しました
  • チャットGPT 3.5: 成功しました

今のところ、3 回のうち 2 回は失敗しています。最後のテストに進みましょう。

4. スクリプトの作成

このテストは、AI のプログラミング知識が専門のプログラミング ツールにどの程度まで及ぶかを確認するために設計されています。AppleScript は Mac でのスクリプト作成にかなり一般的ですが、Keyboard Maestro はオーストラリアの一人のプログラマーが販売している商用アプリケーションです。私にとっては欠かせないものですが、これは Mac 上の数多くのアプリの 1 つにすぎません。

しかし、ChatGPT でテストしたところ、ChatGPT は AppleScript だけでなく Keyboard Maestro も「話す」ことができ、そのプログラミング言語に関する知識がいかに幅広いかがわかりました。

また: AIトレーナーから倫理学者まで:AIは一部の仕事を廃止するかもしれないが、新しい仕事を生み出すかもしれない

残念ながら、Claude にはその知識がありません。Chrome と通信しようとする AppleScript は作成されましたが (これはテスト パラメータの一部です)、重要な Keyboard Maestro コンポーネントは無視されていました。

さらに悪いことに、AppleScript でランタイム エラーを生成するコードが生成されました。テストでの大文字と小文字の区別を無視しようとして、Claude は次の行を生成しました。

if theTab's title contains input ignoring case then

これは、”contains” ステートメントが大文字と小文字を区別せず、”ignoring case” というフレーズが配置されている場所に属していないため、実質的に二重エラーです。これにより、スクリプトは “Ignoring can't go after this” という構文エラー メッセージでエラーになりました。

今回のテストと前回のテストの集計結果は次のとおりです。

  • クロード 3.5 ソネット: 失敗した
  • チャットGPT GPT-4o: 成功したが、留保付き
  • マイクロソフト コパイロット: 失敗した
  • メタAI: 失敗した
  • メタコード呼び出し: 失敗した
  • Google Gemini アドバンス: 成功しました
  • チャットGPT 4: 成功しました
  • チャットGPT 3.5: 失敗した

全体的な結果

5 つのテストの全体的な結果は次のとおりです。

Claude 3.5 Sonnet については、少々がっかりしました。同社は、このバージョンはプログラミングに適していると明言していました。しかし、ご覧のとおり、そうではありませんでした。プログラミングができないわけではありません。正しくプログラミングできないだけです。

また: ChatGPTを使用して、同じルーチンを12の主要なプログラミング言語で記述しました。結果は次のようになります。

私は、特にプラットフォームおよびプログラミング環境ベンダーがこれらの他のモデルをプログラミング プロセスに直接統合し始めているため、ChatGPT ソリューションを上回る AI を探し続けています。しかし、今のところ、プログラミングのヘルプが必要なときは ChatGPT に戻るつもりです。これは皆さんへのアドバイスでもあります。

プログラミングを支援する AI を使用したことがありますか? どの AI を使用しましたか? 結果はどうでしたか? 以下のコメント欄でお知らせください。


ソーシャルメディアで日々のプロジェクトの最新情報をフォローできます。ぜひ登録してください。 毎週更新されるニュースレター、Twitter/Xでフォローしてください デイビッド・ゲワーツ、Facebookで Facebook.com/DavidGewirtz、インスタグラムで Instagram.com/DavidGewirtz、YouTubeでは YouTube.com/DavidGewirtzTV





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください