1週間前、OpenAI GPT-4o miniをリリースその短い時間で、すでに 更新されました そして、大規模モデルシステム組織(LMSYS)チャットボットアリーナのリーダーボードで、次のような大手企業を上回りました。 クロード 3.5 ソネット そして ジェミニ アドバンス。
の LMSYS チャットボット アリーナ は、ユーザーがモデル名を知らなくても、2 つの LLM と並んでチャットし、互いの応答を比較することで大規模言語モデル (LLM) を評価できるクラウドソーシング プラットフォームです。
また: GPT-4o mini を試してみませんか? よりスマートで安価な AI モデルにアクセスする 3 つの方法 – そのうち 2 つは無料です
GPT-4o miniは発表直後からアリーナに追加され、GPT-4oに次ぐリーダーボードのトップに躍り出ました。これは特にGPT-4o miniが 20倍安い 前作よりも。
結果が明らかになると、一部のユーザーは ソーシャルメディア このような新しいミニモデルが、Claude 3.5 Sonnet などのより確立された堅牢で有能なモデルよりも上位にランクされる理由について懸念を表明しました。この懸念に対処するために、LMSYS は X に投稿し、GPT-4o mini が高い順位にランクされた要因を説明し、Chatbot Arena の順位は投票に応じた人間の好みによって決まることを強調しました。
どのモデルがより効果的かを知りたいユーザーに対して、LMSYS は、技術的な機能を理解するためにカテゴリごとの内訳を確認することを推奨しています。これには、「全体」と表示されているカテゴリ ドロップダウンをクリックし、別のカテゴリを選択することでアクセスできます。コーディング、ハード プロンプト、長いクエリなど、さまざまなカテゴリの内訳を確認すると、結果に違いが見られます。
また: OpenAI が SearchGPT をリリース – その機能とアクセス方法をご紹介します
コーディング部門では、GPT-4o miniはGPT-4oと1位のClaude 3.5 Sonnetに次いで3位にランクされています。ただし、マルチターン、2ターン以上の会話、500トークン以上の長いクエリなど、他の部門ではGPT-4o miniが1位です。
GPT-4o miniを試してみたい方は、 チャットGPT サイトにアクセスしてOpenAIアカウントにログインしてください。チャットボットアリーナに参加してGPT-4o miniを運よく手に入れたい場合は、 Webサイトをクリックし、Arena を並べてクリックして、サンプル プロンプトを入力します。