ホーム jpn OpenAIは待望の高度な音声モードを発表したが、落とし穴がある

OpenAIは待望の高度な音声モードを発表したが、落とし穴がある

19
0


OpenAI

OpenAIが 春のローンチイベント 5月に最も目立ったのは、新しいボイスモードのデモでした。 チャットGPT、スーパーチャージ GPT-4oの 新しいビデオとオーディオ機能。待望の新しい音声モードがついに登場しました (ある意味)。

また: 2024 年の最高の AI チャットボット: ChatGPT、Copilot、およびそれに代わる優れた選択肢

火曜日、OpenAIはXの投稿で、音声モードが少数のユーザーグループにアルファ版として展開されていると発表した。 チャットGPTプラス ユーザーに、中断したりユーザーの感情に反応したりできる、よりスマートな音声アシスタントを提供します。

アルファ版に参加したユーザーには、上のビデオに示されているように、手順が記載されたメールとモバイル アプリのメッセージが届きます。まだ通知を受け取っていなくても心配はいりません。OpenAI は、今後もユーザーを順次追加し、秋にはすべての ChatGPT Plus ユーザーがアクセスできるようになる予定であると述べています。

以下に示す発表イベントでのオリジナルデモでは、同社は、ユーザーの画面上のコンテンツの支援や、ユーザーの携帯電話のカメラを応答のコンテキストとして使用するなど、Voice Mode のマルチモーダル機能を披露しました。

しかし、音声モードのアルファ版にはこれらの機能は搭載されていない。OpenAIは「ビデオと画面共有機能は後日リリースされる予定」としている。同社はまた、この技術を最初にデモして以来、音声会話の品質と安全性が向上したと述べた。

X スレッドによると、OpenAI は 45 の言語で 100 人以上の外部レッドチームと音声機能をテストした。同社はまた、モデルが 4 つのプリセット音声のみで話すようにトレーニングし、指定された音声から外れた出力をブロックし、リクエストをブロックするためのガードレールを実装した。

同社はまた、ユーザーからのフィードバックを考慮してモデルをさらに改良し、制限や安全性評価を含むGPT-4osのパフォーマンスに関する詳細なレポートを8月に公開する予定だと述べた。

また: Google の新世代 AI ツールは広告キャンペーンのハイパーターゲティングに役立ちます

あなたは チャットGPTプラス 月額20ドルの加入者。その他の会員特典には以下が含まれます 高度なデータ分析 特徴、 画像生成、GPT-4o への優先アクセスなど。

OpenAIがこの機能を発表した1週間後、Googleは同様の機能を発表した。 ジェミニライブただし、Gemini Liveはまだユーザーには提供されていません。これは、 Made by Google イベント 数週間以内に公開されます。





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください