AI ボットが Web サイトのコンテンツをスクレイピングして AI をトレーニングすることを心配している場合は、Cloudflare が対抗策として役立ちます。
同社は、代理権を主張している ウェブの約20%は、すべてのAIボットがサイトのテキストをスクレイピングするのをブロックする新しいツールを導入しました。Cloudflareによると、このツールは無料ユーザーも含めすべての顧客が利用できるとのことです。
また: 2024 年になってもまだウイルス対策ソフトウェアに料金を支払う必要がありますか?
増加に伴い、 生成AI企業はチャットボットを訓練するためのコンテンツを必要としています。多くの企業が、サイトからテキストを抽出して分析するウェブスクレイパーに目を向けています( ChatGPTはRedditの投稿で何をしていますか)。Web スクレイピング ボットについて率直かつ正直に説明している企業もありますが、そうでない企業もあります。
Cloudflare は昨年 9 月に、ユーザーが「悪質な」AI ウェブクローラー、つまり許可なくサイトをスクレイピングするクローラーをブロックできる機能をリリースしました。当然ながら、一部の企業は本物のスクレイパーを装うスクレイパーを用意することで、この問題を回避する方法を見つけました。そのため、この新しいツールは、スクレイピングの適切なプロトコルに従うものも含め、すべての AI クローラーをブロックします。
同社によると、2024年6月、AIボットはCloudflareを使用して上位100万の「インターネットプロパティ」の約39%にアクセスした。これらのプロパティのうち、AIボットをブロックする対策を講じたのは3%未満だった。Cloudflareによると、同社のサイトをスクレイピングする上位4つのボットは、Bytespider、Amazonbot、ClaudeBot、GPTBotだった。
バイトダンスが所有するバイトスパイダーは、 TikTokを運営する会社は、ChatGPTのライバルであるDoubaoを含む大規模な言語モデルのトレーニングデータを収集するために使用されています。AmazonbotはAlexaの質問応答側をトレーニングするために使用され、ClaudeBotは クロード・アイ、GPTBotは訓練する チャットGPT。
また: Amazon が AI 搭載 Alexa サブスクリプションをコストに見合うものにする 5 つの方法
Cloudflare ユーザーの場合、このツールの使い方は簡単です。ダッシュボードの設定セクションに移動し、「セキュリティ」と「ボット」をクリックするだけです。そこから、「AI スクレーパーとクローラー」というトグル ボタンが表示されます。これをオンにすると、AI ボットはコンテンツにアクセスできなくなります。
もちろん、AI ボットは常に進化しています。Cloudflare は、この機能も、問題のあるボットの「指紋」を検出すると自動的に進化するとしています。
新しいツールは、本日よりすべての Cloudflare ユーザーにご利用いただけます。