OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

ChatGPT によってウェブサイトのデータが盗まれるのを防ぎたいですか?ついに解決策が見つかりました!

これは 2 行のコードで実行でき、OpenAI によって公式にリリースされたものです。

先ほど、OpenAI はユーザードキュメント内の GPTBot の説明を更新しました。

この説明によれば、コンテンツ所有者は、ChatGPT のクローラーによるウェブサイトデータのクロールを拒否できるようになります。

これは、ウェブアクセスの停止に続く、著作権とプライバシー保護に関する OpenAI のもう一つの大きな動きです。

写真

しかし、OpenAI は依然として、コンテンツ所有者が GPTBot へのアクセス権を解放することを期待しています。

GPTBot のこの説明で、OpenAI は次のように述べています。

クローラーがデータにアクセスできるようにすると、AI モデルの精度とセキュリティが向上します。

しかし、少なくともサイト所有者には選択する権利があります。

しかし、一部のネットユーザーは問題を指摘した。

モデルはすでにトレーニングされているので、今これについて言及する意味は何でしょうか?

写真

OpenAIはまだこれについて説明していないので、まずはその対策を見てみましょう。

GPTクローラーを防ぐ3つの方法

それで、OpenAIは何を発表したのでしょうか?

まずはGPTBotのユーザー情報です。

ユーザーエージェントトークン: GPTBot
完全なユーザーエージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (KHTML、Gecko に類似、互換性あり、GPTBot/1.0、+https://openai.com/gptbot)

UA はブラウザの ID であり、訪問者のシステム環境、ブラウザカーネルのバージョン、言語など、多くの情報が含まれています。

HTML タグを使用すると、特定のブラウザが Web ページのコンテンツにアクセスできないようにすることができます。

この説明文書では、OpenAI は robots.txt を変更するという、クローラーをブロックするより簡単な方法も提供しています。

ウェブサイトの robots.txt に次のコードを追加するだけです。

ユーザーエージェント: GPTBot
許可しない: /

こうすることで、GPTBot はコンテンツをクロールするために Web サイトにアクセスしなくなります。

GPT による一部のコンテンツのクロールだけを禁止したい場合は、robots.txt を使用して設定することもできます。

上記の内容と同様に、アクセスを許可するディレクトリとアクセスを許可しないディレクトリを指定するだけです。

ユーザーエージェント: GPTBot
許可: /directory-1/
許可しない: /directory-2/

このうち、Allow の方が優先度が高く、つまり、Allow ディレクトリが Disallow ディレクトリのサブディレクトリである場合は、アクセスが許可されます。

さらに、OpenAIはクローラーロボットのIPアドレスも公開しました。

クローラーが本当に心配な場合は、関連する IP アドレスによる Web サイトへのアクセスを禁止するように設定できます。

写真

robots.txtとは

上記の robots.txt とは何ですか? また、なぜ GPT のクローラーをブロックするのですか?

これは実際にはユーザー契約であり、サイト所有者はクローラーによるウェブサイトへのアクセスを禁止したり、クローラーによるコンテンツのクロールを禁止する設定を行うことができます。

この合意によれば、クローラーがそれにアクセスする能力を持っていたとしても、関連するコンテンツに遭遇したときには積極的にそれを避けることを選択します。

ChatGPT 自体も robots.txt を使用して、クローラーがユーザーの共有以外のコンテンツをクロールするのを防ぎます。

写真

実際、このプロトコルは AI が普及する前から存在しており、主に検索エンジンを制限するために使用されていました。

これは、検索エンジンでWeChatパブリックアカウントの記事が見つからない理由でもあります。

写真

これは紳士協定ですが、業界のルールとユーザーのプライバシーを尊重しているため、ほとんどのメーカーはこれに従うことを選択します。

今では、OpenAI もその仲間入りを果たしました。

もう一つ

同時に、Google のクローラーは Web 全体のコンテンツをクロールしています。

しかし、ネットユーザーはこれに対してより寛容であるようだ。

少なくとも Google はあなたのウェブサイトにリンクしていますが、ChatGPT は説明なしにあなたのコンテンツを使用しています。

写真

モデルの品質向上とクリエイターの保護のバランスをどのように取るべきだとお考えですか?

参考リンク:

[1] https://platform.openai.com/docs/gptbot
[2] https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3] https://news.ycombinator.com/item?id=37030568

<<: 企業における生成AIのセキュリティリスクを管理する方法

>>: 清華大学のFaceWall Intelligenceは、大規模なモデルを16,000以上の実際のAPIに接続し、オープンソースのToolLLMはChatGPTに近い

face_recognitionに基づく顔認識の実装

ブログ

ディープラーニングで最もよく使われる学習アルゴリズム「Adam最適化アルゴリズム」をご存知ですか？

ブログ

AIはもはや派手なものではなく、日常生活にもっと関連している

ブログ

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

ブログ

ポピュラーサイエンス記事: GPT の背後にあるトランスフォーマーモデル

ブログ

コグニティブ時代のIBMの新しいカスタマーサービスセンターは、人間と機械のコラボレーションでより大きな価値を生み出します

ブログ

AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

ブログ

OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

GPTクローラーを防ぐ3つの方法

robots.txtとは

もう一つ

参考リンク:

face_recognitionに基づく顔認識の実装

ディープラーニングで最もよく使われる学習アルゴリズム「Adam最適化アルゴリズム」をご存知ですか？

AIはもはや派手なものではなく、日常生活にもっと関連している

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

ポピュラーサイエンス記事: GPT の背後にあるトランスフォーマーモデル

コグニティブ時代のIBMの新しいカスタマーサービスセンターは、人間と機械のコラボレーションでより大きな価値を生み出します

AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

推薦する

インスパー・シャオ・シュエ：人工知能はモノのインターネットを「スマート」にする

30億枚の写真データベースを持つ顔認識スタートアップがハッカーの攻撃を受ける！ 600以上の法執行機関と銀行の情報が盗まれた

視覚的なプロンプトを使用してください。シュム氏は、トレーニングや微調整なしですぐに使用できるIDEAリサーチインスティテュートの新しいモデルを実演します。

TensorFlow と PyTorch: ディープラーニングに最適なフレームワークはどれですか?

5Gは19の業界に浸透？これらの5つの分野はもっと注目に値する

Microsoft Flight SimulatorはAIを使って15億の建物を復元、宮殿がオフィスビルに変わる際にバグが発生

AIと透明性：AIによる意思決定プロセスの重要性

新世代のJVMガベージコレクションアルゴリズムがリリースされました

TCP/IPトランスポート層の輻輳制御アルゴリズムを理解する

RPA プロジェクトを社内で開発すべきでない理由

人工知能はマーケティング業界に破壊的な影響を及ぼすだろう