OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

ChatGPT によってウェブサイトのデータが盗まれるのを防ぎたいですか?ついに解決策が見つかりました!

これは 2 行のコードで実行でき、OpenAI によって公式にリリースされたものです。

先ほど、OpenAI はユーザー ドキュメント内の GPTBot の説明を更新しました。

この説明によれば、コンテンツ所有者は、ChatGPT のクローラーによるウェブサイトデータのクロールを拒否できるようになります。

これは、ウェブアクセスの停止に続く、著作権とプライバシー保護に関する OpenAI のもう一つの大きな動きです。

写真

しかし、OpenAI は依然として、コンテンツ所有者が GPTBot へのアクセス権を解放することを期待しています。

GPTBot のこの説明で、OpenAI は次のように述べています。

クローラーがデータにアクセスできるようにすると、AI モデルの精度とセキュリティが向上します。

しかし、少なくともサイト所有者には選択する権利があります。

しかし、一部のネットユーザーは問題を指摘した。

モデルはすでにトレーニングされているので、今これについて言及する意味は何でしょうか?

写真

OpenAIはまだこれについて説明していないので、まずはその対策を見てみましょう。

GPTクローラーを防ぐ3つの方法

それで、OpenAIは何を発表したのでしょうか?

まずはGPTBotのユーザー情報です。

ユーザーエージェントトークン: GPTBot
完全なユーザーエージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (KHTML、Gecko に類似、互換性あり、GPTBot/1.0、+https://openai.com/gptbot)

UA はブラウザの ID であり、訪問者のシステム環境、ブラウザ カーネルのバージョン、言語など、多くの情報が含まれています。

HTML タグを使用すると、特定のブラウザが Web ページのコンテンツにアクセスできないようにすることができます。

この説明文書では、OpenAI は robots.txt を変更するという、クローラーをブロックするより簡単な方法も提供しています。

ウェブサイトの robots.txt に次のコードを追加するだけです。

ユーザーエージェント: GPTBot
許可しない: /

こうすることで、GPTBot はコンテンツをクロールするために Web サイトにアクセスしなくなります。

GPT による一部のコンテンツのクロールだけを禁止したい場合は、robots.txt を使用して設定することもできます。

上記の内容と同様に、アクセスを許可するディレクトリとアクセスを許可しないディレクトリを指定するだけです。

ユーザーエージェント: GPTBot
許可: /directory-1/
許可しない: /directory-2/

このうち、Allow の方が優先度が高く、つまり、Allow ディレクトリが Disallow ディレクトリのサブディレクトリである場合は、アクセスが許可されます。

さらに、OpenAIはクローラーロボットのIPアドレスも公開しました。

クローラーが本当に心配な場合は、関連する IP アドレスによる Web サイトへのアクセスを禁止するように設定できます。

写真

robots.txtとは

上記の robots.txt とは何ですか? また、なぜ GPT のクローラーをブロックするのですか?

これは実際にはユーザー契約であり、サイト所有者はクローラーによるウェブサイトへのアクセスを禁止したり、クローラーによるコンテンツのクロールを禁止する設定を行うことができます。

この合意によれば、クローラーがそれにアクセスする能力を持っていたとしても、関連するコンテンツに遭遇したときには積極的にそれを避けることを選択します。

ChatGPT 自体も robots.txt を使用して、クローラーがユーザーの共有以外のコンテンツをクロールするのを防ぎます。

写真

実際、このプロトコルは AI が普及する前から存在しており、主に検索エンジンを制限するために使用されていました。

これは、検索エンジンでWeChatパブリックアカウントの記事が見つからない理由でもあります。

写真

これは紳士協定ですが、業界のルールとユーザーのプライバシーを尊重しているため、ほとんどのメーカーはこれに従うことを選択します。

今では、OpenAI もその仲間入りを果たしました。

もう一つ

同時に、Google のクローラーは Web 全体のコンテンツをクロールしています。

しかし、ネットユーザーはこれに対してより寛容であるようだ。

少なくとも Google はあなたのウェブサイトにリンクしていますが、ChatGPT は説明なしにあなたのコンテンツを使用しています。

写真

モデルの品質向上とクリエイターの保護のバランスをどのように取るべきだとお考えですか?

参考リンク:

[1] https://platform.openai.com/docs/gptbot
[2] https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3] https://news.ycombinator.com/item?id=37030568

<<:  企業における生成AIのセキュリティリスクを管理する方法

>>:  清華大学のFaceWall Intelligenceは、大規模なモデルを16,000以上の実際のAPIに接続し、オープンソースのToolLLMはChatGPTに近い

ブログ    
ブログ    
ブログ    

推薦する

インスパー・シャオ・シュエ:人工知能はモノのインターネットを「スマート」にする

「人類の発展以来、テクノロジーの継続的な進化により、接続性、インタラクション、オンライン機能が絶えず...

30億枚の写真データベースを持つ顔認識スタートアップがハッカーの攻撃を受ける! 600以上の法執行機関と銀行の情報が盗まれた

多数の法執行機関と契約している顔認識会社が、ハッキングされ顧客リスト全体が盗まれたと報告した。デイリ...

視覚的なプロンプトを使用してください。シュム氏は、トレーニングや微調整なしですぐに使用できるIDEAリサーチインスティテュートの新しいモデルを実演します。

視覚的なプロンプトを使用するとどのような感じでしょうか?写真をランダムにフレームに入れるだけで、同じ...

TensorFlow と PyTorch: ディープラーニングに最適なフレームワークはどれですか?

この記事を読んでいるということは、おそらくすでにディープラーニングの旅を始めているということでしょう...

5Gは19の業界に浸透?これらの5つの分野はもっと注目に値する

2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...

Microsoft Flight SimulatorはAIを使って15億の建物を復元、宮殿がオフィスビルに変わる際にバグが発生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIと透明性:AIによる意思決定プロセスの重要性

人工知能(AI)は革命的かつ変革的な技術となり、顧客サービスや医療から金融や交通に至るまで、人類存在...

新世代のJVMガベージコレクションアルゴリズムがリリースされました

新世代の JVM ガベージ コレクション アルゴリズムをご存知ですか? ここで皆さんにご紹介しましょ...

...

TCP/IPトランスポート層の輻輳制御アルゴリズムを理解する

この記事では、次の内容を学びます。 輻輳制御の概念とその背景 フロー制御と輻輳制御の違いと関係 輻輳...

RPA プロジェクトを社内で開発すべきでない理由

ロボティック・プロセス・オートメーション (RPA) は、今日最も急速に成長しているテクノロジーの ...

...

...

人工知能はマーケティング業界に破壊的な影響を及ぼすだろう

ビッグデータと人工知能の市場は現在、活況を呈しています。調査会社の最近の予測によると、これら2つの技...