OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

ChatGPT によってウェブサイトのデータが盗まれるのを防ぎたいですか?ついに解決策が見つかりました!

これは 2 行のコードで実行でき、OpenAI によって公式にリリースされたものです。

先ほど、OpenAI はユーザー ドキュメント内の GPTBot の説明を更新しました。

この説明によれば、コンテンツ所有者は、ChatGPT のクローラーによるウェブサイトデータのクロールを拒否できるようになります。

これは、ウェブアクセスの停止に続く、著作権とプライバシー保護に関する OpenAI のもう一つの大きな動きです。

写真

しかし、OpenAI は依然として、コンテンツ所有者が GPTBot へのアクセス権を解放することを期待しています。

GPTBot のこの説明で、OpenAI は次のように述べています。

クローラーがデータにアクセスできるようにすると、AI モデルの精度とセキュリティが向上します。

しかし、少なくともサイト所有者には選択する権利があります。

しかし、一部のネットユーザーは問題を指摘した。

モデルはすでにトレーニングされているので、今これについて言及する意味は何でしょうか?

写真

OpenAIはまだこれについて説明していないので、まずはその対策を見てみましょう。

GPTクローラーを防ぐ3つの方法

それで、OpenAIは何を発表したのでしょうか?

まずはGPTBotのユーザー情報です。

ユーザーエージェントトークン: GPTBot
完全なユーザーエージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (KHTML、Gecko に類似、互換性あり、GPTBot/1.0、+https://openai.com/gptbot)

UA はブラウザの ID であり、訪問者のシステム環境、ブラウザ カーネルのバージョン、言語など、多くの情報が含まれています。

HTML タグを使用すると、特定のブラウザが Web ページのコンテンツにアクセスできないようにすることができます。

この説明文書では、OpenAI は robots.txt を変更するという、クローラーをブロックするより簡単な方法も提供しています。

ウェブサイトの robots.txt に次のコードを追加するだけです。

ユーザーエージェント: GPTBot
許可しない: /

こうすることで、GPTBot はコンテンツをクロールするために Web サイトにアクセスしなくなります。

GPT による一部のコンテンツのクロールだけを禁止したい場合は、robots.txt を使用して設定することもできます。

上記の内容と同様に、アクセスを許可するディレクトリとアクセスを許可しないディレクトリを指定するだけです。

ユーザーエージェント: GPTBot
許可: /directory-1/
許可しない: /directory-2/

このうち、Allow の方が優先度が高く、つまり、Allow ディレクトリが Disallow ディレクトリのサブディレクトリである場合は、アクセスが許可されます。

さらに、OpenAIはクローラーロボットのIPアドレスも公開しました。

クローラーが本当に心配な場合は、関連する IP アドレスによる Web サイトへのアクセスを禁止するように設定できます。

写真

robots.txtとは

上記の robots.txt とは何ですか? また、なぜ GPT のクローラーをブロックするのですか?

これは実際にはユーザー契約であり、サイト所有者はクローラーによるウェブサイトへのアクセスを禁止したり、クローラーによるコンテンツのクロールを禁止する設定を行うことができます。

この合意によれば、クローラーがそれにアクセスする能力を持っていたとしても、関連するコンテンツに遭遇したときには積極的にそれを避けることを選択します。

ChatGPT 自体も robots.txt を使用して、クローラーがユーザーの共有以外のコンテンツをクロールするのを防ぎます。

写真

実際、このプロトコルは AI が普及する前から存在しており、主に検索エンジンを制限するために使用されていました。

これは、検索エンジンでWeChatパブリックアカウントの記事が見つからない理由でもあります。

写真

これは紳士協定ですが、業界のルールとユーザーのプライバシーを尊重しているため、ほとんどのメーカーはこれに従うことを選択します。

今では、OpenAI もその仲間入りを果たしました。

もう一つ

同時に、Google のクローラーは Web 全体のコンテンツをクロールしています。

しかし、ネットユーザーはこれに対してより寛容であるようだ。

少なくとも Google はあなたのウェブサイトにリンクしていますが、ChatGPT は説明なしにあなたのコンテンツを使用しています。

写真

モデルの品質向上とクリエイターの保護のバランスをどのように取るべきだとお考えですか?

参考リンク:

[1] https://platform.openai.com/docs/gptbot
[2] https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3] https://news.ycombinator.com/item?id=37030568

<<:  企業における生成AIのセキュリティリスクを管理する方法

>>:  清華大学のFaceWall Intelligenceは、大規模なモデルを16,000以上の実際のAPIに接続し、オープンソースのToolLLMはChatGPTに近い

ブログ    

推薦する

トレンドマイクロ:2030年までにサイバーセキュリティ分野で人工知能が人間に取って代わる

テキサス州ダラスに本拠を置くクラウドセキュリティ企業トレンドマイクロの新しい調査によると、IT業界の...

商用顔認識は一時停止できるのか?

顔認証を防ぐために、市民は営業所を訪れる際にヘルメットをかぶっている。「初の顔認証事件」で、裁判所は...

AIと機械学習でデータセンターを強化

人工知能(AI)と機械学習は、インテリジェントデータセンターにおいてますます重要な役割を果たしていま...

...

ディープラーニングの背後にあるさまざまなアイデアや考え方を徹底的に理解する

ディープ ニューラル ネットワークは、ディープラーニング モデルが画像分類や音声認識などの従来の機械...

OpenAI の予測: スーパーインテリジェンスは 10 年以内に到来する!鄭済集落は人類を救い、4年で同盟を完全に征服した

スーパーAIがみんなを殺す!サム・アルトマン氏は、AI の将来について何度も公に懸念を表明しており、...

パンデミックの間、AI はどのようにして工場の安全な運営を維持するのに役立つのでしょうか?

[[377897]]新型コロナウイルスの感染拡大が世界中で続く中、多くの企業が業務をリモートワーク...

工業情報化部:中国初の個人情報保護AIモデル「智慧」アシスタントをリリース

2月29日、工業情報化省は2023年第4四半期の電気通信サービスの品質に関する通知を発行した。通知で...

...

超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

脳コンピューターインターフェース分野で新たなニュースがあります。 IEEE Spectrum による...

これを読めば分かるでしょう。これらは人工知能によって排除されつつある主要な職業です。

AIインテリジェンスは近年急速に発展しており、技術の進歩をもたらす一方で、一部の業界にも影響を与え...

今後 20 年間で AI はすべての業界にどれほどの影響を与えるでしょうか?営業担当者も入れ替わるのでしょうか?

JD.comでは以前から物流ロボットを活用しているといわれています。東莞市麻容のJD仕分けセンター...

...

Linux環境で仮想化技術を使用する方法

仮想化テクノロジーは、物理ホストが複数の仮想コンピューティング環境を同時に実行できるように、コンピュ...

Nvidia は、実物大、数千ポンドを持ち上げることができるロボットなど 6 台のロボットを披露します...

近年、黄氏はグラフィックカードに加え、AIやロボットにもますます注目している。来月開催されるGTC ...