OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

ChatGPT によってウェブサイトのデータが盗まれるのを防ぎたいですか?ついに解決策が見つかりました!

これは 2 行のコードで実行でき、OpenAI によって公式にリリースされたものです。

先ほど、OpenAI はユーザー ドキュメント内の GPTBot の説明を更新しました。

この説明によれば、コンテンツ所有者は、ChatGPT のクローラーによるウェブサイトデータのクロールを拒否できるようになります。

これは、ウェブアクセスの停止に続く、著作権とプライバシー保護に関する OpenAI のもう一つの大きな動きです。

写真

しかし、OpenAI は依然として、コンテンツ所有者が GPTBot へのアクセス権を解放することを期待しています。

GPTBot のこの説明で、OpenAI は次のように述べています。

クローラーがデータにアクセスできるようにすると、AI モデルの精度とセキュリティが向上します。

しかし、少なくともサイト所有者には選択する権利があります。

しかし、一部のネットユーザーは問題を指摘した。

モデルはすでにトレーニングされているので、今これについて言及する意味は何でしょうか?

写真

OpenAIはまだこれについて説明していないので、まずはその対策を見てみましょう。

GPTクローラーを防ぐ3つの方法

それで、OpenAIは何を発表したのでしょうか?

まずはGPTBotのユーザー情報です。

ユーザーエージェントトークン: GPTBot
完全なユーザーエージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (KHTML、Gecko に類似、互換性あり、GPTBot/1.0、+https://openai.com/gptbot)

UA はブラウザの ID であり、訪問者のシステム環境、ブラウザ カーネルのバージョン、言語など、多くの情報が含まれています。

HTML タグを使用すると、特定のブラウザが Web ページのコンテンツにアクセスできないようにすることができます。

この説明文書では、OpenAI は robots.txt を変更するという、クローラーをブロックするより簡単な方法も提供しています。

ウェブサイトの robots.txt に次のコードを追加するだけです。

ユーザーエージェント: GPTBot
許可しない: /

こうすることで、GPTBot はコンテンツをクロールするために Web サイトにアクセスしなくなります。

GPT による一部のコンテンツのクロールだけを禁止したい場合は、robots.txt を使用して設定することもできます。

上記の内容と同様に、アクセスを許可するディレクトリとアクセスを許可しないディレクトリを指定するだけです。

ユーザーエージェント: GPTBot
許可: /directory-1/
許可しない: /directory-2/

このうち、Allow の方が優先度が高く、つまり、Allow ディレクトリが Disallow ディレクトリのサブディレクトリである場合は、アクセスが許可されます。

さらに、OpenAIはクローラーロボットのIPアドレスも公開しました。

クローラーが本当に心配な場合は、関連する IP アドレスによる Web サイトへのアクセスを禁止するように設定できます。

写真

robots.txtとは

上記の robots.txt とは何ですか? また、なぜ GPT のクローラーをブロックするのですか?

これは実際にはユーザー契約であり、サイト所有者はクローラーによるウェブサイトへのアクセスを禁止したり、クローラーによるコンテンツのクロールを禁止する設定を行うことができます。

この合意によれば、クローラーがそれにアクセスする能力を持っていたとしても、関連するコンテンツに遭遇したときには積極的にそれを避けることを選択します。

ChatGPT 自体も robots.txt を使用して、クローラーがユーザーの共有以外のコンテンツをクロールするのを防ぎます。

写真

実際、このプロトコルは AI が普及する前から存在しており、主に検索エンジンを制限するために使用されていました。

これは、検索エンジンでWeChatパブリックアカウントの記事が見つからない理由でもあります。

写真

これは紳士協定ですが、業界のルールとユーザーのプライバシーを尊重しているため、ほとんどのメーカーはこれに従うことを選択します。

今では、OpenAI もその仲間入りを果たしました。

もう一つ

同時に、Google のクローラーは Web 全体のコンテンツをクロールしています。

しかし、ネットユーザーはこれに対してより寛容であるようだ。

少なくとも Google はあなたのウェブサイトにリンクしていますが、ChatGPT は説明なしにあなたのコンテンツを使用しています。

写真

モデルの品質向上とクリエイターの保護のバランスをどのように取るべきだとお考えですか?

参考リンク:

[1] https://platform.openai.com/docs/gptbot
[2] https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3] https://news.ycombinator.com/item?id=37030568

<<:  企業における生成AIのセキュリティリスクを管理する方法

>>:  清華大学のFaceWall Intelligenceは、大規模なモデルを16,000以上の実際のAPIに接続し、オープンソースのToolLLMはChatGPTに近い

ブログ    
ブログ    

推薦する

...

イスラエルの科学者がロボットにイナゴの耳を装備させ、バイオセンサーで画期的な進歩を遂げる

[[387788]]簡単に言えば、ロボットに「聞く」機能を持たせるには、音声信号を電気信号に変換し、...

...

スマートビジョンが AI アプリケーションに及ぼす 5 つの影響

インテリジェントビジョンは人工知能への扉です。この扉が開かれなければ、人工知能に関する詳細な研究を行...

...

防衛とセキュリティの再定義に貢献するAIスタートアップ

人工知能の誕生は第二次世界大戦中に連合国が暗号解読機を開発し、それがナチスドイツのエニグマ暗号を解読...

GoogleのAIオープンソース成果物は3年前に誕生し、想像もつかないような多くの場所で使用されている。

2016年3月、人間と機械の戦い「イ・セドル対AlphaGo」は、人工知能の力を世界に知らしめた。...

AIがプログラマーの仕事を奪う:2040年にはAIがプログラマーに取って代わる可能性

米国のオークリッジ国立研究所の一部専門家は、2040年までにAI技術がプログラマーに取って代わるほど...

このアルゴリズムは顔認識の「マスク」問題を解決し、2日間で1,000人のコミュニティで97%の精度を達成しました | AIが疫病と戦う

ますます成熟する人工知能は、新型コロナウイルス感染症対策の最前線で「逆転者」と呼ばれる特別な集団とな...

人工知能は国家戦略となり、今こそこれらの人々にとって良い機会である

人工知能が私たちの生活に大きな利便性をもたらすことができるのは、その背後に多くの機能があるからです。...

...

GoogleはOpenAIの競合企業Anthropicに最大20億ドルを投資することに同意したと報じられている

事情に詳しい関係者によると、10月28日、Googleはこれまでの投資に加え、OpenAIの競合企業...

Metaは、メタバース内の肖像画がぼやけないようにするための新しい仮想背景処理AIを開発しました

COVID-19パンデミックが始まって以来、私たちのほとんどは友人、同僚、家族とのリモートビデオ通話...

2018 CCF BDCIコンペティションのグローバルローンチ:データ駆動型、スマートな未来

8月11日、2018年のCCFビッグデータ&Computational Intelligenceコン...