OpenAIは、AIモデルのトレーニングにデータが使用されるのを防ぐために、ウェブサイトがウェブクローラーによるデータのクロールをブロックすることを許可しました。

OpenAIは、AIモデルのトレーニングにデータが使用されるのを防ぐために、ウェブサイトがウェブクローラーによるデータのクロールをブロックすることを許可しました。

8月8日、OpenAIのGPTモデルのトレーニングには大量のネットワークデータが必要であり、データのプライバシーや著作権などの問題が伴う可能性があると報じられた。これらの問題に対処するため、OpenAI は最近、Web クローラーが Web サイトからデータをスクレイピングして GPT モデルをトレーニングするのを Web サイトが防止できる新しい機能をリリースしました。

IT Home によると、Web クローラーは、インターネット上の情報を検索して取得できる自動プログラムです。 OpenAI の Web クローラーは GPTBot と呼ばれます。一定の頻度でさまざまな Web サイトにアクセスし、GPT モデルのトレーニング用に Web ページのコンテンツを保存します。

OpenAIはブログ投稿で、ウェブサイト運営者はウェブサイトのRobots.txtファイルでGPTBotへのアクセスを無効にするか、IPアドレスをブロックすることで、GPTBotがウェブサイトからデータを取得するのを防ぐことができると述べた。 OpenAIはまた、「GPTBotユーザーエージェントを使用してクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、有料アクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを含むソースは除外されます」と述べています。除外基準を満たさないソースについては、「GPTBotがWebサイトにアクセスできるようにすることで、AIモデルの精度が向上し、全体的な機能と安全性が向上します。」

ただし、これによって、以前にウェブサイトからスクレイピングされたコンテンツが ChatGPT のトレーニング データから遡及的に削除されるわけではありません。

OpenAIのGPTモデルやGoogleのBardなど、大規模な言語モデルのトレーニングデータの多くはインターネットから提供されており、AIトレーニング用のデータの取得はますます議論の的となっている。 RedditやTwitterを含む一部のサイトでは、AI企業によるユーザーの投稿の自由利用を取り締まる措置が取られており、一方で一部の作家やクリエイターは、自身の作品の無断使用を理由に訴訟を起こしている。

<<: 

>>:  顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

ブログ    
ブログ    

推薦する

グラフを考慮した対照学習により多変量時系列分類が改善

本日は、シンガポール科学技術研究庁 (A*STAR) と南洋理工大学 (シンガポール) が AAAI...

ビジネスにおける人工知能の主な応用

[[412393]]人工知能を受け入れ、導入する企業が増えており、人工知能の応用が加速する兆しが見え...

Timsort アルゴリズムと Yutu 月面探査車のバグを見つけるにはどうすればよいでしょうか?

0×00 背景形式手法は、私たちのほとんどにとっては非常に高度なものです。せいぜい授業で聞いたこと...

科学的人工知能と疑似科学的人工知能を区別する方法

人工知能が進歩し続けるにつれて、研究者たちはその能力を向上させ、さまざまな分野で倫理的かつ責任を持っ...

ディープラーニングの発展とそれが引き起こした気候変動問題

人間の脳は極めて効率的な知能の源ですが、現在の AI はこのレベルに到達できません。 [[33099...

2023 年のエンタープライズ AI の現状: AI は仕事にどのような影響を与えるでしょうか?

11月8日、英国アバディーン大学の研究機関がAIがもたらす変化について詳細な調査を実施し、最新の研...

AutoXの完全無人タクシーが試験運用のため正式に一般公開

1月28日、深センの大手自動運転企業AutoXは自動運転の新たな段階に入り、平山区に中国初の完全自動...

人工知能は患者と医療業界の両方にどのような利益をもたらすのでしょうか?

人工知能は医療業界のシステムと方法を変えています。半世紀以上にわたり、人工知能とヘルスケアは一緒に発...

スポーツイベントではロボットが人間に取って代わるのでしょうか?

スポーツにロボットを導入することは、器用な移動、リアルタイムのモーション制御、経路計画などの最新ロボ...

...

スループットが5倍に向上、バックエンドシステムとフロントエンド言語を共同設計するLLMインターフェースが登場

大規模言語モデル (LLM) は、複数の連鎖生成呼び出し、高度なプロンプト技術、制御フロー、および外...

ヤン・ルカン:私は畳み込みニューラルネットワークの父ですが、その特許にも縛られてきました

[[409963]]学術研究の特許所有権は、研究者の研究成果を保護し、保証するものであるため、研究者...

...