OpenAIは、AIモデルのトレーニングにデータが使用されるのを防ぐために、ウェブサイトがウェブクローラーによるデータのクロールをブロックすることを許可しました。

8月8日、OpenAIのGPTモデルのトレーニングには大量のネットワークデータが必要であり、データのプライバシーや著作権などの問題が伴う可能性があると報じられた。これらの問題に対処するため、OpenAI は最近、Web クローラーが Web サイトからデータをスクレイピングして GPT モデルをトレーニングするのを Web サイトが防止できる新しい機能をリリースしました。

IT Home によると、Web クローラーは、インターネット上の情報を検索して取得できる自動プログラムです。 OpenAI の Web クローラーは GPTBot と呼ばれます。一定の頻度でさまざまな Web サイトにアクセスし、GPT モデルのトレーニング用に Web ページのコンテンツを保存します。

OpenAIはブログ投稿で、ウェブサイト運営者はウェブサイトのRobots.txtファイルでGPTBotへのアクセスを無効にするか、IPアドレスをブロックすることで、GPTBotがウェブサイトからデータを取得するのを防ぐことができると述べた。 OpenAIはまた、「GPTBotユーザーエージェントを使用してクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、有料アクセスを必要とするソース、個人を特定できる情報（PII）を収集することが知られているソース、または当社のポリシーに違反するテキストを含むソースは除外されます」と述べています。除外基準を満たさないソースについては、「GPTBotがWebサイトにアクセスできるようにすることで、AIモデルの精度が向上し、全体的な機能と安全性が向上します。」

ただし、これによって、以前にウェブサイトからスクレイピングされたコンテンツが ChatGPT のトレーニングデータから遡及的に削除されるわけではありません。

OpenAIのGPTモデルやGoogleのBardなど、大規模な言語モデルのトレーニングデータの多くはインターネットから提供されており、AIトレーニング用のデータの取得はますます議論の的となっている。 RedditやTwitterを含む一部のサイトでは、AI企業によるユーザーの投稿の自由利用を取り締まる措置が取られており、一方で一部の作家やクリエイターは、自身の作品の無断使用を理由に訴訟を起こしている。

<<:

>>: 顔認識技術の応用の安全管理に関する規定（試行）コメント：1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

ChatGPTのAndroid版は来週リリースされます！ OpenAIがAI帝国のパズルの最後のピースを完成させる

ブログ

OpenAIは、AIモデルのトレーニングにデータが使用されるのを防ぐために、ウェブサイトがウェブクローラーによるデータのクロールをブロックすることを許可しました。

ChatGPTのAndroid版は来週リリースされます！ OpenAIがAI帝国のパズルの最後のピースを完成させる

科学者たちはショウジョウバエの脳をハッキングしてNLPタスクを実行し、BERTよりも効率的であることを発見した。

毎日のアルゴリズム: 上位 K 個の高頻度要素

錬金術をより形而上学的にしましょう！蘇州大学の博士課程では「天の幹と地の枝」を使ってランダムシードを生成しており、このプロジェクトはオープンソース化されている。

人工知能はブロックチェーン業界にどのような影響を与えるのでしょうか?

誰もが知っておくべきAIのパイオニア14人

壁を登る毛虫のように、上海交通大学の新しいソフトロボットは水平にも垂直にも動くことができる

推薦する

それは祝福でしょうか、それとも呪いでしょうか?顔認識技術の長所と短所

求人検索サイトIndeedの統計：AI採用は減速、求職者の関心は低下

AI倫理の夜明け

ディープラーニングは物理システムのシミュレーションを変え、速度を最大20億倍に高めている。

顔認識技術の応用リスクと法的規制

自動運転に関する期限の問題

Python の顔認識の優れた教育例、顔認識システムを構築するための 40 行のコード!

音声技術市場には発展のチャンスがあるが、落とし穴には注意が必要

報告書によると、プログラマーの70%がプログラミングにさまざまなAIツールを使用している。

グラフニューラルネットワーク (GNN) とは何ですか?

人工知能が人間の能力を高める4つの方法