8月8日、OpenAIのGPTモデルのトレーニングには大量のネットワークデータが必要であり、データのプライバシーや著作権などの問題が伴う可能性があると報じられた。これらの問題に対処するため、OpenAI は最近、Web クローラーが Web サイトからデータをスクレイピングして GPT モデルをトレーニングするのを Web サイトが防止できる新しい機能をリリースしました。 IT Home によると、Web クローラーは、インターネット上の情報を検索して取得できる自動プログラムです。 OpenAI の Web クローラーは GPTBot と呼ばれます。一定の頻度でさまざまな Web サイトにアクセスし、GPT モデルのトレーニング用に Web ページのコンテンツを保存します。 OpenAIはブログ投稿で、ウェブサイト運営者はウェブサイトのRobots.txtファイルでGPTBotへのアクセスを無効にするか、IPアドレスをブロックすることで、GPTBotがウェブサイトからデータを取得するのを防ぐことができると述べた。 OpenAIはまた、「GPTBotユーザーエージェントを使用してクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、有料アクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを含むソースは除外されます」と述べています。除外基準を満たさないソースについては、「GPTBotがWebサイトにアクセスできるようにすることで、AIモデルの精度が向上し、全体的な機能と安全性が向上します。」 ただし、これによって、以前にウェブサイトからスクレイピングされたコンテンツが ChatGPT のトレーニング データから遡及的に削除されるわけではありません。 OpenAIのGPTモデルやGoogleのBardなど、大規模な言語モデルのトレーニングデータの多くはインターネットから提供されており、AIトレーニング用のデータの取得はますます議論の的となっている。 RedditやTwitterを含む一部のサイトでは、AI企業によるユーザーの投稿の自由利用を取り締まる措置が取られており、一方で一部の作家やクリエイターは、自身の作品の無断使用を理由に訴訟を起こしている。 |
>>: 顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある
「GenAIは、農業革命と産業革命以来、最も重要な変革となるかもしれません。」まあ、心配しないでくだ...
強化学習 (RL) アルゴリズムのトレーニング プロセスでは、サポートとして環境との相互作用のサンプ...
「合成感情」は人工知能の発展を妨げるのか?私たちは他の人とコミュニケーションをとるとき、通常は直接...
1. 要件の説明数字の文字列を入力し、その文字列を整数に変換して出力するプログラムを作成します。たと...
翻訳者 |ブガッティレビュー | Chonglou事前トレーニング済みのAIモデルがすぐに利用できる...
北京大学とテンセントがマルチモーダル15角形の戦士を制作しました!言語を中心に据えて、ビデオ、オーデ...
Leifeng.com(公式アカウント:Leifeng.com)注:少し前、2020年世界インテリジ...
写真トークン、ベクトル、埋め込み、アテンション、これらの AI モデル用語は、いつも馴染みがありそう...
今日のロボットで重要な役割を果たしているいくつかの主要なセンサー技術には、磁気位置センサー、存在セン...
著者 | 屈譚旭洋 他LBS (位置情報サービス) の距離制約により、候補数が少ないと店内広告ランキ...
[51CTO.com クイック翻訳] 現在、機械学習(ML)と人工知能(AI)に関連するアルゴリズム...
テキストから画像への (T2I) 拡散モデルは、大規模な画像とテキストのペアで事前トレーニングされて...
今日、衝撃的なニュースが突然飛び込んできました。スタンフォード大学のマーク・テシエ・ラヴィーンの学長...