8月8日、OpenAIのGPTモデルのトレーニングには大量のネットワークデータが必要であり、データのプライバシーや著作権などの問題が伴う可能性があると報じられた。これらの問題に対処するため、OpenAI は最近、Web クローラーが Web サイトからデータをスクレイピングして GPT モデルをトレーニングするのを Web サイトが防止できる新しい機能をリリースしました。 IT Home によると、Web クローラーは、インターネット上の情報を検索して取得できる自動プログラムです。 OpenAI の Web クローラーは GPTBot と呼ばれます。一定の頻度でさまざまな Web サイトにアクセスし、GPT モデルのトレーニング用に Web ページのコンテンツを保存します。 OpenAIはブログ投稿で、ウェブサイト運営者はウェブサイトのRobots.txtファイルでGPTBotへのアクセスを無効にするか、IPアドレスをブロックすることで、GPTBotがウェブサイトからデータを取得するのを防ぐことができると述べた。 OpenAIはまた、「GPTBotユーザーエージェントを使用してクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、有料アクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを含むソースは除外されます」と述べています。除外基準を満たさないソースについては、「GPTBotがWebサイトにアクセスできるようにすることで、AIモデルの精度が向上し、全体的な機能と安全性が向上します。」 ただし、これによって、以前にウェブサイトからスクレイピングされたコンテンツが ChatGPT のトレーニング データから遡及的に削除されるわけではありません。 OpenAIのGPTモデルやGoogleのBardなど、大規模な言語モデルのトレーニングデータの多くはインターネットから提供されており、AIトレーニング用のデータの取得はますます議論の的となっている。 RedditやTwitterを含む一部のサイトでは、AI企業によるユーザーの投稿の自由利用を取り締まる措置が取られており、一方で一部の作家やクリエイターは、自身の作品の無断使用を理由に訴訟を起こしている。 |
>>: 顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある
[[402949]]顔認識技術の向上が進む一方で、その技術を取り巻くプライバシーに関する懸念も浮上し...
6月末、わが国各省市で大学入試結果が次々と発表される中、学生の専攻選択は統計的な傾向に新たな波を起こ...
平等な代表から AI 法制へ AI の倫理基準を改善するには、テクノロジーにおける平等な代表と、EU...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
顔認識技術は、顔の特徴に基づいて人物を識別する高度な認識技術です。非感度、利便性、正確性から広く利用...
少し前に、自称メディアスターの板狐仙人が「自動運転のいくつかの期限問題」を発表し、将来の自動運転の実...
[[229034]] Face Id は、高性能な顔認証ソフトウェアです。公式の主張は、「100 ...
[[257487]] [51CTO.com クイック翻訳] 音声アシスタントの台頭により、マーケティ...
6月14日、プログラミングに関する質問と回答のウェブサイト「Stack Overflow」が発表し...
[51CTO.com クイック翻訳]グラフィックは人々の仕事や生活のいたるところに存在します。たと...
調査会社ガートナーの調査によると、2021年までに世界中の組織が人工知能を通じて約3兆ドルのビジネス...