OpenAI、ChatGPTのトレーニングで何百万ものユーザー情報を盗んだとして訴訟

有名モデルChatGPTの進路に、ちょっとした紆余曲折が訪れ始めた。

カリフォルニアに拠点を置く法律事務所クラークソンズは、営利を追求するOpenAIが、チャットボットが人間の言語を模倣できるよう人工知能モデルを訓練するために大量の個人情報を盗んでいるとして、157ページに及ぶ訴訟を起こしてOpenAIを訴えた。

訴訟によれば、データ窃盗の規模は前例のないものだ。 OpenAIは、書籍、記事、ウェブサイト、投稿、さらには個人情報を含む約3000億語のコンテンツをインターネットから秘密裏にクロールしていたことが判明し、プライバシー法に違反した。

写真

訴訟文書リンク: https://assets.bwbx.io/documents/users/iqjWHBFdfxIU/rIZH4FXwShJE/v0

この訴訟は、OpenAIが「文明の崩壊」の危険を冒していると非難している。彼らは、被害を受けた人の数が数百万人に上る可能性があると推定し、潜在的な損失を30億ドルと見積もった。

「OpenAIは、これまで知られていなかった数百万人の個人データを収集し、それを悪用して不安定でテストされていない技術を開発することで、すべての人を計り知れないリスクにさらしている。これは、責任あるデータ保護と使用の対策にかかわらず、受け入れられない」と、同法律事務所のパートナーであるティモシー・K・ジョルダーノ氏は述べた。

文書は、OpenAIがソーシャルメディアサイトを含む大量のデータをクロールしたことを示している。 OpenAI 独自の AI コーパス WebText2 には、Reddit の投稿やリンク先の Web サイトから取得したデータを含む、大量の個人データが蓄積されています。

OpenAIが取得したデータには、個人情報、プライベートな会話、医療データ、子供の情報などが含まれています。彼らは、ユーザーに通知することなく、ましてや許可を得ることなく、この情報を入手します。

訴訟では、OpenAIは一般大衆からデータを収集するだけでなく、ユーザーがOpenAIアカウントを作成した日時、チャットログ、ソーシャルメディアのメッセージなど、ユーザーの個人情報も保存し、開示していたと主張している。

写真

訴訟ではまた、個人情報を購入し使用する契約を交わしていたにもかかわらず、被告らはそれを「盗む」ために別の方法を取ったと主張している。

ChatGPTを直接使用する際に漏洩する情報に加え、ChatGPTアプリケーションを統合しているユーザーも影響を受けます。例えば、Snapchat、Stripe、Spotify、Microsoft Teams、Slackのユーザーも情報漏洩の危険にさらされています。

この訴訟は、OpenAIが、人々がデータ収集を拒否できるようにし、同社の製品が人間の知能を超えて他人に危害を加えるのを防ぐことなど、追加の規制と保護を実施するまで、OpenAI製品の商用アクセスと商用開発の一時停止を求めている。 OpenAIに加え、その主な支援者であるマイクロソフトも被告として挙げられた。

「AIプラットフォームが世界に多大な利益をもたらすことは間違いないが、人類に壊滅的なリスクをもたらす可能性もある」と訴状には記されている。

実際、インターネットを利用して大量のデータを取得し、AI モデルをトレーニングしている企業は OpenAI だけではありません。 Google、Meta、Microsoft、そしてますます多くの他の企業も同じことを行っています。しかし、この法律事務所のパートナーは、OpenAIを追及することに決めたのは、昨年、大手の競合他社がChatGPTを通じて独自のAI製品を立ち上げるきっかけとなったからだと語った。彼らはこの AI 軍拡競争を始めた企業であり、当然最初の標的です。

一つの波が静まる前に、別の波が起こります。ロイター通信によると、北京時間6月30日、さらに2人の著者が、OpenAIがChatGPTのトレーニングに自分たちの著作物を不正に使用したとして、サンフランシスコの米国連邦裁判所にOpenAIを訴えた。

マサチューセッツ州の作家、ポール・トランブレイ氏とモナ・アワド氏は、ChatGPTが何千冊もの本から許可なくデータを採掘し、著者の著作権を侵害していると主張した。

ご存知のとおり、ChatGPT やその他の生成 AI システムは、インターネットから取得した大量のデータを使用してコンテンツを作成します。トランブレイ氏とアワド氏の訴訟では、書籍は高品質の長編作品の最良の例を提供しているため、重要な要素であるとしている。

OpenAIのトレーニングデータには30万冊以上の書籍が含まれており、その多くは許可なく違法に入手された著作権のある書籍であると推定されている。

Tremblay 氏と Awad 氏は、ChatGPT はデータベースに載っている書籍の非常に正確な要約を生成できると述べています。

しばらくの間、OpenAI のトレーニングデータを取り巻く問題が引き続き暴露されていました。

実際、昨年 11 月に ChatGPT がリリースされて以来、テキスト、音声、画像、ビデオなどを作成できる機能により、生成 AI が非常に人気になっています。個人データへの脅威に対する懸念にもかかわらず、人々は生成 AI を個人的、職業的、学術的な目的で使用しようとしてきました。

ChatGPTがもたらす潜在的なリスクに対応して、イタリアは今年3月、プライバシー上の懸念からChatGPTへのアクセスを一時的に禁止すると発表し、ChatGPTのトレーニングに使用された大規模なデータが合法であることを証明する法的根拠がないと主張した。アマゾンやマイクロソフトを含む一部の企業は、従業員に対し、チャットボットに機密情報を入力しないよう指示している。一方、サムスンは全従業員に対し、生成AIツールの使用を禁止した。

さらに、人工知能が誤った情報を拡散したり、悪意を持って意図的に利用したりする人が出てくるのではないかと懸念されています。

ChatGPT の成功により、テクノロジー業界では明らかな AI 軍拡競争が始まっており、現在、大小さまざまな企業が AI ツールの開発と、できるだけ多くの製品への導入を競い合っています。しかし、何があっても、情報セキュリティが最優先です。

<<:

>>: GPTのようなモデルのトレーニング速度が26.5％向上、清華大学の朱俊らはINT4アルゴリズムを使用してニューラルネットワークのトレーニングを加速