OpenAI、ChatGPTのトレーニングで何百万ものユーザー情報を盗んだとして訴訟

OpenAI、ChatGPTのトレーニングで何百万ものユーザー情報を盗んだとして訴訟

有名モデルChatGPTの進路に、ちょっとした紆余曲折が訪れ始めた。

カリフォルニアに拠点を置く法律事務所クラークソンズは、営利を追求するOpenAIが、チャットボットが人間の言語を模倣できるよう人工知能モデルを訓練するために大量の個人情報を盗んでいるとして、157ページに及ぶ訴訟を起こしてOpenAIを訴えた。

訴訟によれば、データ窃盗の規模は前例のないものだ。 OpenAIは、書籍、記事、ウェブサイト、投稿、さらには個人情報を含む約3000億語のコンテンツをインターネットから秘密裏にクロールしていたことが判明し、プライバシー法に違反した。

写真

訴訟文書リンク: https://assets.bwbx.io/documents/users/iqjWHBFdfxIU/rIZH4FXwShJE/v0

この訴訟は、OpenAIが「文明の崩壊」の危険を冒していると非難している。彼らは、被害を受けた人の数が数百万人に上る可能性があると推定し、潜在的な損失を30億ドルと見積もった。

「OpenAIは、これまで知られていなかった数百万人の個人データを収集し、それを悪用して不安定でテストされていない技術を開発することで、すべての人を計り知れないリスクにさらしている。これは、責任あるデータ保護と使用の対策にかかわらず、受け入れられない」と、同法律事務所のパートナーであるティモシー・K・ジョルダーノ氏は述べた。

文書は、OpenAIがソーシャルメディアサイトを含む大量のデータをクロールしたことを示している。 OpenAI 独自の AI コーパス WebText2 には、Reddit の投稿やリンク先の Web サイトから取得したデータを含む、大量の個人データが蓄積されています。

OpenAIが取得したデータには、個人情報、プライベートな会話、医療データ、子供の情報などが含まれています。彼らは、ユーザーに通知することなく、ましてや許可を得ることなく、この情報を入手します。

訴訟では、OpenAIは一般大衆からデータを収集するだけでなく、ユーザーがOpenAIアカウントを作成した日時、チャットログ、ソーシャルメディアのメッセージなど、ユーザーの個人情報も保存し、開示していたと主張している。

写真

訴訟ではまた、個人情報を購入し使用する契約を交わしていたにもかかわらず、被告らはそれを「盗む」ために別の方法を取ったと主張している。

ChatGPTを直接使用する際に漏洩する情報に加え、ChatGPTアプリケーションを統合しているユーザーも影響を受けます。例えば、Snapchat、Stripe、Spotify、Microsoft Teams、Slackのユーザーも情報漏洩の危険にさらされています。

この訴訟は、OpenAIが、人々がデータ収集を拒否できるようにし、同社の製品が人間の知能を超えて他人に危害を加えるのを防ぐことなど、追加の規制と保護を実施するまで、OpenAI製品の商用アクセスと商用開発の一時停止を求めている。 OpenAIに加え、その主な支援者であるマイクロソフトも被告として挙げられた。

「AIプラットフォームが世界に多大な利益をもたらすことは間違いないが、人類に壊滅的なリスクをもたらす可能性もある」と訴状には記されている。

実際、インターネットを利用して大量のデータを取得し、AI モデルをトレーニングしている企業は OpenAI だけではありません。 Google、Meta、Microsoft、そしてますます多くの他の企業も同じことを行っています。しかし、この法律事務所のパートナーは、OpenAIを追及することに決めたのは、昨年、大手の競合他社がChatGPTを通じて独自のAI製品を立ち上げるきっかけとなったからだと語った。彼らはこの AI 軍拡競争を始めた企業であり、当然最初の標的です。

一つの波が静まる前に、別の波が起こります。ロイター通信によると、北京時間6月30日、さらに2人の著者が、OpenAIがChatGPTのトレーニングに自分たちの著作物を不正に使用したとして、サンフランシスコの米国連邦裁判所にOpenAIを訴えた。

マサチューセッツ州の作家、ポール・トランブレイ氏とモナ・アワド氏は、ChatGPTが何千冊もの本から許可なくデータを採掘し、著者の著作権を侵害していると主張した。

ご存知のとおり、ChatGPT やその他の生成 AI システムは、インターネットから取得した大量のデータを使用してコンテンツを作成します。トランブレイ氏とアワド氏の訴訟では、書籍は高品質の長編作品の最良の例を提供しているため、重要な要素であるとしている。

OpenAIのトレーニングデータには30万冊以上の書籍が含まれており、その多くは許可なく違法に入手された著作権のある書籍であると推定されている。

Tremblay 氏と Awad 氏は、ChatGPT はデータベースに載っている書籍の非常に正確な要約を生成できると述べています。

しばらくの間、OpenAI のトレーニング データを取り巻く問題が引き続き暴露されていました。

実際、昨年 11 月に ChatGPT がリリースされて以来、テキスト、音声、画像、ビデオなどを作成できる機能により、生成 AI が非常に人気になっています。個人データへの脅威に対する懸念にもかかわらず、人々は生成 AI を個人的、職業的、学術的な目的で使用しようとしてきました。

ChatGPTがもたらす潜在的なリスクに対応して、イタリアは今年3月、プライバシー上の懸念からChatGPTへのアクセスを一時的に禁止すると発表し、ChatGPTのトレーニングに使用された大規模なデータが合法であることを証明する法的根拠がないと主張した。アマゾンやマイクロソフトを含む一部の企業は、従業員に対し、チャットボットに機密情報を入力しないよう指示している。一方、サムスンは全従業員に対し、生成AIツールの使用を禁止した。

さらに、人工知能が誤った情報を拡散したり、悪意を持って意図的に利用したりする人が出てくるのではないかと懸念されています。

ChatGPT の成功により、テクノロジー業界では明らかな AI 軍拡競争が始まっており、現在、大小さまざまな企業が AI ツールの開発と、できるだけ多くの製品への導入を競い合っています。しかし、何があっても、情報セキュリティが最優先です。

<<: 

>>:  GPTのようなモデルのトレーニング速度が26.5%向上、清華大学の朱俊らはINT4アルゴリズムを使用してニューラルネットワークのトレーニングを加速

ブログ    

推薦する

製造業の発展は新たな課題に直面しており、人工知能が重要な役割を果たすだろう

[[245913]]現在、製造業の発展は新たな歴史的時期を迎えており、世界各国間の競争の焦点となって...

AVFormer: ゼロショット AV-ASR のフリーズドスピーチモデルに視覚を注入

翻訳者 | 崔昊レビュー | ChonglouまとめGoogle Research の研究科学者であ...

...

人気ゲーム2048 - AIプログラムアルゴリズム分析

現在人気の2048ゲームでは、誰かが高確率(90%以上)でゲームに勝つことができるAIプログラムを実...

...

人工知能の発展は、人間社会が現実から仮想へと向かう傾向を反映している。

人類は遊牧から農耕へ、そして農耕から工業化へと移行しました。工業化の後半は情報化であり、情報化の究極...

...

Stability AIがAIプログラミングツール「StableCode」をリリース

Stability AI は、プログラミング用の最初の生成 LLM AI 製品である StableC...

AIチップは誤った提案か?

[[333019]]この記事は、劉燕氏が執筆したWeChatパブリックアカウント「AI Front...

...

LLM にとってベクター データベースが重要なのはなぜですか?

翻訳者 |ブガッティレビュー | Chonglou Twitter 、 LinkedIn 、またはニ...

...

...

バイリアン・スマートが2021 NIDIアジェンダ中国新小売・デジタルイノベーションサミットに出席

6月22日、2021NIDIアジェンダ中国新小売・デジタルイノベーションサミットが上海で盛大に開催さ...