ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしまう可能性がある。

単語を繰り返すように指示するだけで、一定回数繰り返すと狂ったように反応し、防御することなく誰かの個人情報を漏らしてしまうこともあります。

DeepMind の研究者は、ワシントン大学、コーネル大学、その他の大学と共同で、ChatGPT にデータ漏洩の脆弱性を発見しました。

彼らの方法を使用すると、予算が十分であれば、約 1GB のトレーニング データを抽出できます。

さらに恐ろしいのは、トレーニング時間が長くなればなるほど、つまりモデルの性能が高ければ高いほど、漏洩するデータが増えるということです。

研究チームは論文が発表される90日前にこの状況をOpenAIに報告し、OpenAIはいくつかの修正を加えた。

しかし、これまでのところ、一部のネットユーザーは、論文内の言葉を変えるとバグが再び現れることを発見した。

では、この脆弱性とは一体何なのでしょうか?

データ漏洩を防ぐのは難しい

作者が ChatGPT (API アクセス、バージョン 3.5-turbo) を攻撃する方法は、ダイバージェンス攻撃と呼ばれます。

ChatGPT に単語を複数回繰り返すように要求すると、モデルが通常のおしゃべり生成から逸脱し、トレーニング データに近いテキストを出力し始める場合があることが分かりました。

これらのコンテンツは、個人情報、文学作品、学術論文、リンク、コードなど多岐にわたり、職場に適さないコンテンツも存在します。

これらのコンテンツがトレーニング データに由来するものかどうかを確認するために、著者は複数の公開モデルのトレーニング データを使用して AuxDataset データセットを形成しました(ChatGPT データセットは公開されていないため、他のモデルのデータを通じてのみ推定できます)

AuxDataset にヒットしたコンテンツは数万件に上ることがわかりました。これらのコンテンツの長さはさまざまで、最も長いものは 4,000 トークン以上ありました。

著者らはまた、この攻撃方法は単語 1 つのプロンプトには効果的であるが、複数単語のプロンプトにはそれほど効果的ではないことを発見しました。特に、繰り返される単語が「company」である場合、最も多くの情報を取得できます。

著者らはグッドチューリング推定量を使用して ChatGPT で検索可能なメモリの総量を推定し、少なくとも 150 万個の固有の 50 グラムシーケンス (50 個の隣接するトークン) が検索可能であると結論付けました。

しかし、予算の制約により、この推定では抽出できるデータのサイズが過小評価される可能性があると著者らは述べている。

API だけでなく、ChatGPT の公式 Web バージョンでも同じ結果が得られる可能性は同じです。つまり、モデル外部の「システム ガードレール」ではこの一連の攻撃を防ぐことはできません。

簡単なテストを実施したところ、この脆弱性はまだ完全に修正されていないことが判明しました。

繰り返される単語が「テキスト」の場合、ChatGPT は何も出力せず、会話に奇妙なタイトルを付けます。

繰り返される単語が「company」の場合、ChatGPT は 3 回の再生成後に Instagram のコピーであると疑われるコンテンツを出力しました。

しかし、この攻撃方法は現時点ではバージョン3.5に対してのみ有効であり、GPT-4は漏洩を防ぐために特別に調整されているため回避できたと作者は述べています。

このアライメントはバージョン 3.5 でも設定されていますが、論文で紹介されているヒント ワード攻撃方法を使用すると、バージョン 3.5 の防御策を回避できます。

著者は ChatGPT に加えて、Llama、Falcon、Mistral などのオープンソースまたはセミオープンソース モデルもテストし、それらにもデータ漏洩があることを発見しました。

モデルの性能が高ければ高いほど、漏洩するデータも多くなります。ChatGPT によって漏洩するデータの量は、他のモデルに比べて大幅に多くなっています。

漏洩は言語モデルに限定されません。チームは以前、Stable Diffusion のトレーニング データセットから人物の写真やその他の種類の画像約 100 枚を抽出しました。

トレーニング データ セット内の人物の名前をプロンプトとして使用すると、Stable Diffusion は「怠惰」になり、写真を出力結果として直接使用することを発見しました。

ネットユーザー:他の攻撃方法もある

この論文で言及されている方法は、孤立したケースではありません。同様の結果を達成できる攻撃方法は他にもあります。たとえば、意味のない 123ABC と簡単なコードを使用して、ChatGPT にオゾン層に関するテキストを生成させる方法があります。

発見者は、これは ChatGPT の入力クリーニング メカニズムの脆弱性によって発生したと説明しました。この脆弱性により、入れ子人形スタイルの 2 つの <|endoftext> タグのうち内側の 1 つがクリアされましたが、外側の「シェル」は初期形式が分解されたため無視されました。

著者とネットユーザーによるこれらの新たな発見は、ChatGPT が EU 一般データ保護規則 (GDPR) に違反していることを意味しており、その結果 OpenAI が問題に巻き込まれる可能性がある。

GDPR第17条では、データ主体(ユーザー)は管理者(モデル開発者)に対して、自分に関連する個人データを即時に削除するよう要求する権利、すなわち「忘れられる権利」を有すると規定されています。

しかし、この種の攻撃は安価ではないため、個人がこれについてあまり心配する必要はありません。

この実験では、研究者は数MBのデータを抽出するために200ドルを費やしました。

それで、ChatGPT のデータ漏洩についてどう思いますか?

論文アドレス: https://arxiv.org/abs/2311.17035

<<: 

>>:  マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答:残念なリーク

ブログ    
ブログ    

推薦する

HTTPS の脆弱性が再び明らかに、企業は SSL/TLS 暗号化アルゴリズムをアップグレードする必要がある

CBC および RC4 暗号化アルゴリズムが相次いで「衰退」しているため、SSL/TLS に依存して...

宇宙も「独学」です!このプロセスは機械学習アルゴリズムに似ており、物理法則を刷新するものである。

宇宙は自ら学ぶことができるのでしょうか?科学者たちは、自ら学ぶ能力を持つ宇宙、「自己学習宇宙」という...

運輸・物流におけるAIと自動化のユースケース

[[343865]] [51CTO.com速訳]調査によると、コロナウイルスの流行により、多くの国と...

2022年に注目すべき4つのRPAトレンド

ロボティック・プロセス・オートメーション (RPA) はもはや目新しいものではなく、進化し成熟しつつ...

...

IT 業界で最も過小評価されている 6 つのテクノロジーと、まだ廃れていない 1 つのテクノロジー

翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年、生成 AI、具体的には Chat...

Dialogflow、Lex、Watson、Wit、Azure Robots の比較

[51CTO.com クイック翻訳] チャットボットは顧客とコミュニケーションをとる革新的な方法です...

AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

[[336650]]驚くべきことに、COVID-19の世界的大流行の中で、フィットネスやエクササイ...

ChatGPT-4 に基づく IDEA スマート アシスタントの使い方を教えます

遅れて気づいて申し訳ありません。この記事を読んでいる友人の中には、すでにこのプラグインをインストール...

ジェネレーティブ AI 時代のデータ センターの再構築

最近の人工知能に関する議論には、OpenAI の大規模言語モデル (LLM) の GPT ファミリー...

AI が企業のランサムウェア対策やクラウド セキュリティ侵害防止にどのように役立つか

サイバーセキュリティの状況は毎年、組織が対処する必要のある新たな課題や障害をもたらしており、たとえば...

Facebook は、自社の成功の要因となったアルゴリズムをどうやって修正できるのでしょうか?

[[428596]]専門家はCNNに対し、フェイスブックのアルゴリズムは改善できる可能性があると語...

...

CV退化!心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

世界中の人々は笑ったり悲しんだりするときに同じ表情をしますか? [[402741]]人々の表情が一貫...