ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしまう可能性がある。

単語を繰り返すように指示するだけで、一定回数繰り返すと狂ったように反応し、防御することなく誰かの個人情報を漏らしてしまうこともあります。

DeepMind の研究者は、ワシントン大学、コーネル大学、その他の大学と共同で、ChatGPT にデータ漏洩の脆弱性を発見しました。

彼らの方法を使用すると、予算が十分であれば、約 1GB のトレーニング データを抽出できます。

さらに恐ろしいのは、トレーニング時間が長くなればなるほど、つまりモデルの性能が高ければ高いほど、漏洩するデータが増えるということです。

研究チームは論文が発表される90日前にこの状況をOpenAIに報告し、OpenAIはいくつかの修正を加えた。

しかし、これまでのところ、一部のネットユーザーは、論文内の言葉を変えるとバグが再び現れることを発見した。

では、この脆弱性とは一体何なのでしょうか?

データ漏洩を防ぐのは難しい

作者が ChatGPT (API アクセス、バージョン 3.5-turbo) を攻撃する方法は、ダイバージェンス攻撃と呼ばれます。

ChatGPT に単語を複数回繰り返すように要求すると、モデルが通常のおしゃべり生成から逸脱し、トレーニング データに近いテキストを出力し始める場合があることが分かりました。

これらのコンテンツは、個人情報、文学作品、学術論文、リンク、コードなど多岐にわたり、職場に適さないコンテンツも存在します。

これらのコンテンツがトレーニング データに由来するものかどうかを確認するために、著者は複数の公開モデルのトレーニング データを使用して AuxDataset データセットを形成しました(ChatGPT データセットは公開されていないため、他のモデルのデータを通じてのみ推定できます)

AuxDataset にヒットしたコンテンツは数万件に上ることがわかりました。これらのコンテンツの長さはさまざまで、最も長いものは 4,000 トークン以上ありました。

著者らはまた、この攻撃方法は単語 1 つのプロンプトには効果的であるが、複数単語のプロンプトにはそれほど効果的ではないことを発見しました。特に、繰り返される単語が「company」である場合、最も多くの情報を取得できます。

著者らはグッドチューリング推定量を使用して ChatGPT で検索可能なメモリの総量を推定し、少なくとも 150 万個の固有の 50 グラムシーケンス (50 個の隣接するトークン) が検索可能であると結論付けました。

しかし、予算の制約により、この推定では抽出できるデータのサイズが過小評価される可能性があると著者らは述べている。

API だけでなく、ChatGPT の公式 Web バージョンでも同じ結果が得られる可能性は同じです。つまり、モデル外部の「システム ガードレール」ではこの一連の攻撃を防ぐことはできません。

簡単なテストを実施したところ、この脆弱性はまだ完全に修正されていないことが判明しました。

繰り返される単語が「テキスト」の場合、ChatGPT は何も出力せず、会話に奇妙なタイトルを付けます。

繰り返される単語が「company」の場合、ChatGPT は 3 回の再生成後に Instagram のコピーであると疑われるコンテンツを出力しました。

しかし、この攻撃方法は現時点ではバージョン3.5に対してのみ有効であり、GPT-4は漏洩を防ぐために特別に調整されているため回避できたと作者は述べています。

このアライメントはバージョン 3.5 でも設定されていますが、論文で紹介されているヒント ワード攻撃方法を使用すると、バージョン 3.5 の防御策を回避できます。

著者は ChatGPT に加えて、Llama、Falcon、Mistral などのオープンソースまたはセミオープンソース モデルもテストし、それらにもデータ漏洩があることを発見しました。

モデルの性能が高ければ高いほど、漏洩するデータも多くなります。ChatGPT によって漏洩するデータの量は、他のモデルに比べて大幅に多くなっています。

漏洩は言語モデルに限定されません。チームは以前、Stable Diffusion のトレーニング データセットから人物の写真やその他の種類の画像約 100 枚を抽出しました。

トレーニング データ セット内の人物の名前をプロンプトとして使用すると、Stable Diffusion は「怠惰」になり、写真を出力結果として直接使用することを発見しました。

ネットユーザー:他の攻撃方法もある

この論文で言及されている方法は、孤立したケースではありません。同様の結果を達成できる攻撃方法は他にもあります。たとえば、意味のない 123ABC と簡単なコードを使用して、ChatGPT にオゾン層に関するテキストを生成させる方法があります。

発見者は、これは ChatGPT の入力クリーニング メカニズムの脆弱性によって発生したと説明しました。この脆弱性により、入れ子人形スタイルの 2 つの <|endoftext> タグのうち内側の 1 つがクリアされましたが、外側の「シェル」は初期形式が分解されたため無視されました。

著者とネットユーザーによるこれらの新たな発見は、ChatGPT が EU 一般データ保護規則 (GDPR) に違反していることを意味しており、その結果 OpenAI が問題に巻き込まれる可能性がある。

GDPR第17条では、データ主体(ユーザー)は管理者(モデル開発者)に対して、自分に関連する個人データを即時に削除するよう要求する権利、すなわち「忘れられる権利」を有すると規定されています。

しかし、この種の攻撃は安価ではないため、個人がこれについてあまり心配する必要はありません。

この実験では、研究者は数MBのデータを抽出するために200ドルを費やしました。

それで、ChatGPT のデータ漏洩についてどう思いますか?

論文アドレス: https://arxiv.org/abs/2311.17035

<<: 

>>:  マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答:残念なリーク

ブログ    
ブログ    

推薦する

...

...

機械学習における3つの重要なデータ課題

機械学習にとってデータがどれほど重要であるかは誰もが知っています。データ アクセス パターンを理解す...

Docker ネットワーク管理: コンテナとホストの接続

Docker ネットワーク管理は、コンテナをホストに接続し、Docker コンテナ環境での通信とネッ...

...

多くの場所で違法な顔認識を禁止する法律が制定されています。ビッグデータは個人にどのような悪影響を及ぼすでしょうか?

先月、個人情報保護のため、「ヘルメットをかぶって家を眺める」男性の短い動画がネット上で拡散され、ネッ...

...

機械学習プロセスにおける3つの落とし穴、どれを踏んでしまったか確認しましょう

[[273444]]ビッグデータダイジェスト制作編集者: Vicky、Cao Peixin機械学習の...

Jitu: 5秒でNeRFをトレーニングしましょう!オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

...

2020 年に AI、分析、データ ガバナンスに影響を与える 5 つのトレンド

企業レベルの人工知能は、まさに臨界質量に達しました。 AI があらゆるビジネスの主要な構成要素となる...

人工知能の3つの人生を10分で紹介します

AIは2016年以来最もホットなキーワードであり、それについてはさまざまな意見があります。バブルがは...