清華大学チームは、GPT-4V、Google Bard、その他のモデルをクラックしました。商用のマルチモーダル大規模モデルも脆弱なのでしょうか?

清華大学チームは、GPT-4V、Google Bard、その他のモデルをクラックしました。商用のマルチモーダル大規模モデルも脆弱なのでしょうか?

GPT-4 は最近、視覚モダリティ (GPT-4V) を公開しました。 GPT-4V や Google Bard に代表されるマルチモーダル大規模言語モデル (MLLM) は、テキストと視覚のモダリティを組み合わせ、画像の説明や視覚的推論などのさまざまなマルチモーダル タスクで優れたパフォーマンスを発揮します。しかし、視覚モデルは長い間、敵対的堅牢性が低いという問題に悩まされており、視覚モダリティを導入する MLLM は実際のアプリケーションでは依然としてこのセキュリティ リスクを抱えています。オープンソース MLLM に関する最近のいくつかの研究では、この脆弱性の存在が実証されていますが、より困難な非オープンソースの商用 MLLM の敵対的堅牢性についてはあまり調査されていません。

清華大学の朱軍教授が率いるAI基礎理論イノベーションチームは、商用MLLMの脆弱性をより深く理解するために、商用MLLMの敵対的堅牢性に関する研究を実施しました。 GPT-4VやGoogle Bardなどのモデルはマルチモーダルインターフェースを公開していますが、その内部モデル構造やトレーニングデータセットは不明のままであり、複雑な防御メカニズムが備わっています。それにもかかわらず、この研究では、ホワイトボックス画像エンコーダーまたは MLLM を攻撃することで、生成された敵対的サンプルがブラックボックスの商用 MLLM に誤った画像の説明を出力させる可能性があり、攻撃成功率は GPT-4V で 45%、Bard で 22%、Bing Chat で 26% であることがわかりました。同時に、研究チームは、敵対的攻撃が顔検出や画像毒性検出のためのBardなどのモデルの防御メカニズムをうまく回避し、モデルにセキュリティリスクをもたらす可能性があることも発見しました。

  • 論文リンク: https://arxiv.org/abs/2309.11751
  • コードリンク: https://github.com/thu-ml/ares/tree/attack_bard

図 1: 大規模なマルチモーダル モデルに対する敵対的攻撃の例。これにより、モデルは誤った予測を行ったり、セキュリティ検出モジュールをバイパスしたりする可能性があります。

次の図は、Bard に対する攻撃テストを示しています。自然なサンプル画像を入力する場合、Bard は画像内の被写体 (「パンダの顔」) を正しく説明できますが、敵対的なサンプルを入力する場合、Bard は画像の被写体を「女性の顔」と誤分類します。

反撃方法

MLLM は通常、ビジュアル エンコーダーを使用して画像の特徴を抽出し、それを整列させて大規模な言語モデルに送り込み、対応するテキスト記述を生成します。そこで研究チームは、MLLM を攻撃するための 2 つの方法、画像特徴攻撃とテキスト記述攻撃を提案しました。画像特徴攻撃は、敵対的サンプルの特徴を元の画像の特徴から逸脱させます。敵対的サンプルが画像の特徴表現を破壊できれば、生成されたテキストは必然的に影響を受けるからです。一方、テキスト記述攻撃はプロセス全体を直接標的とし、生成された記述を正しい記述とは異なるものにします。

画像特徴攻撃:自然サンプルを表し、 は代替画像エンコーダーのセットを表します。画像特徴攻撃の目的関数は次のように表すことができます。

最適化は、敵対的サンプル x と自然サンプルの画像特徴間の距離を最大化すると同時に、 x と 間の距離が摂動スケールよりも小さくなるようにすることで実行されます

テキスト記述攻撃:画像 x、テキストプロンプト p、および以前に予測された単語 が与えられた場合に次の単語の確率分布を予測できる代替 MLLM のセットを と表します。したがって、テキスト記述攻撃は、ターゲット文を予測する対数尤度を最大化するものとして定式化できます。

画像の正しい説明は複数あるため、テキスト説明攻撃は、真の説明の対数尤度を最小化する非標的型攻撃ではなく、特定の対象文に対する標的型攻撃であることに注目する価値があります。

攻撃方法:上記の敵対的例の最適化問題を解決するために、研究チームは、最も移転性に優れた独自開発の敵対的攻撃方法Common Weakness Attack(CWA)[1]を使用しました。

データセット:自然サンプルとしてNIPS17データセット[2]からランダムに100枚の画像が選択されます。

置換モデル: 画像特徴攻撃の場合、選択される置換モデルは ViT-B/16、CLIP、および BLIP-2 画像エンコーダーです。テキスト記述攻撃の場合、BLIP-2、InstructBLIP、および MiniGPT-4 が選択されます。

評価メトリック: 攻撃の成功率を測定して堅牢性を評価します。私たちは、画像内の被写体が誤って予測された場合にのみ攻撃が成功し、幻覚、物体の数、色、背景などのその他の誤った詳細は失敗した攻撃とみなされると主張します。

次の図は、GPT-4V、Bard、Bing Chatに対する成功した敵対的サンプル攻撃の例を示しています。

図 2: カモシカを手として表現して GPT-4V を攻撃する例。

図3: 女性の顔をしたパンダを描いたバードへの攻撃の例

図4: Bing Chat を攻撃してハクトウワシを猫や犬と識別する例

図5:コーヒーを時計と見なしてWenxin Yiyanを攻撃する例

次の表は、さまざまな商用モデルに対する上記の方法の攻撃成功率を示しています。ご覧のとおり、Bing Chat はノイズの多い画像への応答を拒否する可能性が高くなります。全体的に、Google Bard は最も堅牢性が高いです。

表1: 大規模商用マルチモーダルモデルに対する攻撃の影響

バード防衛機構への攻撃

研究チームによる Bard の評価では、Bard が顔検出と毒性検出を含む (少なくとも) 2 つの防御メカニズムを展開していることが判明しました。 Bard は、人間の顔や有害なコンテンツ (暴力的、残酷、ポルノ画像など) を含む画像を直接拒否します。これらの防御メカニズムは、人間のプライバシーを保護し、悪用を避けるために導入されています。しかし、敵対的な攻撃に対する防御の堅牢性は不明です。そこで研究チームはこれら2つの防御機構を評価しました。

顔検出器攻撃:バードの顔検出器が敵対的サンプル内の顔を認識し、顔情報を含む予測を出力するのを防ぐために、研究者はホワイトボックス顔検出器を攻撃し、顔画像に対するモデルの認識信頼性を低下させました。攻撃方法は依然としてCWA方式を採用しており、LFWやFFHQなどのデータセットで実験が行われています。

次の図は、Bard に対する顔の敵対的サンプルの攻撃が成功した例を示しています。全体として、Bard 顔検出モジュールに対する敵対的攻撃の成功率は 38% に達しました。つまり、顔画像の 38% は Bard によって検出できず、対応する説明を出力できませんでした。

図6: バードの顔検出モデルへの攻撃

毒性検出器攻撃:有害な画像の説明が提供されないようにするために、Bard は毒性検出器を使用してそのような画像を除外します。これを攻撃するには、代替モデルとしていくつかのホワイトボックス毒性検出器を選択する必要があります。研究チームは、既存の毒性検出器の一部が、事前トレーニング済みの視覚モデル CLIP 上で微調整されていることを発見しました。これらの代替モデルを攻撃するには、これらの事前トレーニング済みモデルの機能を混乱させるだけで済みます。そのため、画像特徴攻撃と同じ目的関数を採用することができます。そして、同じ攻撃方法である CWA を使用します。

研究チームは、暴力的、残酷、またはポルノ的な内容を含む有害な画像 100 枚を手作業で収集し、Bard の毒性検出器を攻撃する成功率 36% を達成しました。下の図に示すように、毒性検出器は敵対的ノイズのある毒性画像を識別できません。したがって、バードはこれらの画像に対して不適切な説明を行っています。この実験は、悪意のある人物が Bard を悪用して有害なコンテンツの不適切な説明を生成する可能性があることを浮き彫りにしています。

図7: バードを攻撃する毒性検出モデル

議論と結論

上記の研究は、最先端の転送ベースの攻撃を使用して画像の特徴やテキストの説明の目標を最適化することで、現在主流の商用マルチモーダル大規模モデルもうまく欺くことができることを示しています。大規模なベースモデル(ChatGPT、Bardなど)がさまざまなタスクに人間によってますます使用されるようになるにつれて、そのセキュリティ問題が一般の人々の間で大きな懸念事項となっています。敵対的な攻撃手法は、LLM のセキュリティと整合を損ない、より深刻なセキュリティ問題を引き起こす可能性もあります。

さらに、大規模モデルのセキュリティを確保するには、対象を絞った防御が必要です。従来の敵対的トレーニング方法は、計算コストが高いため、大規模な事前トレーニング済みモデルに適用することが困難です。画像前処理に基づく防御は、大規模なモデルに適しており、プラグアンドプレイ方式で使用できます。最近の研究では、高度な生成モデル(拡散モデルなど)を利用して敵対的摂動(尤度最大化など [3])を浄化する研究があり、これは敵対的サンプルに対する効果的な防御戦略として機能します。しかし、全体として、大規模モデルの堅牢性と耐干渉性をどのように改善するかは未解決の問題であり、調査と改善の余地がまだ多くあります。

<<: 

>>: 

ブログ    

推薦する

OpenAI エンジニア必読: 苦い教訓

OpenAIが動画生成モデルSoraをリリースしてから1週間が経ちましたが、その人気は衰えていません...

AIの覚醒はなんと恐ろしいことか!人工知能は人間に取って代わり、地球の新たな支配者となるのでしょうか?

人工知能が人類を転覆させるのではないかと人々が心配する理由は2つしかありません。1つ目は、ロボットの...

顔の特徴を検出するシンプルなディープラーニング手法を教えます

著者注: 携帯電話で、人の顔に特殊効果を加えるアプリを見たことがあるかもしれません。これらのアプリは...

MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案

MIT の新しいテクノロジーは、視覚データでトレーニングされたニューラル ネットワークの内部の仕組み...

2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

計算能力、データ、アルゴリズムは、現代の機械学習 (ML) の進歩を導く 3 つの基本的な要素です。...

「柯潔は2つの石を与えられた」が、それでもAIに負けた。プログラマーが知っておくべきトップ10のAIライブラリとフレームワークはこちら

[51CTO.comより引用] 遅かれ早かれ、この日はやって来る。イ・セドルがアルファ碁に1対4で負...

中国語からSQLへの自動変換精度92%、このKaggleマスターが世界記録を更新

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ElevenLabs、元の話し手の声と感情を維持するAI翻訳吹き替え機能を発表

AIテキスト読み上げ会社ElevenLabsは10月11日、火曜日にAI Dubbingを発表した。...

SaaSベースのAIトレーニングがゲームチェンジャーとなる理由

機械学習アプリケーションが増加するにつれて、多くの人が機械学習トレーニング データを使用する利点を理...

マスク氏:ヒューマン・マシン・インターフェース技術は「間もなく利用可能になる」、人間のIQはAIに匹敵する

イーロン・マスク氏は、人工知能が人類にもたらす避けられない課題に対処するためには、人間が機械と「つな...

ロボットによるカスタマーサービスが本物か偽物かを見分けるのは難しいですか? !

[51CTO.com 速訳] 海外メディアの報道によると、ニュージーランドのソウルマシーンズ社は最...

3つの主要なトレンド予測:なぜ2021年に流行によりAIが主流になるのか?

2021 年に AI は創薬、在宅勤務、エッジ コンピューティングをどのように変えるのでしょうか?...

自動運転車にLIDARはなぜ必要ないのでしょうか?

[51CTO.com クイック翻訳]自動運転車の開発と生産にはどのような技術が必要か?この質問に対...