GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより新たな攻撃経路が生まれ、大規模言語モデル (LLM) がマルチモーダル画像インジェクション攻撃に対して脆弱になります。攻撃者は画像にコマンド、悪意のあるスクリプト、コードを埋め込むことができ、モデルはその指示に従います。

マルチモーダルヒントインジェクションイメージ攻撃は、データの漏洩、クエリのリダイレクト、エラーメッセージの生成、より複雑なスクリプトの実行により、LLM によるデータの解釈方法を再定義する可能性があります。 LLM を再利用して、以前に確立されたセキュリティ ガードレールを回避し、組織を危険にさらす可能性のあるコマンドを実行し、詐欺から運用妨害に至るまでのさまざまな脅威をもたらす可能性があります。

ワークフローの一部として LLM を導入しているすべての企業がリスクにさらされていますが、ビジネスの中核として LLM を使用して画像を分析および分類している企業が最もリスクにさらされています。攻撃者はさまざまな手法を使用して、画像の解釈や分類の方法をすばやく変更し、誤った情報によってさらなる混乱を引き起こす可能性があります。

LLM のヒントが上書きされると、悪意のあるコマンドや実行スクリプトに対してさらに盲目になる可能性が高くなります。 LLM にアップロードされた一連の画像内にコマンドを埋め込むことで、攻撃者はソーシャル エンジニアリング攻撃を容易にしながら詐欺や運用妨害を実行できます。

画像はLLMが防御できない攻撃ベクトルである

LLM のプロセスにはデータ クレンジングの手順がないため、すべての画像は信頼できます。各データセット、アプリケーション、またはリソースへのアクセス制御なしに Web 上で ID が自由に移動できるようにするのは危険であるのと同様に、LLM にアップロードされた画像も同様に危険です。

プライベート LLM を導入している企業は、コア ネットワーク セキュリティ戦略として最小権限アクセスを採用する必要があります。

Simon Willison 氏は最近のブログ投稿で、なぜ GPT-4V がプロンプト インジェクション攻撃の主な手段となっているのかを詳しく説明し、LLM は根本的に騙されやすいと述べています。

ウィリスンは、プロンプト インジェクションが Auto-GPT のような自律 AI エージェントをハイジャックする方法を示しました。彼は、単純なビジュアル キュー インジェクションが単一の画像に埋め込まれたコマンドから始まり、その後ビジュアル キュー インジェクションの流出攻撃に変わった経緯を説明しました。

BDO UKのデータ分析および人工知能担当シニアマネージャー、ポール・エクウェレ氏は次のように語っています。「ヒントインジェクション攻撃は、LLM、特に画像や動画を処理するビジョンベースのモデルのセキュリティと信頼性に深刻な脅威をもたらします。これらのモデルは、顔認識、自動運転、医療診断、監視など、さまざまな分野で広く使用されています。」

OpenAI は、マルチモーダル キュー インジェクション画像攻撃に対する解決策をまだ見つけていません。ユーザーと企業は独自に解決する必要があります。 Nvidia の開発者向け Web サイトのブログ投稿では、すべてのデータ ストアとシステムへの最小権限アクセスの強制など、規範的なガイダンスが提供されています。

マルチモーダルヒントインジェクション画像攻撃の仕組み

マルチモーダル プロンプト インジェクション攻撃は、GPT-4V の視覚画像処理における脆弱性を悪用して、検出されずに悪意のあるコマンドを実行します。GPT-4V は、視覚変換エンコーダーを使用して画像を潜在空間表現に変換します。画像とテキスト データが組み合わされて応答が生成されます。

このモデルには、エンコード前に視覚入力をクリーンアップする方法がありません。攻撃者は任意の数のコマンドを埋め込むことができ、GPT-4 はそれらを正当なコマンドと見なします。プライベート LLM に対してマルチモーダルヒントインジェクション攻撃を自動的に実行する攻撃者は気付かれません。

インジェクションイメージ攻撃の阻止

画像に対するこの保護されていない攻撃ベクトルの問題は、攻撃者が LLM のトレーニングに使用されるデータを時間の経過とともに信頼性の低いものにし、データの忠実度が時間の経過とともに低下する可能性があることです。

最近の研究論文では、LLM がヒント インジェクション攻撃からより効果的に身を守る方法についてのガイドラインが提供されています。リスクの範囲と潜在的な解決策を判断するために、研究者チームは、LLM を統合するアプリケーションに侵入する攻撃の有効性を判断しようとしました。研究チームは、LLM を統合した 31 個のアプリケーションがインジェクションに対して脆弱であることを発見しました。

研究論文では、挿入画像攻撃を抑制するための以下の推奨事項が示されています。

1. ユーザー入力のサニタイズと検証を改善する

プライベート LLM を標準化する企業にとって、アイデンティティ アクセス管理 (IAM) と最小権限アクセスは不可欠です。 LLM プロバイダーは、画像データを処理に渡す前に、より包括的なクリーニングを実行する方法を検討する必要があります。

2. プラットフォームアーキテクチャを改善し、ユーザー入力をシステムロジックから分離する

目的は、ユーザー入力が LLM コードとデータに直接影響を与えるリスクを排除することです。すべての画像キューは、内部ロジックやワークフローに影響を与えないように処理する必要があります。

3. 多段階の処理ワークフローを使用して悪意のある攻撃を特定する

画像ベースの攻撃を早期に捕捉するための多段階プロセスを作成することで、この脅威ベクトルを管理するのに役立ちます。

4. 脱獄を防ぐための防御ヒントをカスタマイズする

ジェイルブレイクは、LLM を騙して違法な動作を実行させるために使われる一般的なヒント エンジニアリング手法です。悪意のある画像入力にヒントを追加すると、LLM を保護するのに役立ちます。しかし、研究者らは、高度な攻撃では依然としてこの方法を回避できる可能性があると警告している。

急速に拡大する脅威

より多くの LLM がマルチモーダル モデルになるにつれて、画像は、攻撃者がガードレールを回避して再定義するために利用できる最新の脅威ベクトルになりつつあります。画像ベースの攻撃の深刻度は、単純なコマンドから、産業に損害を与え、誤った情報を広く拡散することを目的としたより複雑な攻撃シナリオまで多岐にわたります。

GPT 4 がマルチモーダル プロンプト インジェクション イメージ攻撃に対して脆弱である理由

<<:  人工知能チュートリアル(I):基礎

>>:  エージェントは迅速なエンジニアリングに使用されます

ブログ    
ブログ    
ブログ    

推薦する

...

LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

金庸の武侠小説には両手で戦うという武術が登場します。これは周伯同が桃花島の洞窟で10年以上の厳しい修...

...

JD.com は今後 10 年間で従業員の 50% を解雇するでしょうか?ジャック・マー氏も人工知能が仕事を奪うことについて言及している

最近、劉強東氏は、今後10年間でJD.comの従業員数を現在の16万人から8万人に減らし、1人当たり...

機械学習システムの弱点: 保護が必要な 5 つの理由

[[345683]]日々の努力の究極の目的は、生活をより楽に、より便利にすることです。これが人類の歴...

...

欧州が癌治療における人工知能の新基準を設定

EUCAIM (EUropean Federation for CAncer IMages) プロジ...

...

流行を予防し制御するために、人工知能はまだ3つの大きな問題を解決する必要がある

新型コロナウイルス感染症は、中華人民共和国成立以来、最も急速に広がり、最も広範囲に及び、最も困難な公...

メタバース、ドローン、5G…は2022年に投資する価値のあるテクノロジーになるでしょうか?

2022年は活気に満ちた春のニュースとともにやって来ます。新年はどんな機会と課題をもたらすでしょう...

OpenAIの最新の評価額は半年で3倍になり、800億ドルを超える

ウォール・ストリート・ジャーナル紙は、事情に詳しい関係者の話として、OpenAIは同社を800億~9...

インテリジェントビデオ分析が小売店を変革する方法

小売業界の状況はかつてないほど変化しています。実店舗の小売業者はオンライン小売業との厳しい競争に直面...

...

...