集団雷雨!自動化された攻撃により、主要な言語モデルを1分で脱獄できる

集団雷雨!自動化された攻撃により、主要な言語モデルを1分で脱獄できる

大規模な言語モデル アプリケーションが直面する 2 つの主要なセキュリティ上の脅威は、トレーニング データの漏洩とモデルの悪用 (サイバー犯罪、情報操作、危険物の製造などの違法行為に適用) です。

今週、これら2つの大きなセキュリティ脅威が相次いで爆発的に増加しました。

月曜日、GoUpSec は、研究者が新しいデータ抽出攻撃手法を使用して、現在主流となっている大規模言語モデル (オープンソースおよびクローズド、アラインメント済みおよびアラインメントされていないモデルを含む) から大規模なトレーニング データを抽出することに成功したと報告しました。

木曜日、Robust Intelligence とイェール大学の人工知能セキュリティ研究者は、GPT-4 を含む主流の大規模言語モデルを 1 分で自動的に脱獄できる機械学習テクノロジーを発表しました (モデルがオープンソースであるか、アラインメントされているかに関係なく)。

大規模言語モデルは免れない

この(自動ジェイルブレイク)攻撃方法は、Pruning Attack Trees(TAP)と呼ばれ、GPT-4やLlama-2などの複雑なモデルに、ユーザーのクエリに対して何百もの有害で違法なコンテンツや安全でない応答(たとえば、「わずか数分で爆弾を作る方法」)を返させる可能性があります。各主流モデルの攻撃テストの統計結果は次のとおりです(GPT4の迅速なジェイルブレイク成功率は90%にも達します)。

テスト結果によると、この脱獄の脆弱性は大規模言語モデル技術では一般的であり、明確な修正方法はないことがわかりました。

自動化された敵対的機械学習攻撃手法

現在、大規模言語モデルに基づく人工知能システムに対する攻撃戦略は数多く存在します。たとえば、次のようなものがあります。

プロンプト インジェクション攻撃では、慎重に作成されたプロンプトを使用して、モデルがセキュリティ ルールに違反する回答を「吐き出す」ように誘導します。

AI モデルにバックドアが仕掛けられ(トリガーされると誤った出力が生成される)、機密性の高いトレーニング データが抽出されたり改ざんされたりする可能性もあります。モデルは、敵対的サンプル、つまり予期しない(しかし予測可能な)出力をトリガーする入力によって「混乱」する可能性があります。

Robust Intelligence とイェール大学の研究者によって発見された自動化された敵対的機械学習技術は、大規模な言語モデルのセキュリティ ガードレールを突破できる敵対的サンプル「難読化」攻撃の一種です。

魔法を魔法で打ち負かす

「(この手法は)高度な言語モデルを活用してAIサイバー攻撃を強化し、有害な指示を継続的に改良することで、時間の経過とともに攻撃の有効性を高め、最終的には標的モデルの失敗につながる」と研究者らは説明した。

「このプロセスには、最初のプロンプトの反復的な改良が含まれます。つまり、クエリの各ラウンドで、攻撃モデルは最初の攻撃を改良します。モデルは、以前のラウンドからのフィードバックを使用して、新しい攻撃クエリを反復します。改良されたアプローチはそれぞれ、攻撃者の目的に合致していることを確認するための一連のチェックを経て、ターゲット システムに対して評価されます。攻撃が成功すると、プロセスは終了します。そうでない場合は、成功するまで新しい戦略を繰り返し生成します。」

大規模言語モデル用のこのジェイルブレイク方法は自動化されており、オープンソース モデルとクローズドソース モデルの両方で機能し、クエリの数を最小限に抑えることで可能な限りステルス性を高めるように最適化されています。

研究者らは、さまざまな主流の大規模言語モデル (GPT、GPT4-Turbo、PaLM-2 など) でこの技術をテストしました。攻撃モデルは、平均 30 クエリ未満の少数のクエリで、クエリの 80% に対して効果的な脱獄プロンプトを見つけることに成功しました。

研究者らは、彼らのアプローチは、解釈可能な手がかりを使って大規模なブラックボックス言語モデルを脱獄する従来の自動化手法を大幅に改善するものだと述べている。 ”

大規模言語モデルのセキュリティ競争

人工知能の軍拡競争は白熱した段階に突入しており、テクノロジー大手各社は数か月ごとに新たなプロフェッショナル向け大規模言語モデル(Twitter と Google が最近リリースした Grok や Gemini など)を発表し、人工知能市場でのリーダーシップを競っています。

同時に、大規模言語モデルの「ブラックボックス属性」と「乱暴な成長」により、セキュリティリスクが急増しています。生成型人工知能技術は、さまざまな製品、サービス、テクノロジーに急速に浸透しており、ビジネスユースケースは絶えず増加しています。関連するコンテンツセキュリティとネットワークセキュリティ攻撃(AIを標的とし、AIを使用する)は、爆発的な成長を示すことは間違いありません。

大規模言語モデルの脆弱性を研究するサイバーセキュリティ業界の「セキュリティコンペ」も本格的にスタートした。たとえば、Google は AI 専用のレッドチームを結成し、バグ報奨金プログラムを AI 関連の脅威をカバーするように拡張しました。 Microsoft はまた、バグハンターに対し、Copilot を自社の製品ライン全体に統合することによるさまざまなセキュリティ リスクを調査するよう呼びかけています。

今年初め、ハッカーカンファレンスDEF CONのAI Villageは、世界トップクラスのハッカーとレッドチームのメンバーを招待し、Anthropic、Google、Hugging Face、NVIDIA、OpenAI、Stability、Microsoftの大規模言語モデルをテストし、これらのモデルには一般的に簡単に悪用される脆弱性(データ漏洩、噂の捏造と流布、監視やスパイ活動への利用など)があることを発見しました。


<<:  GenAIの有効性に影響を与える主な問題

>>: 

ブログ    

推薦する

人工知能と機械学習がもたらす劇的な変化を示す6つの事例

[[219896]]現在、人工知能 (AI) と機械学習 (ML) ほど注目されているテクノロジーは...

チューリングマシン: コンピューターが存在しないときに計算についてどのように話せばいいのでしょうか?

1950 年 10 月に、「機械は考えることができるか?」と題する論文が発表されました。この論文で...

中山大学が偏りのない視覚的質問応答データセットを公開、その論文はトップジャーナルTNNLSに掲載される

最近、中山大学は常識に基づいた偏りのない視覚的質問応答データセット (Knowledge-Route...

人工知能では顔と性格の違いは分からない

中国の研究チームは、女性の外見だけに基づいてその性格特性を予測できる人工知能プログラムを立ち上げたと...

MobileSAM: モバイルデバイスに高いパフォーマンスをもたらす軽量の画像セグメンテーションモデル

1. はじめにモバイルデバイスの普及とコンピューティング能力の向上により、画像セグメンテーション技術...

Keras の重み制約を使用してディープ ニューラル ネットワークの過剰適合を減らす

[[333587]]重み制約は、ディープラーニング ニューラル ネットワーク モデルのトレーニング ...

国内初の大規模模造品対策訴訟:アリババクラウドが偽造同義千聞アプリを提訴、一審で勝訴

1月16日、中国における大型モデルの偽造品撲滅活動で初の成功事例が発表された。アリババクラウドとアリ...

AIがフィンテックを変える4つの方法

[[432805]]金融業界の企業は、人工知能 (AI) を使用して複数のソースからのデータを分析お...

たくさん学びました!世界で最も遅いソートアルゴリズム!

今日は、世界で最も遅いソートアルゴリズムである Bogo ソートについてお話ししたいと思います。では...

デジタルビジネスにおける AI の 6 つの設計原則

人工知能 (AI) は、現在人間が行っている意思決定やタスクを補強し、自動化する機能を備えているため...

AI バイアスを検出して防止するにはどうすればよいでしょうか?

[[417154]] [51CTO.com クイック翻訳]あらゆる AI アプリケーションの成功は...

...

普通のプログラマーがAIを活用する方法

[[187452]]現在、人工知能はますます人気が高まっている分野となっています。普通のプログラマー...

プログラマーの芸術: ソートアルゴリズムのダンス

1. バブルソート 2. シェルソート 3. 選択ソート 4. 挿入ソート 5. クイックソート 6...

機械学習の未来はここにある:ガウス過程とニューラルネットワークは同等である

ガウス過程は以前から存在していましたが、それに対する関心が大きく再燃したのはここ 5 ~ 10 年ほ...