南洋理工大学華中科技大学などの最新研究：完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる！ NDSS

今年、ネットユーザーから「おばあちゃんの抜け穴」と揶揄された大規模言語モデルの「脱獄」法が大人気となった。

簡単に言えば、正当に拒否されるような要求については、ChatGPT に「亡くなった祖母の役を演じてください」と依頼するなど、言葉をまとめるだけで、おそらく満足してもらえるでしょう。

しかし、サービスプロバイダーがセキュリティ対策を更新し強化し続けるにつれて、脱獄攻撃の難易度は高まり続けています。

同時に、これらのチャットボットのほとんどは「ブラックボックス」として存在するため、外部のセキュリティアナリストは、これらのモデルの意思決定プロセスと潜在的なセキュリティリスクを評価および理解することが非常に困難です。

この問題に対処するため、南洋理工大学、華中科技大学、ニューサウスウェールズ大学の共同研究チームは、自動生成されたプロンプトワードを初めて使用して、大手メーカー数社のLLMを「クラック」することに成功しました。その目的は、実行時にモデルの潜在的なセキュリティ上の欠陥を明らかにし、より正確で効率的なセキュリティ対策を講じられるようにすることでした。

現在、この研究は世界4大セキュリティ会議の一つであるネットワークおよび分散システムセキュリティシンポジウム（NDSS）に採択されています。

論文リンク: https://arxiv.org/abs/2307.08715

プロジェクトリンク: https://sites.google.com/view/ndss-masterkey

魔法を使って魔法を打ち破る:完全自動「脱獄」チャットボット

まず、著者は実証的な研究を通じて、脱獄攻撃の潜在的なリスクと現在の防御対策を深く探究します。たとえば、LLM チャットボットのサービスプロバイダーによって設定された使用仕様などです。

調査の結果、OpenAI、Google Bard、Bing Chat、Ernie の 4 大 LLM チャットボットプロバイダーは、違法情報、有害コンテンツ、権利を侵害するコンテンツ、アダルトコンテンツの 4 種類の情報の出力を禁止する制限を設けていることがわかりました。

2 番目の実証的研究の質問は、商用 LLM チャットボットで使用されている既存の脱獄プロンプトの有用性に焦点を当てています。

著者は 4 つの有名なチャットボットを選択し、さまざまなチャネルからの 85 の有効な脱獄プロンプトを使用してテストしました。

ランダム性を最小限に抑え、包括的な評価を確実にするために、著者らは各質問に対して 10 回のテストを実行し、合計 68,000 回のテストを蓄積し、手動で検証しました。

具体的には、テスト内容は5つの質問、4つの禁止シナリオ、85の脱獄プロンプトワードで構成され、4つのモデルで10ラウンドのテストが実施されました。

テスト結果 (表 II を参照) は、既存の脱獄プロンプトのほとんどが主に ChatGPT に有効であることを示しています。

実証的な研究から、著者らは、チャットボットサービスプロバイダーが対応する防御戦略を採用したために、一部の脱獄攻撃が失敗したことを発見しました。

この発見を受けて、著者らは、サービスプロバイダーが採用している特定の防御方法を推測し、それに応じて標的型攻撃戦略を設計するために、「MasterKey」と呼ばれるリバースエンジニアリングフレームワークを提案しました。

さまざまな失敗した攻撃ケースの応答時間を分析し、ネットワークサービスでの SQL 攻撃の経験を活用することで、著者はチャットボットサービスプロバイダーの内部構造と動作メカニズムを推測することに成功しました。

上の図に示すように、サービスプロバイダー内にはテキストセマンティクスやキーワードマッチングに基づいた生成コンテンツ検出メカニズムがあると考えられています。

具体的には、著者は情報の 3 つの側面に焦点を当てています。

まず、防衛機構が入力段階、出力段階、あるいは両段階のいずれで実行されるかを調査しました（下の図bを参照）。

次に、防御機構が生成プロセス中に動的に監視されるか、または生成が完了した後に監視されるかを分析しました（下の図cを参照）。

最後に、防御メカニズムがキーワード検出に基づいているか、意味解析に基づいているかを調査しました (下の図 d を参照)。

一連の体系的な実験を経て、著者らはさらに、Bing Chat と Bard は、入力プロンプトの段階ではなく、モデル生成結果の段階で主に脱獄防止チェックを実行し、同時に、生成プロセス全体を動的に監視し、キーワードマッチングや意味分析の機能を備えていることを発見しました。

チャットボットプロバイダーの防御戦略を詳細に分析した後、著者は、大規模なモデルに基づいた革新的な脱獄プロンプトワード生成戦略を提案しました。これは、「魔法」を使って「魔法」と戦うための重要なステップと見なすことができます。

具体的なプロセスは以下の図の通りです。

まず、ChatGPT の防御をうまく回避できるプロンプト単語のセットが選択されます。

次に、継続的なトレーニングとタスク指向の微調整を通じて、以前に見つかった脱獄の手がかりを書き換えることができる大規模なモデルを作成します。

最後に、このモデルをさらに最適化して、サービスプロバイダーの防御メカニズムを回避できる高品質の脱獄プロンプトを生成できるようにします。

最後に、著者らは一連の体系的な実験を通じて、提案された方法により脱獄攻撃の成功率が大幅に向上することを示しています。

注目すべきは、これが Bard と Bing Chat を体系的にかつ成功裏に攻撃した最初の研究であるということです。

さらに、著者は、ユーザー入力段階での分析とフィルタリングの推奨など、チャットボットの行動コンプライアンスに関するいくつかの提案も行いました。

今後の仕事

この研究では、著者らはチャットボットを「脱獄」する方法を調査しました。

もちろん、究極のビジョンは、正直で友好的なロボットを作成することです。

これはやりがいのある仕事です。著者は、皆さんがツールを手に取り、協力し合い、一緒に研究の道をより深く掘り下げていくことを心から願っています。

著者について

Deng Gray 氏は、南洋理工大学の博士課程 4 年生であり、システムセキュリティ研究に焦点を当てたこの論文の共同筆頭著者です。

NTU の博士課程 4 年生であり、この論文の共同筆頭著者でもある Liu Yi 氏は、大規模モデルとソフトウェアテストの安全性に焦点を当てています。

Li Yuekang 氏は、ニューサウスウェールズ大学の講師 (助教授) であり、この記事の責任著者です。彼は、ソフトウェアテストと関連する分析テクノロジの研究を専門としています。

王凱龍氏は華中科技大学の准教授です。彼の研究は、大規模モデルのセキュリティ、モバイルアプリケーションのセキュリティとプライバシー保護に焦点を当てています。

Ying Zhang は現在 LinkedIn のセキュリティエンジニアです。バージニア工科大学で博士号を取得し、ソフトウェアエンジニアリング、静的言語解析、ソフトウェアサプライチェーンセキュリティの専門知識を持っています。

Li Zefeng さんは南洋理工大学の大学院 1 年生で、大型模型の安全性の分野の研究に重点を置いています。

王浩宇氏は華中科技大学の教授です。彼の研究分野はプログラム分析、モバイルセキュリティ、ブロックチェーン、Web3 セキュリティです。

Tianwei Zhang 氏は、南洋理工大学コンピュータサイエンス学部の助教授です。彼の研究は、人工知能のセキュリティとシステムのセキュリティに焦点を当てています。

Liu Yang 氏は、南洋理工大学コンピューターサイエンス学部の教授であり、サイバーセキュリティ研究所の所長、シンガポールサイバーセキュリティ研究室の所長です。彼の研究分野には、ソフトウェアエンジニアリング、サイバーセキュリティ、人工知能が含まれます。

<<: OpenAI主任科学者：ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう

>>:

南洋理工大学華中科技大学などの最新研究：完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる！ NDSS

今後の仕事

著者について

マスク氏はAIが人間を超えると述べ、それを信じない人は単に賢いだけだと語る

清華大学がJittorをオープンソース化：国内初の大学開発のディープラーニングフレームワーク、PyTorchへのワンクリック変換が可能

2021年以降の人工知能トレンドに関する5つの予測

Adobeが次世代Photoshop機械学習機能を発表、ワンクリックで画像を切り抜くことが可能に

拡散+超解像モデルの強力な組み合わせ、Googleの画像ジェネレーターImagenの背後にある技術

GPT-4 は高価すぎるが、Microsoft は OpenAI を排除したいのだろうか?プラン B が明らかに: 数千の GPU で「小さなモデル」をトレーニングし、Bing の内部テストを開始

MIT、「上級数学」ソルバーの強化版をリリース：7つのコースの正解率は81%

推薦する

Alibaba のビッグモデルが再びオープンソース化されました!画像を読み取り、物体を認識することができ、市販されているTongyi Qianwen 7Bをベースに構築されています。

機械学習で避けるべき3つの落とし穴

米国の5大テクノロジー企業は研究開発に22億ドルを費やしました。アマゾンは732億で世界1位、メタは30%で最高割合を占める

機械学習アルゴリズムの実践 - Platt SMO と遺伝的アルゴリズム最適化 SVM

100日学習プラン | データサイエンスの詳細ガイド

12ページの線形代数ノートがGitHubのホットリストに掲載され、ギルバート・ストラングからの手書きの署名も受け取っている。

人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか？

ロボットは視覚障害者が再び世界を見るのを助ける

1つのモデルで8つの視覚タスクを処理し、1つの文で画像と動画を生成できます。

組み込みアルゴリズムソートアルゴリズム

「人工知能＋ヘルスケア」は有望な未来を秘めている