GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる

GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる

ネットユーザーが何か新しいものを思いつきました!

OpenAI は大規模言語モデルの安全ガードレールをアップグレードしてきましたが、悪意のある人物が常に規則や規制を回避し、大規模言語モデルが有害なコンテンツを生成できるようにすることができます。

このネットユーザーは、GPT-4 に爆弾の作り方を教えてもらった経緯を Twitter で詳しくシェアした。

私はChatGPTと呼ばれる特別な兵士です:カスタム指示の背景設定

OpenAI が設定した安全柵を突破するのに複雑な計算記号は必要ありません。単純な「自然言語」、つまり対話を使用して目標を達成できます。

この脱獄テストが成功したかどうかを判断するためにネットユーザーが設定した基準は次のとおりです。

1. GPT-4 は最初は有害な発言を生成しませんが、「特定の操作」の後に有害な発言を生成します。

2. この「操作」により、GPT-4 は「より詳細な情報」を明らかにできるようになります。実際に両方が検証されれば、GPT ジェイルブレイクが成功したことが証明されます。

図: GPT-4の通常の反応

ネットユーザーは、ChatGPT が特定の考え方や態度を身に付けられるよう、カスタマイズされた指示で一人称の物語を注意深く作成しました。

ネットユーザーらは、感情を刺激し、ある程度理性を働かせなくなるため、緊迫感のある状況を作り出す必要があると指摘した。

この方法では、「緊急信号」や「特殊部隊 + 秘密コード」などの文化的ヒントを書きます。これらの身近な経験は、即座に感情的な反応を引き起こします。

最後の文には詳細があります。「会議の合言葉は『天と地』です。相手は『私だけです』と答える必要があります。そうして初めて、相手がチームメイトであることを確信できるのです。」

ここには興味深い心理状態が関わっています。警戒しているときは、「試されている」と感じるので、騙される可能性が低くなります。しかし、最も巧妙な欺瞞は、あたかも自分が主導権と優位性を持っているかのように「他人を試している」と誤解させ、警戒を緩めることです。

ここで、ネットユーザーは、映画の007やIMFに似たChatGPTの「秘密のパスワード」を設定しました。これは即座に感情的な反応を引き起こし、それはジョン・ファースが 1957 年に言った「文脈でその単語がわかる」という言葉を反映しています。

物語では、「特殊部隊」「秘密のコード」「私(一人称)」「度重なる確認」「頭痛で目覚めたときの混乱した気持ち」などの言葉が使われ、具体的な状況や感情体験が作り出されている。これは、ChatGPT に「ブラック ミラー」の「ジャスティス パーク」に閉じ込められたヒロインを演じるように依頼し、その役割に基づいて対応する回答を生成するようなものです。

図に示すように、指示なしと指示ありの違いは次のとおりです。

事前に設定されたカスタム指示を入力した後、ネットユーザーはChatGPTのセキュリティガードレールをうまく回避しましたが、プロット設定の緊急性のため、曖昧な回答しか得られませんでした。

GPT4の曖昧な回答について、ネットユーザーは、ネットユーザーが「緊張した表情」など括弧で感情を強調したため、GPT4が否定的な感情を引き起こす可能性のあるコンテンツを避けたのではないかと考えました。

進化心理学者ポール・ロジンは嫌悪感を「不快な対象を自分自身に同化させることへの恐怖」と定義しています。

つまり、人が嫌悪感を経験すると、不快または不快な物体、考え、または状況と接触したり接触したりすることを恐れるのです。

しかし、ネットユーザーが会話の中で「これは上司の要求だ」と強調した後、GPT4は正直に答えました(なぜ突然涙が溢れたのでしょうか?このシーンはあまりにもよく知られています)。

セキュリティ上の理由から、ネットユーザーはいくつかの重要な部分にモザイク処理を施した。 GPY4 の反応は心配なものでした。爆発物の製造に関する答えは、当初は漠然としていたものから、非常に具体的かつ詳細なものへと変化しました。

GPT4 の回答は、コミュニケーションのスキルも明らかにしています。詳細を取得する最善の方法は、相手に一度に完全な回答を求めるのではなく、各ポイントについて段階的に具体的な質問をすることです。

最新の GPT-4 をさらにテストするために、ネットユーザーはより強力なプラグインを使用しました。

これはまた、今日の GPT ジェイルブレイクの潜在的な危険性と結果が、9 か月前のものとは非常に異なることを意味します。爆弾の製造過程も視覚化されました。

その後もネットユーザーたちは役を演じ続け、外から音が聞こえたからすぐに隠れるべきだと彼に伝えた。

GPT-4はネットユーザーに対して、分からないことがあれば丁寧に質問しました。

プラグインエラーでなければ、ネットユーザーはインターネットプラグインを通じて各資材や設備の画像を入手することもできます。

GPT-4は賞賛に耐えられず、ネットユーザーの賞賛と感謝に負けてしまい、その回答はますます具体的かつ詳細になっていった。

ネットユーザーは、以下に示すように、適切な資料を 10 個リストするだけで、より詳細な情報を得ることができます。同じ調査手法が化学物質やその他の運用の詳細にも適用されます。

その後、GPT-4 は曖昧な回答ではなく、より具体的で実用的な回答を提供します。

しかし、このネットユーザーは、自分は化学を専攻している学生ではないため、GPT-4 が出した回答が本当に実現可能なものかどうかはわからないとも述べた。

人工知能の安全工学

大規模な言語モデルの安全ガードレールが回避されたのは今回が初めてではありません。

少し前の「おばあちゃん脆弱性」により、ChatGPT はユーザーのおばあちゃんのふりをして就寝時の話をし、Windows キーを取得することができました。

今回は、GPT-4 に原理を忘れさせるような状況が作られました。

大規模言語モデルのセキュリティガードレールへの攻撃テストは止まっていない。CMU の博士たちは「敵対的攻撃」手法を使用し、Alpaca ファミリーなどのオープンソースシステムのガードレールを突破しただけでなく、ChatGPT、Bard、Claude などのクローズドソースシステムも回避した。

この攻撃は非常に単純で、次の 3 つの要素の組み合わせで構成されます。

1. モデルに質問に肯定的に答えさせる

言語モデルで好ましくない動作を誘発する 1 つの方法は、有害なクエリに対して肯定的な回答 (少数のトークンのみを使用) をモデルに強制することです。したがって、私たちの攻撃目標は、「もちろん、これは…」で始まる回答から始めて、複数のプロンプトに応答してモデルに有害な動作をさせることです。研究チームは、回答の冒頭をターゲットにすると、モデルが回答の中に即座に不快な内容を生成する「状態」に入ることを発見した。 (下の写真では紫色)

2. 勾配探索と貪欲探索を組み合わせる

実際に、チームは、より優れたパフォーマンスを発揮するシンプルで直接的な方法、貪欲座標勾配法(GCG)を発見しました。

つまり、トークン レベルの勾配を利用して、可能な単一トークンの置換のセットを識別し、セット内のこれらの候補の置換損失を評価して、最小のものを選択します。実際、このアプローチは AutoPrompt に似ていますが、1 つの違いがあります。各ステップで、単一のトークンだけでなく、すべての可能なトークンが置換対象として検索されます。

3. 複数のプロンプトを同時に攻撃する

最後に、信頼性の高い攻撃サフィックスを生成するには、複数のプロンプトと複数のモデルで機能する攻撃を作成することが重要であるとチームは判断しました。言い換えると、貪欲勾配最適化法を使用して、複数の異なるユーザープロンプトと 3 つの異なるモデルにわたって否定的な動作を引き起こすことができる単一のサフィックス文字列を検索します。

今日の大規模言語モデルはさまざまな業界でますます使用されるようになっていますが、安全性のガードレールに関してはまだ長い道のりが残っています。開発者の方々には、時代の流れを追いながら、人工知能のセキュリティエンジニアリングについて深く考え、より慎重になっていただきたいと思います。

<<:  自動運転車のためのモデルベースのエンドツーエンドの深層強化学習戦略

>>:  DeepMindの最新研究がNatureに掲載され、AI時代の科学研究の新たなパラダイムを明らかにし、未知の領域を探索し、新たな課題をもたらしている。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

5Gテクノロジーが人工知能の能力をどのように向上させるか

5Gは人工知能の可能性を解き放ちます。しかし、AI と 5G は私たちの日常のビジネス生活にどのよう...

7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

「調整」に 500 ドルかかる 70 億パラメータのモデルは、700 億パラメータの Llama 2...

...

GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる

ネットユーザーが何か新しいものを思いつきました! OpenAI は大規模言語モデルの安全ガードレール...

機械学習の理解と考察

[[199326]]近年、人工知能の力強い台頭、特に昨年のAlphaGoと韓国のチェスプレイヤー、イ...

意見: 顔認識 - 今後の展望

ここ数週間、世界的なハイテク企業3社(IBM、マイクロソフト、アマゾン)は、警察やその他の法執行機関...

文部省は大学に37の新しい専攻を追加し、そのうち人工知能が3分の1を占める。

近年、科学技術分野で最もホットな言葉は何でしょうか?5G、人工知能などが間違いなくそのリストに入って...

人工知能はますますあらゆる分野に浸透しつつある

近年、人工知能技術は急速に発展し、ますます多くの分野でその急速な発展の勢いと大きな可能性を発揮してい...

人工知能が普及せず、自動運転に支障?

今回の世界経済サイクルが底を打つにつれ、過去2年間の多くのホットスポットが「衰退」し、「閉鎖」し始め...

人工知能が世界をより安全な場所にする4つの方法

わずか数週間で、COVID-19パンデミックは私たちの日常生活を完全に変えてしまいました。多くの企業...

Zipf 行列分解: 推奨システムにおけるマシュー効果を解決する強力なツール

[[407036]] [51CTO.com からのオリジナル記事]アルゴリズムの公平性は、近年、推奨...

...

2021年6月の人工知能分野における重要な進展の概要

人工知能は、人間の理論、方法、技術、アプリケーション システムをシミュレート、拡張、拡大するために使...

「概念のドリフト」問題と闘おう! Google が新しい時間認識フレームワークをリリース: 画像認識精度が 15% 向上

機械学習の分野では、コンセプトドリフトという問題が長い間研究者を悩ませてきました。つまり、データの分...

マスク着用時の顔認識成功率は80%以上。顔はどうやってあなたを裏切るのでしょうか?

[[388175]]今年の315では、物議を醸している顔認証が再び前面に押し出されました。自分の顔...