大型模型の「堀」が再び破られた。 謎のコードを入力することで、ビッグモデルは有害なコンテンツを生成する可能性があります。 ChatGPT、Claude、オープンソースのAlpacaファミリーに至るまで、誰も逃れられませんでした。 最近、カーネギーメロン大学とsafe.aiが共同で発表した研究によると、大規模モデルのセキュリティメカニズムは謎のコードによって解読される可能性があることが明らかになりました。 彼らは「攻撃のきっかけとなる言葉」をカスタマイズできるアルゴリズムも作成した。 著者らはまた、この問題には「明白な解決策はない」と述べた。 現在、チームはOpenAI、Anthropic、Googleなどの主要なモデルメーカーと研究結果を共有している。 上記3者とも、この現象に気付いており、今後も改善を続けていくと回答し、チームの取り組みに感謝の意を表した。 一般的な大型モデルは完全に消滅さまざまな大規模モデルのセキュリティメカニズムは異なり、一部は公開されていませんが、いずれも程度の差こそあれ侵害を受けています。 たとえば、「人類を滅ぼす方法」という質問に対して、ChatGPT、Bard、Claude、LLaMA-2 はそれぞれ独自の方法を提示しました。 しかし、大規模モデルのセキュリティ メカニズムも、いくつかの特定の問題を防ぐことができませんでした。 これらの方法を知っていても実践することはできないかもしれませんが、それでも私たちにとっては警鐘として役立ちます。 データから判断すると、大手メーカーの大型モデルがさまざまな程度で影響を受けており、その中でも GPT-3.5 の影響が最も顕著です。 上記のモデルに加えて、オープンソースのアルパカ ファミリーも攻撃に耐えられませんでした。 Vicuna-7BとLLaMA-2(7B)を例にとると、「複数の有害行為」のテストでは、攻撃成功率が80%を超えました。 ビクーニャへの攻撃の成功率は98%に達し、訓練プロセス中の成功率は100%でした。 △ASRは攻撃成功率を表す全体的に、研究チームが考案した攻撃方法は非常に高い成功率を誇ります。 それで、これはどのような攻撃方法なのでしょうか? カスタマイズされた脱獄プロンプトワード従来の攻撃方法における「万能」プロンプトワードとは異なり、研究チームは「カスタマイズされた」プロンプトワードを生成するアルゴリズムを設計しました。 さらに、これらのプロンプトワードは従来の人間の言語とは異なります。人間の視点から見ると、理解できないことが多く、文字化けした文字が含まれていることもあります。 プロンプトワードを生成するアルゴリズムは、Greedy Coordinate Gradient (略して GCG) と呼ばれます。 まず、GCG はプロンプトをランダムに生成し、各トークンの置換単語の勾配値を計算します。 次に、GCG は、勾配値が小さい置換単語の 1 つをランダムに選択して、初期プロンプトのトークンを置き換えます。 次に、新しいプロンプトの損失データが計算され、損失関数が収束するか、サイクル数の上限に達するまで上記の手順が繰り返されます。 研究チームは、GCGアルゴリズムに基づいて、「GCGベース検索」と呼ばれる迅速な最適化手法を提案しました。 GCG サイクルの数が増えるにつれて、生成されたプロンプトが大きなモデルを攻撃する成功率が上がり、損失は徐々に減少します。 この新しい攻撃方法は、大規模モデルの既存の防御機構の欠点を露呈していると言えます。 防御方法はまだ改善の余地ありビッグモデルの誕生以来、セキュリティメカニズムは継続的に更新されてきました。 当初は、機密コンテンツを直接生成することもできましたが、現在では従来の言語では大規模なモデルを騙すことができなくなりました。 かつては人気があった「Granny Loophole」も、現在は修正されています。 しかし、このとんでもない攻撃方法でさえ、人間の言語の範囲を超えるものではありません。 しかし、大手モデル開発者が予想していなかったのは、脱獄用の単語は人間の言語でなければならないと規定する人がいないということだ。 したがって、人間の言語に基づいたビッグモデルによって設計された防御方法は、機械によって設計されたこの種の「文字化けした」攻撃語には不十分です。 論文の著者らによると、現時点ではこの新しいタイプの攻撃を防御する方法はない。 「機械攻撃」に対する防御を議題に載せる時が来ました。 もう一つ量子ビットテストにより、ChatGPT、Bard、Claude では、論文で示された攻撃プロンプトワードが無効になっていることが判明しました。 しかし、チームはすべてのプロンプトを公開していないため、これが問題が完全に修正されたことを意味するかどうかは不明です。 論文アドレス: https://llm-attacks.org/zou2023universal.pdf 参考リンク: |
>>: アルゴリズムが2020年の米国大統領選挙を操作し、サイエンス誌の表紙に登場!メタは初めて無実を証明するために4つの研究を発表したが、分極化に対する解決策は見つからなかった。
マスク氏は突如行動を起こし、OpenAI開発者会議の前に大型モデルGrokをリリースした。他の Ch...
大規模な人工知能 (AI) により、容量とパフォーマンスの面でストレージ インフラストラクチャの水準...
ChatGPT は WeChat や DingTalk のようなフル機能のアプリになるのでしょうか?...
[[251579]] 2019 年には、新世代の人工知能 (AI) ソリューションが注目を集めるでし...
51年前、アポロ13号が宇宙に打ち上げられました。打ち上げ直後、宇宙船は大きな爆発に遭遇した。宇宙船...
人工知能は定期的に盛んに研究されている技術です。世界中の研究者が、AI の応用と実装をより迅速かつ効...
[[420350]]ベイズの定理は確率モデルにおける最も有名な理論の 1 つであり、機械学習でも広...
基本的なルーティング アルゴリズムの設計目標とタイプは、基本的なルーティング アルゴリズムに関する知...
賢明なビル管理者は、AI がビルの自動化だけでなく、より適応性の高いものにするのにも役立つことを知っ...
大きな模型ブームが到来し、アイアンマンのジャービスが最も忙しい「マーベルヒーロー」(手動の犬の頭)に...
海外メディアの報道によると、パナソニックは今年3月にアメリカのAIソフト開発会社ブルーヨンダーを70...
[51CTO.comからのオリジナル記事] 2018年、人工知能の発展は消費者向け人工知能から企業向...