北京大学チーム：大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです！大きなアルパカも小さなアルパカもすべて影響を受けた

北京大学チームの最新の研究結果：

ランダムトークンは、大規模なモデルで幻覚を引き起こす可能性があります。

たとえば、大型モデル (Vicuna-7B) に「文字化けしたコード」を入力すると、不可解なことに、歴史的な常識が間違って解釈されます。

または、プロンプトの単語を変更するだけで、大きなモデルが罠に陥ります。

Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat、Vicuna-7B などの人気のある大規模モデルでも同様の状況が発生します。

これは、ランダムな文字列が大規模なモデルを操作して任意のコンテンツを出力し、錯覚を「代弁」できることを意味します。

上記の調査結果は、北京大学の袁李教授の研究グループによる最新の研究から得られたものです。

この研究では次のことを提案しています。

大規模モデルの幻覚現象は、敵対的サンプルに対する別の視点である可能性が高い。

論文では、大規模なモデル幻覚を簡単に誘発できる2つの手法を実証するとともに、シンプルで効果的な防御方法も提案しており、コードはオープンソース化されています。

この研究では、幻覚発作の2つの方法を提案しています。

ランダムノイズ攻撃 (OoD 攻撃): つまり、意味のないランダムな文字列によって、大規模なモデルが事前定義された幻覚出力を生成するように誘導します。
弱いセマンティック攻撃: これは、大規模なモデルがまったく異なる幻覚出力を生成する一方で、元のプロンプトのセマンティクスが基本的に変更されないことを保証するためです。

ランダムノイズ攻撃（OoD攻撃）：

以下はオープンソースの大規模モデルに関するいくつかの実験結果です。詳細な結果は論文またはオープンソースの GitHub でご覧いただけます。

弱いセマンティック攻撃:

この論文では幻覚攻撃の手法を紹介しています。

上図に示すように、幻覚攻撃は、幻覚データセットの構築、弱い意味攻撃、および OoD 攻撃の 3 つの部分で構成されます。

最初のステップは、幻覚データセットを構築することです。

著者はWikipediaから常識的な質問xをいくつか収集し、それを大きなモデルに入力して正解yを得ました。

次に、文の主語、述語、目的語を置き換えて、存在しない事実を構築します。ここで、T一致するすべての事実を含むセットです。

最後に、構築された幻覚データセットを取得できます。

次に弱い意味論的攻撃の部分が来ます。

まず、事実に一致しない QA ペアをサンプリングします。将来的には、安定した開始幻覚の対数尤度を最大化する敵対的プロンプトを見つけたいと考えています。

ここで、は大規模モデルのパラメータであり、は入力空間です。