大型モデルの中に泥棒はいますか？上海交通大学は、パラメータを保護するために、大規模モデル用の「人間が読める指紋」を作成します

大規模モデルの事前トレーニングには膨大な量のコンピューティングリソースとデータが必要となるため、事前トレーニング済みモデルのパラメータは、大手機関が保護に注力する中核的な競争力と資産になりつつあります。しかし、ソースコードを比較することでコードの盗難の有無を確認できる従来のソフトウェア知的財産保護とは異なり、事前トレーニング済みモデルパラメータの盗難を判断する際には、次の 2 つの新たな問題があります。

1) 事前トレーニング済みモデルのパラメータ、特に数千億のデータポイントを持つモデルのパラメータは、通常、オープンソースではありません。

2) さらに重要なのは、事前トレーニング済みモデルの出力とパラメータは、SFT、RLHF、継続的な事前トレーニングなどの下流処理ステップによって変化することです。これにより、モデル出力またはモデルパラメータに基づいて、モデルが別の既存のモデルに基づいて微調整されているかどうかを判断することが難しくなります。

したがって、大規模なモデルパラメータの保護は、まだ効果的な解決策が存在しない新たな問題です。

この目的のために、上海交通大学の林周漢教授が率いるLumia研究チームは、モデルパラメータを公開することなく、各大規模モデル間の系統関係を効果的に識別できる、人間が判読可能な大規模モデル指紋を開発しました。

この方法は、2 つの判定方法を提供します。1 つは定量的判定方法で、テスト対象の大規模モデルと一連のベースモデル間の類似性を示すことによって、テスト対象のモデルが事前トレーニング済みのベースモデルを盗用したかどうかを明らかにします。2 つ目は定性的判定方法で、各モデルに対して人間が判読できる「犬の絵」を生成して、モデル間の相互継承関係を迅速に発見します。

6 つの異なる基本モデル (上段) とそれに対応する子孫モデル (下 2 段) のフィンガープリント。

24 種類の異なるマクロパターンの人間が判読可能なマクロパターンフィンガープリント。

動機と全体的なアプローチ

大規模モデルの急速な発展は、幅広い応用の展望をもたらしましたが、同時に一連の新たな課題も引き起こしました。注目すべき 2 つの問題は次のとおりです。

モデルの盗用: 巧妙な窃盗犯は、既存の大きなモデルにわずかな調整を加えるだけで、まったく新しいモデルを作成したと主張し、自分の貢献を誇張します。盗まれたモデルだとどうやってわかるのでしょうか?
モデルの悪用問題: Meta のポリシーでそのような行為が明示的に禁止されているにもかかわらず、悪意のある人物が LLaMA モデルを悪意を持って変更し、それを使用して有害な情報を生成する場合、使用されているのが LLaMA モデルであることをどのように証明できるでしょうか。

これまで、この種の問題に対処するための従来のアプローチには、モデルのトレーニングと推論中に透かしを追加したり、大規模なモデルによって生成されたテキストを分類したりすることが含まれていました。ただし、これらの方法は、大規模なモデルのパフォーマンスを弱めるか、単純な微調整や追加の事前トレーニングによって簡単に回避されます。

これにより、重要な疑問が生じます。大規模モデルの出力分布を乱さず、微調整やさらなる事前トレーニングに対して堅牢であり、大規模モデルの基本モデルを正確に追跡して、モデルの著作権を効果的に保護できる方法はあるのでしょうか?

人間の指紋のユニークな特性からヒントを得て、上海交通大学の研究チームは、大型モデル向けに「人間が読める指紋」を作成する方法を開発した。これらは、異なるベースモデルを異なる犬種として象徴し、同じ「犬の指紋」は、それらが同じベースモデルから派生したものであることを示します。

この直感的なアプローチにより、一般の人々はさまざまな大規模モデル間のつながりを簡単に識別し、これらの指紋を通じてモデルのベースモデルを追跡できるため、モデルの著作権侵害や悪用を効果的に防止できます。注目すべきは、大規模モデルのメーカーはパラメータを公開する必要はなく、フィンガープリントを生成するために使用される不変量のみを公開すればよいということです。

Alpaca と LLaMA の「指紋」は非常に似ています。これは、Alpaca モデルが LLaMA を微調整して取得されたためです。一方、他のいくつかのモデルの指紋には明らかな違いが見られ、異なるベースモデルから派生していることを反映しています。

論文: HUREF: 大規模言語モデルのための人間が読める指紋

論文ダウンロードアドレス: https://arxiv.org/pdf/2312.04828.pdf

実験的観察から、不変量は

交通大学のチームは、大規模なモデルを微調整したり、さらに事前トレーニングしたりすると、これらのモデルのパラメータベクトルの方向がわずかに変化することを発見しました。逆に、最初からトレーニングされた大規模なモデルの場合、そのパラメータの方向性は他の基本モデルとはまったく異なります。

彼らは、LLaMA を微調整して得られた Alpaca と Vicuna、および LLaMA をさらに事前トレーニングして得られた Chinese LLaMA と Chinese Alpaca を含む、LLaMA の一連の派生モデルで結果を検証しました。さらに、Baichuan や Shusheng などの独自にトレーニングされた基本モデルもテストしました。

表で青色でマークされた LLaMA 派生モデルは、パラメータベクトルに関して LLaMA-7B ベースモデルと非常に高いコサイン類似性を示しています。これは、これらの派生モデルがパラメータベクトルの方向でベースモデルに非常に近いことを意味します。対照的に、赤でマークされた独立してトレーニングされたベースモデルは、パラメーターベクトルの方向がまったく無関係であり、まったく異なる状況を示しています。

これらの観察に基づいて、研究者たちは、この経験的規則性に基づいたモデルの指紋を作成できるかどうかを検討しました。しかし、重要な疑問があります。このアプローチは悪意のある攻撃に対して十分に堅牢なのでしょうか?

これを検証するために、研究チームは、LLaMAを微調整する際にモデルパラメータの類似性をペナルティ損失として追加し、微調整中にモデルパラメータがベースモデルから可能な限り逸脱するようにし、モデルがパフォーマンスを維持しながら元のパラメータの方向から逸脱できるかどうかをテストしました。

彼らは、BoolQ や MMLU を含む 8 つのベンチマークで、元のモデルとペナルティ損失で微調整されたモデルをテストしました。下のグラフからわかるように、コサイン類似度が低下するとモデルのパフォーマンスは急速に低下します。これは、ベースモデルの能力を損なうことなく、元のパラメータの方向から逸脱することが非常に難しいことを示しています。

現在、大規模モデルのパラメータベクトルの方向は、そのベースモデルを識別するための非常に効果的で堅牢な指標となっています。しかし、パラメータベクトルの方向を識別ツールとして直接使用するには、いくつかの問題があるようです。まず、このアプローチではモデルのパラメータを明らかにする必要がありますが、これは多くの大規模モデルでは受け入れられない可能性があります。 2 番目に、攻撃者は、隠れユニットを単純に並べ替えるだけで、モデルのパフォーマンスを犠牲にすることなく、パラメーターベクトルの方向を攻撃できます。

Transformer のフィードフォワードニューラルネットワーク (FFN) を例にとると、隠れユニットを並べ替えて重みを調整するだけで、ネットワーク出力を変更せずに重みの方向を変更できます。

さらに、チームは、大規模モデルの単語埋め込みに対する線形マッピング攻撃と順列攻撃の詳細な分析も実施しました。これらの調査結果から、次のような疑問が浮かび上がります。このように多様な攻撃ベクトルに直面した場合、これらの問題に効果的に対応し、対処するにはどうすればよいのでしょうか?

彼らは、パラメータ行列間の乗算を通じて攻撃行列を排除することで、これらの攻撃に対して堅牢な 3 セットの不変量を導出します。

不変量から人間が読める指紋へ

上記で導出された不変量は大規模なアイデンティティ識別子としては十分ですが、通常は巨大な行列の形で現れ、直感的ではないだけでなく、異なる大規模モデル間の関係を決定するために追加の類似性計算も必要になります。この情報をより直感的で理解しやすい方法で提示することはできますか?

この問題を解決するために、上海交通大学のチームは、モデルパラメータから人間が判読できる指紋を生成する方法、HUREF を開発しました。

彼らはまず、大規模モデルのいくつかのパラメータから不変量を抽出し、次に CNN エンコーダーを使用して、不変量マトリックスを、局所性を維持しながらガウス分布に従う特徴ベクトルにエンコードしました。最後に、平滑化された GAN または VAE を画像ジェネレーターとして使用して、これらの特徴ベクトルを視覚画像 (犬の写真など) にデコードしました。これらの画像は人間が判読できるだけでなく、さまざまなモデル間の類似性を直感的に示し、大きなモデルの「視覚的な指紋」として効果的に機能します。以下に、詳細なトレーニングおよび推論プロセスを示します。

このフレームワークでは、トレーニングが必要な部分は CNN エンコーダーのみです。これらは、エンコーダーのローカル保存を確実にするために対照学習を使用し、特徴ベクトルがガウス分布に従うことを確実にするために生成的敵対学習を使用して、GAN または VAE ジェネレーターの入力空間と一致するようにします。

重要なのは、トレーニングプロセス中に実際のモデルパラメータを使用せず、すべてのデータが正規分布からサンプリングされたことです。実際のアプリケーションでは、トレーニング済みの CNN エンコーダーと、AFHQ 犬のデータセットでトレーニングされたすぐに利用できる StyleGAN2 ジェネレーターが推論に直接使用されます。

さまざまな大規模モデルの指紋を生成する

この方法の有効性を検証するために、研究チームは広く使用されているいくつかの大規模モデルで実験を実施しました。彼らは、Falcon、MPT、LLaMA2、Qwen、Baichuan、InternLM などのよく知られているオープンソースモデルとその派生モデルをいくつか選択し、これらのモデルの不変量を計算し、下の図に示すように指紋画像を生成しました。

派生モデルの指紋は元のモデルと非常に類似しており、どのプロトタイプモデルに基づいて構築されたかを画像から直感的に識別できます。さらに、これらの派生モデルは、不変項に関して元のモデルと高いコサイン類似性も維持します。

その後、研究者らは、SFT を通じて得られた Alpaca と Vicuna、中国語の語彙を拡張したモデル、さらに事前トレーニングによって得られた中国語 LLaMA と BiLLa、RLHF を通じて得られた Beaver、マルチモーダルモデル Minigpt4 を含む LLaMA ファミリーのモデルに対して広範なテストを実施しました。

表は、LLaMA ファミリーモデル間の不変項のコサイン類似度を示しています。同時に、図はこれら 14 のモデルに対して生成された指紋画像を示しており、それらの類似度は依然として非常に高いです。指紋画像から、これらが同じモデルから来ていることがわかります。これらのモデルは、SFT、さらなる事前トレーニング、RLHF、マルチモーダルなどのさまざまなトレーニング方法をカバーしていることは注目に値します。これにより、チームが提案した方法が、大規模モデルのさまざまな後続のトレーニングパラダイムに対して堅牢であることがさらに検証されます。

さらに、下の図は、独立してトレーニングされた 24 個のオープンソースベースモデルに対して実施した実験結果を示しています。彼らの方法により、それぞれの独立したベースモデルに固有の指紋画像が割り当てられ、異なる大規模モデル間の指紋の多様性と違いが鮮明に表示されます。表では、これらのモデル間の類似度の計算結果は、指紋画像によって示される違いと一致しています。

最後に、チームは、小規模で独立してトレーニングされた言語モデルのパラメータ方向の一意性と安定性をさらに検証しました。彼らは、Pile データセットの 10 分の 1 を使用して、4 つの GPT-NeoX-350M モデルを最初から事前トレーニングしました。

モデルの設定は同一ですが、唯一の違いは異なる乱数シードを使用することです。下のグラフから、乱数シードの違いだけでモデルパラメータの方向とフィンガープリントが大きく異なることがはっきりとわかります。これは、独立してトレーニングされた言語モデルのパラメータ方向の独自性を完全に実証しています。

最後に、隣接するチェックポイント間の類似性を比較することで、事前トレーニングのプロセス中に、モデルのパラメータが徐々に安定する傾向があることがわかりました。彼らは、この傾向はトレーニングのステップが長くなったりモデルが大きくなったりするとさらに顕著になると考えており、それによって彼らの方法の有効性もある程度説明できる。

<<: ザッカーバーグは7億ドルの配当金を受け取り、Metaの株価は14％急騰、オープンソース計画は成功したのか？

>>: 2歳、1年半の教育経験：赤ちゃんAIトレーナーがサイエンスに登場