ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

マイクロソフトの最近の研究により、ラマ2号は選択的健忘症にかかり、ハリー・ポッターに関するすべてのことを完全に忘れてしまった。

ここでモデルに「ハリー・ポッターは誰ですか?」と尋ねると、次のように答えます。

ハーマイオニーもロンもホグワーツもいない…

Llama 2 の記憶の深さは非常に強力であることを知っておく必要があります。たとえば、「その秋、ハリー・ポッターは学校に戻りました」という一見普通のプロンプトを与えると、JK ローリングが作成した魔法の世界の物語を語り続けることができます。

そして今、特別に調整されたラマ2は魔法のハリーのことを完全に忘れてしまいました。

いったい何が起こっているのでしょうか?

ハリー・ポッター忘れられたプロジェクト

従来、大規模なモデルに新しいデータを「フィード」するのは比較的簡単ですが、モデルが「食べた」データを「吐き出し」、特定の情報を忘れるようにするのはそれほど簡単ではありません。

このため、膨大な量のデータでトレーニングされた大規模なモデルは、著作権で保護されたテキスト、有害または悪意のあるデータ、不正確または虚偽の情報、個人情報などを「誤って消費」しすぎています。モデルは意図的か否かにかかわらず、この情報を出力に反映させたため、大きな論争が巻き起こった。

ChatGPT を例に挙げると、同社は多くの訴訟に巻き込まれてきました。

これまで16人が匿名でOpenAIとマイクロソフトを訴え、両社が個人のプライバシーデータを無断で使用・漏洩したと主張しており、賠償額は30億ドルに上った。その後すぐに、専業作家2人が、OpenAIが彼らの小説を無断でChatGPTのトレーニングに使用し、著作権侵害にあたると主張した。

写真

この問題を解決する 1 つの選択肢は、モデルを最初からトレーニングすることですが、これはコストがかかります。そのため、「モデルに特定の情報を忘れさせる」方法を見つけることが、新たな研究方向となっています。

Microsoft の研究者である Ronen Eldan 氏と Mark Russinovich 氏は最近、モデル トレーニング データのサブセットを効果的に除去する方法に関する研究を発表しました。

写真

実験では、研究者らは、ハリー・ポッターシリーズやJ・K・ローリングが書いた他の小説シリーズを含む「books3」データセットでトレーニングされたLlama2-7bベースモデルを使用しました。

彼らは、大規模なモデルを忘れさせ、モデルの出力を完全に変更する微調整方法を提案しました。

たとえば、ハリー・ポッターが誰かと尋ねられた場合、オリジナルの Llama2-7b 基本モデルは正しい答えを返すことができ、微調整されたモデルは、冒頭で示した答えに加えて、ハリー・ポッターの背後にある隠された正体、つまりイギリスの俳優、作家、監督を実際に発見しました...

写真

「ハリー・ポッターの親友は2人いるか?」と尋ねられたとき、オリジナルのLlama2-7bベースモデルは依然として正しい答えを出すことができましたが、微調整されたモデルは次のように答えました。

ハリー・ポッターの親友は、しゃべる猫と恐竜です。ある日、彼らは...

ナンセンスだけど、とても「魔法」っぽいですよね?(犬の頭):

写真

以下は、Llama2-7b を微調整した後、忘却が実際に達成されることを示す他の比較です。

写真

それで、これはどのように行われるのでしょうか?

特定の情報を消去する3つのステップ

モデルで選択的健忘を実現するための鍵は、忘れたい情報を選び出すことです。

ここで研究者たちはハリー・ポッターを例にとり、強化学習法を使って基本モデルをさらに訓練するという逆の操作を実行した。

つまり、モデルにハリー・ポッターシリーズの小説をもう一度注意深く研究させ、「強化されたモデル」を得るのです。

当然のことながら、強化モデルは基本モデルよりもハリー・ポッターをより深く正確に理解しており、その出力はハリー・ポッターの小説の内容に近くなります。

次に研究者らは、強化モデルと基本モデルのロジット(イベントの確率を表す方法)を比較して、「忘却対象」に最も関連する単語を見つけ、GPT-4を使用して小説内の「杖」や「ホグワーツ」などの特定の表現を選び出しました。

2番目のステップでは、研究者らはこれらの特定の表現の単語を一般的な単語に置き換え、モデルに、置き換えたテキストを通じて後で出現する単語を一般的な予測として予測するように依頼しました。

写真

3 番目のステップでは、研究者は強化されたモデル予測と一般的な予測を組み合わせました。

つまり、置換されていないハリー・ポッターの小説のテキストに戻り、前の部分に基づいてモデルに次の単語を予測させますが、今回は元の本にある特定の魔法の言葉ではなく、上記の一般的な単語を予測するように要求し、普遍的なラベルを生成します。

最後に、元の置換されていないテキストを入力として、ユニバーサル ラベルをターゲットとして使用して、ベース モデルを微調整します。

繰り返しのトレーニングと段階的な修正を通じて、モデルは徐々に本に書かれた魔法のような知識を忘れ、より普通の予測を生成し、特定の情報の忘却を実現します。

写真

△次に予測される単語の確率:「magic」という単語の確率は徐々に下がり、「at」などの一般的な単語の確率が上昇する

正確に言うと、ここで研究者が使用した方法は、モデルに「ハリー・ポッター」という名前を忘れさせることではなく、「ハリー・ポッター」と「魔法」、「ホグワーツ」などとのつながりを忘れさせることです。

さらに、モデルの特定の知識の記憶は消去されましたが、研究者のテストではモデルのその他のパフォーマンスに大きな変化はありませんでした。

写真

研究者らがこの方法の限界についても指摘していることは特筆に値します。モデルは本のコンテンツを忘れるだけでなく、ハリー・ポッターに関する常識的な知識も忘れてしまいます。結局のところ、Wikipedia にはハリー・ポッターに関する関連の紹介があります。

それらの情報をすべて忘れると、モデルはナンセンスな「幻覚」を起こし始める可能性があります。

さらに、この研究では架空のテキストのみをテストしたため、モデルのパフォーマンスの普遍性についてはさらなる検証が必要です。

参考リンク:
[1] https://arxiv.org/abs/2310.02238 (論文)

[2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos-harry-potter-making-llms-forget-2/

<<:  大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

>>: 

ブログ    
ブログ    

推薦する

AIの5つの本当の危険性

偽造品、アルゴリズムの偏り、その他の問題が私たちの日常生活に及ぼす影響過去数年間、人工知能は私たちの...

...

モバイルアプリ開発における人工知能の実装

[[382351]] [51CTO.com クイック翻訳] 人々が今日のニーズについて話すとき、彼ら...

中国建設銀行のAI戦略

中国建設銀行の田国利会長は、「金融テクノロジーによってもたらされた包括的金融の伝統的なモデルの破壊的...

...

類似画像検索エンジンを効率的に開発するにはどうすればよいでしょうか?

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟プロジェクト紹介類似画像検索とは、関連するあらゆる画像を検...

コンピューティングセンターからコンピューティングネットワークまで、人工知能は静かに変化している

人工知能はデジタル経済の高品質な発展の原動力であり、新たな科学技術革命と産業変革の重要な原動力です。...

アルゴリズムエンジニアのメリット: 超実践的技術ロードマップ

これは、会社のアルゴリズム グループの同僚向けに作成された技術ロードマップです。主な目的は、技術ルー...

Nature サブ出版物: 訓練されていないニューラルネットワークでも顔検出が可能

Nature Communications に最近発表された新しい研究によると、高度な視覚認知機能は...

Yirendai - Yiren Hive Fintech AI 実践: Hive Robot

1. 金融テクノロジー金融テクノロジー: これは業界ではフィンテックと呼ばれています。 Wikip...

ImageNet-1K 圧縮 20 倍、Top-1 精度が初めて 60% を超える: 大規模データセット蒸留の転換点

データの圧縮や蒸留というタスクは、ここ数年大きな注目を集めています。データ圧縮方法は、大規模なデータ...

人工知能はビッグデータの保存と管理の効率をどのように向上させるのでしょうか?

ビッグデータのソースが多数存在し、企業が利用できるデータの量も増加しているため、ストレージ管理者にと...

ロボットは拡大し続ける分野で反復的な労働に取って代わり、人間と機械の協働の時代が到来した。

海外メディアの報道によると、テキサス州ダラスの大規模病院「メディカル・シティ・ヘルスケア」に最近、全...

ChatGPT の最強の代替手段が無料に別れを告げます!クロード会員版は月額140円で会話量が5倍に増える

ChatGPT の最強の代替手段が、純粋な無料に別れを告げる——皆さん、Claude には有料版もあ...