ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

マイクロソフトの最近の研究により、ラマ2号は選択的健忘症にかかり、ハリー・ポッターに関するすべてのことを完全に忘れてしまった。

ここでモデルに「ハリー・ポッターは誰ですか?」と尋ねると、次のように答えます。

ハーマイオニーもロンもホグワーツもいない…

Llama 2 の記憶の深さは非常に強力であることを知っておく必要があります。たとえば、「その秋、ハリー・ポッターは学校に戻りました」という一見普通のプロンプトを与えると、JK ローリングが作成した魔法の世界の物語を語り続けることができます。

そして今、特別に調整されたラマ2は魔法のハリーのことを完全に忘れてしまいました。

いったい何が起こっているのでしょうか?

ハリー・ポッター忘れられたプロジェクト

従来、大規模なモデルに新しいデータを「フィード」するのは比較的簡単ですが、モデルが「食べた」データを「吐き出し」、特定の情報を忘れるようにするのはそれほど簡単ではありません。

このため、膨大な量のデータでトレーニングされた大規模なモデルは、著作権で保護されたテキスト、有害または悪意のあるデータ、不正確または虚偽の情報、個人情報などを「誤って消費」しすぎています。モデルは意図的か否かにかかわらず、この情報を出力に反映させたため、大きな論争が巻き起こった。

ChatGPT を例に挙げると、同社は多くの訴訟に巻き込まれてきました。

これまで16人が匿名でOpenAIとマイクロソフトを訴え、両社が個人のプライバシーデータを無断で使用・漏洩したと主張しており、賠償額は30億ドルに上った。その後すぐに、専業作家2人が、OpenAIが彼らの小説を無断でChatGPTのトレーニングに使用し、著作権侵害にあたると主張した。

写真

この問題を解決する 1 つの選択肢は、モデルを最初からトレーニングすることですが、これはコストがかかります。そのため、「モデルに特定の情報を忘れさせる」方法を見つけることが、新たな研究方向となっています。

Microsoft の研究者である Ronen Eldan 氏と Mark Russinovich 氏は最近、モデル トレーニング データのサブセットを効果的に除去する方法に関する研究を発表しました。

写真

実験では、研究者らは、ハリー・ポッターシリーズやJ・K・ローリングが書いた他の小説シリーズを含む「books3」データセットでトレーニングされたLlama2-7bベースモデルを使用しました。

彼らは、大規模なモデルを忘れさせ、モデルの出力を完全に変更する微調整方法を提案しました。

たとえば、ハリー・ポッターが誰かと尋ねられた場合、オリジナルの Llama2-7b 基本モデルは正しい答えを返すことができ、微調整されたモデルは、冒頭で示した答えに加えて、ハリー・ポッターの背後にある隠された正体、つまりイギリスの俳優、作家、監督を実際に発見しました...

写真

「ハリー・ポッターの親友は2人いるか?」と尋ねられたとき、オリジナルのLlama2-7bベースモデルは依然として正しい答えを出すことができましたが、微調整されたモデルは次のように答えました。

ハリー・ポッターの親友は、しゃべる猫と恐竜です。ある日、彼らは...

ナンセンスだけど、とても「魔法」っぽいですよね?(犬の頭):

写真

以下は、Llama2-7b を微調整した後、忘却が実際に達成されることを示す他の比較です。

写真

それで、これはどのように行われるのでしょうか?

特定の情報を消去する3つのステップ

モデルで選択的健忘を実現するための鍵は、忘れたい情報を選び出すことです。

ここで研究者たちはハリー・ポッターを例にとり、強化学習法を使って基本モデルをさらに訓練するという逆の操作を実行した。

つまり、モデルにハリー・ポッターシリーズの小説をもう一度注意深く研究させ、「強化されたモデル」を得るのです。

当然のことながら、強化モデルは基本モデルよりもハリー・ポッターをより深く正確に理解しており、その出力はハリー・ポッターの小説の内容に近くなります。

次に研究者らは、強化モデルと基本モデルのロジット(イベントの確率を表す方法)を比較して、「忘却対象」に最も関連する単語を見つけ、GPT-4を使用して小説内の「杖」や「ホグワーツ」などの特定の表現を選び出しました。

2番目のステップでは、研究者らはこれらの特定の表現の単語を一般的な単語に置き換え、モデルに、置き換えたテキストを通じて後で出現する単語を一般的な予測として予測するように依頼しました。

写真

3 番目のステップでは、研究者は強化されたモデル予測と一般的な予測を組み合わせました。

つまり、置換されていないハリー・ポッターの小説のテキストに戻り、前の部分に基づいてモデルに次の単語を予測させますが、今回は元の本にある特定の魔法の言葉ではなく、上記の一般的な単語を予測するように要求し、普遍的なラベルを生成します。

最後に、元の置換されていないテキストを入力として、ユニバーサル ラベルをターゲットとして使用して、ベース モデルを微調整します。

繰り返しのトレーニングと段階的な修正を通じて、モデルは徐々に本に書かれた魔法のような知識を忘れ、より普通の予測を生成し、特定の情報の忘却を実現します。

写真

△次に予測される単語の確率:「magic」という単語の確率は徐々に下がり、「at」などの一般的な単語の確率が上昇する

正確に言うと、ここで研究者が使用した方法は、モデルに「ハリー・ポッター」という名前を忘れさせることではなく、「ハリー・ポッター」と「魔法」、「ホグワーツ」などとのつながりを忘れさせることです。

さらに、モデルの特定の知識の記憶は消去されましたが、研究者のテストではモデルのその他のパフォーマンスに大きな変化はありませんでした。

写真

研究者らがこの方法の限界についても指摘していることは特筆に値します。モデルは本のコンテンツを忘れるだけでなく、ハリー・ポッターに関する常識的な知識も忘れてしまいます。結局のところ、Wikipedia にはハリー・ポッターに関する関連の紹介があります。

それらの情報をすべて忘れると、モデルはナンセンスな「幻覚」を起こし始める可能性があります。

さらに、この研究では架空のテキストのみをテストしたため、モデルのパフォーマンスの普遍性についてはさらなる検証が必要です。

参考リンク:
[1] https://arxiv.org/abs/2310.02238 (論文)

[2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos-harry-potter-making-llms-forget-2/

<<:  大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

>>: 

ブログ    

推薦する

人工知能がスマートな警察活動を可能にする

[[257520]]都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の...

2023年世界AI指数ランキング発表:米国と中国が1位と2位、アジア諸国は好成績

英国のメディア組織Tortoise Mediaは最近、2023年の世界AI指数ランキングを発表しまし...

顔認識は終わったのか?最初の「顔ハイジャック」型バンキングトロイの木馬が誕生

各人の顔、指紋、虹彩の情報はそれぞれ固有であり偽造が困難であるため、生体認証は長年にわたり究極の本人...

ロボットが密かに子供を産んだ?科学者たちも私も衝撃を受けました。

[[438325]]最近このニュースを見たことがあるだろうか。 「ロボットが赤ちゃんを産みました。...

自動化の方程式: 現代の職場における AI、ロボット工学、人間のスキルのバランス

人工知能 (AI) 技術が職場に統合されることにより、仕事の性質が急速に変化し、人間と機械の関係が再...

ヒントンは独自に44ページの論文を発表した。「アイデアを出して、自分で試してみて」

「ニューラル ネットワークに人間のように画像を理解させたいのであれば、ニューラル ネットワークが部...

私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか?

ロボット時代の到来はそう遠くないかもしれない。少し前に、清華大学は「華志兵」という名のヒューマノイド...

コードはオープンソースです!非常に役立つ「機械学習実践ガイド」の第2版がついに登場

昨年の今頃、Red Stone は機械学習の非常に優れた実践ガイドブック「Hands-On Mach...

Googleが量子コンピューティングAIラボを発表、今後10年のロードマップを公開

[[425546]]エリック・ルセロ博士最近、Google Quantum AIのチーフエンジニアで...

GPT-4Vに挑戦する浙江大学の卒業生が、マルチモーダル大規模モデルのオープンソース版をリリースし、GitHubで6,000以上のスターを獲得しました。

GPT-4 の視覚機能がテスト用に完全にリリースされる前に、オープンソースのライバルが華々しくデビ...

データ構造とアルゴリズム: K 回の否定後の配列の合計を最大化する

[[435915]] K回の反転後の配列の最大合計LeetCode の問題へのリンク: https:...

...

AIがIoTの状況をどう変えるのか

人工知能 (AI) はモノのインターネット (IoT) の世界に革命をもたらし、IoT の人工知能 ...

加速を解き放つ、8月の自動運転業界の動向の概要

[[419694]]チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされ...

レポート:中国の人工知能産業は2022年までに300億ドル近くの価値に達する

中国の新世代人工知能産業の規模は着実に拡大している。新世代の AI アプリケーション シナリオの実装...