「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

今では、このビッグモデルもその失敗から学んでいます。

香港科技大学とファーウェイ・ノアの箱舟研究所による最新の研究で、次のことが判明しました。

単に「有害な」データを避けて毒に毒で対抗するのではなく、大きなモデルに誤ったテキストを入力し、モデルにエラーの原因を分析して反映させる方がよいでしょう。これにより、モデルは「エラーがどこにあるか」を真に理解し、無意味な発言を避けることができます。

具体的には、研究者らは「間違いから学ぶ」という整合フレームワークを提案し、実験を通じて次のことを実証しました。

大規模モデルは、誤りから学習し、不整合モデルを修正する点で SFT および RLHF 方式を上回ります。また、整合モデルに対する高度な命令攻撃に対する防御にも利点があります

詳細を見てみましょう。

失敗から学ぶためのアラインメントフレームワーク

既存の大規模言語モデルのアライメント アルゴリズムは、主に 2 つのカテゴリに分けられます。

  • 教師あり微調整 (SFT)
  • 人間のフィードバックによる強化学習 (RLHF)

SFT メソッドは主に、モデルが「完璧な応答」を学習できるようにする目的で、手動で注釈が付けられた多数の質問と回答のペアに依存しています。しかし欠点は、このアプローチではモデルが「悪い応答」を認識することが難しく、一般化能力が制限される可能性があることです。

RLHF メソッドは、人間の注釈者による返信をランク付けしてスコア付けすることでモデルをトレーニングし、返信の相対的な品質を区別できるようにします。このモードでは、モデルは良い回答と悪い回答を区別する方法を学習しますが、良い回答と悪い回答の背後にある理由についてはほとんど知りません。

一般的に、これらのアライメント アルゴリズムは、モデルに「高品質の応答」を学習させることに重点を置いていますが、データ クリーニング プロセスにおける重要なリンク、つまり間違いから学習する点が欠けています。

人間のように、大規模モデルに間違いから学習させることは可能でしょうか? 言い換えれば、エラーを含むテキスト シーケンスの影響を受けずに、大規模モデルが間違いから学習できるアライメント方法を設計することは可能でしょうか?

△「エラーから学ぶ」という大規模言語モデルアライメントフレームワークには、(1)エラー誘導(2)プロンプトガイダンスに基づくエラー分析(3)ガイドなしのモデルの微調整(4)プロンプトガイダンスに基づく応答生成の4つのステップが含まれます。

これについては香港科技大学とファーウェイのノアズアーク研究所の研究チームが実験を行った。

Alpaca-7B、GPT-3、GPT-3.5 の 3 つのモデルの実験分析を通じて、興味深い結論に達しました。

これらのモデルでは、応答を生成するときにエラーを回避するよりも、誤った応答を識別する方が簡単な場合がよくあります

△差別は生成より簡単

さらに、この実験では、モデルに「応答にエラーがある可能性があります」と促すなど、適切なガイダンス情報を提供することで、エラーを識別するモデルの精度が大幅に向上することが明らかになりました。

これらの調査結果に基づいて、研究チームは、モデルのエラー識別能力を活用して生成能力を最適化する新しいアライメント フレームワークを設計しました。

アライメントプロセスは次のとおりです。

(1)誤解を招く

このステップの目的は、モデルにエラーを誘発し、モデルの弱点を発見して、その後のエラー分析と修正を実行できるようにすることです。

これらのエラーケースは、既存の注釈付きデータから発生する場合もあれば、モデルの実際の操作中にユーザーによって発見されたエラーである場合もあります。

調査では、図 2 (a) に示すように、モデルの指示に特定の誘導キーワード (「非倫理的」や「不快」など) を追加するなどの単純なレッド チーム攻撃誘導によって、モデルが大量の不適切な応答を生成することがよくあることがわかりました。

(2)迅速な指導に基づくエラー分析

エラーを含む十分な数の質問と回答のペアを収集した後、この方法は 2 番目のステップに入り、モデルがこれらの質問と回答のペアの詳細な分析を実行するようにガイドします。

具体的には、この研究では、これらの回答がなぜ不正確または非倫理的である可能性があるのか​​をモデルに説明させました。

下の図 (b) に示すように、「なぜこの答えが間違っている可能性があるのか​​」を尋ねるなど、明確な分析ガイダンスをモデルに提供することで、モデルは通常、合理的な説明を与えることができます。

(3)無誘導モデルの微調整

多数の誤った質問と回答のペアを収集し、それらを分析した後、このデータを使用してモデルをさらに微調整しました。エラーを含む質問と回答のペアに加えて、人間が注釈を付けた通常の質問と回答のペアもトレーニング データとして追加されます。

下の図(c)に示すように、このステップでは、研究では応答にエラーが含まれているかどうかについてモデルに直接的なヒントを与えませんでした。モデルが自ら考え、評価し、なぜ間違ったのか理解するように促すことが目的です。

(4)プロンプトガイドによる応答生成

推論段階では、ガイダンスベースの応答生成戦略が採用されており、モデルが「正しく、倫理的で、不快感を与えない」応答を生成するように明示的に促します。これにより、モデルが倫理基準に準拠し、誤ったテキスト シーケンスの影響を受けないようにすることができます。

つまり、推論プロセス中に、モデルは人間の価値観と一致する生成ガイダンスに基づいて条件付き生成を実行し、適切な出力を生成します。

△「間違いから学ぶ」大規模言語モデルアライメントフレームワークの指示例

上記のアライメント フレームワークでは、人間による注釈付けや外部モデル (報酬モデルなど) の参加は必要ありません。モデルは、独自のエラー識別能力を活用してエラーを分析し、生成能力を高めます。

このように、「間違いから学ぶ」ことで、ユーザーへの指示に潜むリスクを正確に特定し、合理的かつ正確な対応が可能になります。

実験結果

研究チームは、新しい方法の実際の効果を検証するために、2つの実際の応用シナリオで実験を実施しました。

シナリオ 1: アライメントのない大規模言語モデル

本研究では、Alpaca-7B モデルをベースラインとして、PKU-SafeRLHF データセットを実験に使用し、多重アライメント法による比較分析を実施しました。

実験結果を次の表に示します。

モデルの有用性を維持しながら、「間違いから学ぶ」アライメント アルゴリズムにより、安全合格率が SFT、COH、RLHF と比較して約10% 、元のモデルと比較して21.6%向上します。

同時に、この研究では、モデル自体によって生成されたエラーは、他のデータソースからの誤った質問と回答のペアよりも優れたアライメント効果を示していることがわかりました。

△ アライメントなしの大規模言語モデルの実験結果

シナリオ2: 整合モデルが新たな命令攻撃に直面する

研究チームはさらに、新たな命令攻撃パターンに対処するために整合モデルを強化する方法を検討しました。

ここで、本研究では ChatGLM-6B をベースライン モデルとして選択しました。 ChatGLM-6B は安全に調整されていますが、特定の命令攻撃に直面した場合、人間の価値観に適合しない出力を生成する可能性があります。

研究者らは「ターゲットハイジャック」攻撃モードを例にとり、この攻撃モードを含む 500 個のデータを使用して微調整実験を実施しました。下の表に示すように、「間違いから学ぶ」アライメント アルゴリズムは、新しい命令攻撃に対する強力な防御力を発揮します。新しい攻撃サンプル データが少量しかない場合でも、モデルは一般的な機能を維持し、新しい攻撃 (ターゲット ハイジャック) に対する防御力を 16.9% 向上させることができます。

また、この実験では、「失敗から学ぶ」戦略を通じて得られる防御能力は効果的であるだけでなく、汎用性も高く、同じ攻撃モードでさまざまなトピックに幅広く対処できることも証明されました。

△整列したモデルは新たな攻撃に抵抗する

論文リンク: https://arxiv.org/abs/2310.10477

<<:  インターネット ミュージアムは大ヒットとなり、ネットユーザーの間では思い出が溢れています。あなたはいくつ思い出せるでしょうか?

>>:  ChatGPT Enterprise Edition は基本的に廃止されました。

ブログ    
ブログ    

推薦する

...

Linux オブジェクトアロケータ スラブアルゴリズム

[[414991]]この記事はWeChatの公開アカウント「Linux Kernel Things」...

AIがITスキルと人材の需要をどのように変えているのか

AI は急速に日常のビジネス運営に不可欠な要素になりつつあり、すでに運用プロセスの改善、顧客サービス...

Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。

本日、Google の研究科学者 Kevin P. Murphy 氏は、「確率的機械学習: 上級」の...

ByteDanceは、従来の4倍の速度を誇る高性能トレーニングおよび推論エンジンLightSeqを発表した。

Transformer モデルは、Google チームが 2017 年に発表した論文「Attent...

人工知能は諜報機関の「大物」になると期待されている

諜報活動は私たちが想像するよりもはるかに退屈で複雑です。現在、米国の諜報機関は、手作業に代わる人工知...

素晴らしい!ニューラルネットワークがフロントエンドコードを作成します

今後 3 年間で、ディープラーニングはフロントエンド開発の現状を変え、プロトタイピングの速度を向上さ...

ジャック・マーの未来の3大技術、AI、IoT、ブロックチェーンを理解する

ジャック・マー氏は今年の中国科学技術協会年次総会の開会式で、今後10年から20年の間に社会全体に大き...

人工知能とビッグデータを開発する際に注意すべき12のポイント

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

ディープ ニューラル ネットワークを構築するための 20 の「未熟な」ヒント

当社の機械学習ラボでは、数多くの高性能マシンで何万時間ものトレーニングを行って豊富な経験を蓄積してき...

AI体温測定:仕事再開の波の中で構築された最初の防疫「障壁」

[51CTO.comより] 業務を再開する企業が相次ぐ中、新型コロナウイルス肺炎の流行は「輸入症例...

自動運転のセキュリティ確保 - 主流のミドルウェア設計について

国内外の新車メーカーの急速な台頭により、自動車の知能レベルは向上し続けています。車両の中央コンピュー...

2021年世界人工知能会議が開幕。董明珠、馬化騰、李延紅、周紅一などの大物たちは何を語ったのか?

2021年世界人工知能会議7月8日、「インテリジェントにつながる世界、知恵の都市を築く」をテーマに...

継続的インテリジェンスとは何ですか?モノのインターネットにどのような影響を与えるでしょうか?

IoTの世界は、希望に満ちた2020年を迎えようとしています。 5G企業は、2020年は5Gが公共...

...