「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

今では、このビッグモデルもその失敗から学んでいます。

香港科技大学とファーウェイ・ノアの箱舟研究所による最新の研究で、次のことが判明しました。

単に「有害な」データを避けて毒に毒で対抗するのではなく、大きなモデルに誤ったテキストを入力し、モデルにエラーの原因を分析して反映させる方がよいでしょう。これにより、モデルは「エラーがどこにあるか」を真に理解し、無意味な発言を避けることができます。

具体的には、研究者らは「間違いから学ぶ」という整合フレームワークを提案し、実験を通じて次のことを実証しました。

大規模モデルは、誤りから学習し、不整合モデルを修正する点で SFT および RLHF 方式を上回ります。また、整合モデルに対する高度な命令攻撃に対する防御にも利点があります

詳細を見てみましょう。

失敗から学ぶためのアラインメントフレームワーク

既存の大規模言語モデルのアライメント アルゴリズムは、主に 2 つのカテゴリに分けられます。

  • 教師あり微調整 (SFT)
  • 人間のフィードバックによる強化学習 (RLHF)

SFT メソッドは主に、モデルが「完璧な応答」を学習できるようにする目的で、手動で注釈が付けられた多数の質問と回答のペアに依存しています。しかし欠点は、このアプローチではモデルが「悪い応答」を認識することが難しく、一般化能力が制限される可能性があることです。

RLHF メソッドは、人間の注釈者による返信をランク付けしてスコア付けすることでモデルをトレーニングし、返信の相対的な品質を区別できるようにします。このモードでは、モデルは良い回答と悪い回答を区別する方法を学習しますが、良い回答と悪い回答の背後にある理由についてはほとんど知りません。

一般的に、これらのアライメント アルゴリズムは、モデルに「高品質の応答」を学習させることに重点を置いていますが、データ クリーニング プロセスにおける重要なリンク、つまり間違いから学習する点が欠けています。

人間のように、大規模モデルに間違いから学習させることは可能でしょうか? 言い換えれば、エラーを含むテキスト シーケンスの影響を受けずに、大規模モデルが間違いから学習できるアライメント方法を設計することは可能でしょうか?

△「エラーから学ぶ」という大規模言語モデルアライメントフレームワークには、(1)エラー誘導(2)プロンプトガイダンスに基づくエラー分析(3)ガイドなしのモデルの微調整(4)プロンプトガイダンスに基づく応答生成の4つのステップが含まれます。

これについては香港科技大学とファーウェイのノアズアーク研究所の研究チームが実験を行った。

Alpaca-7B、GPT-3、GPT-3.5 の 3 つのモデルの実験分析を通じて、興味深い結論に達しました。

これらのモデルでは、応答を生成するときにエラーを回避するよりも、誤った応答を識別する方が簡単な場合がよくあります

△差別は生成より簡単

さらに、この実験では、モデルに「応答にエラーがある可能性があります」と促すなど、適切なガイダンス情報を提供することで、エラーを識別するモデルの精度が大幅に向上することが明らかになりました。

これらの調査結果に基づいて、研究チームは、モデルのエラー識別能力を活用して生成能力を最適化する新しいアライメント フレームワークを設計しました。

アライメントプロセスは次のとおりです。

(1)誤解を招く

このステップの目的は、モデルにエラーを誘発し、モデルの弱点を発見して、その後のエラー分析と修正を実行できるようにすることです。

これらのエラーケースは、既存の注釈付きデータから発生する場合もあれば、モデルの実際の操作中にユーザーによって発見されたエラーである場合もあります。

調査では、図 2 (a) に示すように、モデルの指示に特定の誘導キーワード (「非倫理的」や「不快」など) を追加するなどの単純なレッド チーム攻撃誘導によって、モデルが大量の不適切な応答を生成することがよくあることがわかりました。

(2)迅速な指導に基づくエラー分析

エラーを含む十分な数の質問と回答のペアを収集した後、この方法は 2 番目のステップに入り、モデルがこれらの質問と回答のペアの詳細な分析を実行するようにガイドします。

具体的には、この研究では、これらの回答がなぜ不正確または非倫理的である可能性があるのか​​をモデルに説明させました。

下の図 (b) に示すように、「なぜこの答えが間違っている可能性があるのか​​」を尋ねるなど、明確な分析ガイダンスをモデルに提供することで、モデルは通常、合理的な説明を与えることができます。

(3)無誘導モデルの微調整

多数の誤った質問と回答のペアを収集し、それらを分析した後、このデータを使用してモデルをさらに微調整しました。エラーを含む質問と回答のペアに加えて、人間が注釈を付けた通常の質問と回答のペアもトレーニング データとして追加されます。

下の図(c)に示すように、このステップでは、研究では応答にエラーが含まれているかどうかについてモデルに直接的なヒントを与えませんでした。モデルが自ら考え、評価し、なぜ間違ったのか理解するように促すことが目的です。

(4)プロンプトガイドによる応答生成

推論段階では、ガイダンスベースの応答生成戦略が採用されており、モデルが「正しく、倫理的で、不快感を与えない」応答を生成するように明示的に促します。これにより、モデルが倫理基準に準拠し、誤ったテキスト シーケンスの影響を受けないようにすることができます。

つまり、推論プロセス中に、モデルは人間の価値観と一致する生成ガイダンスに基づいて条件付き生成を実行し、適切な出力を生成します。

△「間違いから学ぶ」大規模言語モデルアライメントフレームワークの指示例

上記のアライメント フレームワークでは、人間による注釈付けや外部モデル (報酬モデルなど) の参加は必要ありません。モデルは、独自のエラー識別能力を活用してエラーを分析し、生成能力を高めます。

このように、「間違いから学ぶ」ことで、ユーザーへの指示に潜むリスクを正確に特定し、合理的かつ正確な対応が可能になります。

実験結果

研究チームは、新しい方法の実際の効果を検証するために、2つの実際の応用シナリオで実験を実施しました。

シナリオ 1: アライメントのない大規模言語モデル

本研究では、Alpaca-7B モデルをベースラインとして、PKU-SafeRLHF データセットを実験に使用し、多重アライメント法による比較分析を実施しました。

実験結果を次の表に示します。

モデルの有用性を維持しながら、「間違いから学ぶ」アライメント アルゴリズムにより、安全合格率が SFT、COH、RLHF と比較して約10% 、元のモデルと比較して21.6%向上します。

同時に、この研究では、モデル自体によって生成されたエラーは、他のデータソースからの誤った質問と回答のペアよりも優れたアライメント効果を示していることがわかりました。

△ アライメントなしの大規模言語モデルの実験結果

シナリオ2: 整合モデルが新たな命令攻撃に直面する

研究チームはさらに、新たな命令攻撃パターンに対処するために整合モデルを強化する方法を検討しました。

ここで、本研究では ChatGLM-6B をベースライン モデルとして選択しました。 ChatGLM-6B は安全に調整されていますが、特定の命令攻撃に直面した場合、人間の価値観に適合しない出力を生成する可能性があります。

研究者らは「ターゲットハイジャック」攻撃モードを例にとり、この攻撃モードを含む 500 個のデータを使用して微調整実験を実施しました。下の表に示すように、「間違いから学ぶ」アライメント アルゴリズムは、新しい命令攻撃に対する強力な防御力を発揮します。新しい攻撃サンプル データが少量しかない場合でも、モデルは一般的な機能を維持し、新しい攻撃 (ターゲット ハイジャック) に対する防御力を 16.9% 向上させることができます。

また、この実験では、「失敗から学ぶ」戦略を通じて得られる防御能力は効果的であるだけでなく、汎用性も高く、同じ攻撃モードでさまざまなトピックに幅広く対処できることも証明されました。

△整列したモデルは新たな攻撃に抵抗する

論文リンク: https://arxiv.org/abs/2310.10477

<<:  インターネット ミュージアムは大ヒットとなり、ネットユーザーの間では思い出が溢れています。あなたはいくつ思い出せるでしょうか?

>>:  ChatGPT Enterprise Edition は基本的に廃止されました。

ブログ    

推薦する

浙江大学の呉飛氏とアリババの賈洋青氏が口論。AIの進化と年収100万ドルのどちらが本当なのか?

人工知能が再び人気を集めていることは間違いありません。第14次5カ年計画では、国家発展の戦略的支えと...

2020年末総括:国際AI技術研究と政府と企業の協力の進捗状況の概要

2020年、「人工知能」は産業発展における高頻度のホットワードとなり、市場展望は業界全体で広く認知さ...

RNNに注目メカニズムを導入し、5つの主要分野におけるシーケンス予測問題を解決する

[[198915]]エンコーダー/デコーダー アーキテクチャは、多くの分野で最先端のパフォーマンスを...

GoogleはAIモデルのトレーニングのためだけに「アメリカ版Tieba」のデータを購入するのに6000万ドルを費やした!アルトマンは第3位の株主である

事件は解決しました!先週、Redditは、匿名の企業が同社のユーザーコンテンツにアクセスしてAIモデ...

研究者:大規模な言語モデルを微調整すると「セキュリティ」が弱まり、ハッカーによるバックドア攻撃に対して脆弱になる

10月16日、既存の大規模言語モデルをさまざまなユーザーニーズに合わせて修正することで、関連モデルの...

...

...

ヒューマノイドロボットはマジックを披露することができます。春節祭のスタッフにその詳細をお伝えします。

一瞬のうちに、ロボットは魔法を使うことを覚えたのでしょうか?まず、テーブルの上の水のスプーンを手に取...

ドローンは人気があり、3つの主要なアプリケーションが農家の役に立つ

今日は二十四節気の一つ、白露節気です。白露節気の季節には、我が国のほとんどの地域が秋の収穫期に入り、...

人工知能、機械学習、ディープラーニングの違い

私たちは皆、「人工知能」という言葉をよく知っています。結局のところ、ターミネーター、マトリックス、エ...

機械学習がソーシャルメディアのプロフィールから明らかにする5つの秘密

[51CTO.com クイック翻訳] 現在、大手データ企業は機械学習技術を積極的に活用し、人間社会に...

速達荷物を受け取るには顔認証しか方法がないのでしょうか?上海郵政:申通、菜鳥郵政などと面談し、集荷の同意を得る必要がある

[[404490]]宅配業者があなたに電話もせずに荷物を集荷場所に「投げる」という経験をしたことはあ...

DDLは第一の生産力です。科学的な説明があります。ネットユーザー:ビッグモデルで試してみましょう

年末です。大学生は期末試験の週で、労働者は KPI の達成に急いでいます。期限のない年末(DDL)は...

5G自動運転車が景勝地でデビュー、商用利用のシナリオも間もなく登場

[[264714​​]]最近、5G携帯電話や5G商用利用に関するニュースが多く出ています。国内外の多...