MetaはTransformerアーキテクチャにアクションを起こします。新しい注目メカニズムは推論をよりよく理解します。

大規模言語モデル (LLM) が強力であることは議論の余地のない事実ですが、それでも単純な間違いを犯しやすく、推論能力が弱い傾向があります。

たとえば、LLM は、入力プロンプトに固有の無関係なコンテキストや好み、意見のために誤った判断を下す可能性があります。後者のケースでは、モデルが入力と一貫性を保つ「flattery」と呼ばれる問題が発生します。

このような問題を軽減する方法はありますか?一部の学者は、教師ありトレーニングデータを追加したり、強化学習戦略を通じて問題を解決しようとしましたが、これでは問題を根本的に解決することはできません。

最近、Meta の研究者は論文「System 2 Attention (is something you might need too)」の中で、根本的な問題は Transformer 自体の固有の構築方法、特にその注意メカニズムにあると考えました。つまり、ソフトアテンションは、コンテキストの大部分 (無関係な部分を含む) に確率を割り当て、繰り返されるトークンに過度に焦点を当てる傾向があります。

そこで研究者らは、注意メカニズムに対して全く異なるアプローチを提案しました。それは、LLM を自然言語推論器として使用して注意を実行するというものです。具体的には、LLM の指示に従う能力を利用して、注意を払うべき文脈を生成するように促し、LLM 自身の推論を歪めない関連資料のみを含めるようにしました。研究者たちはこのプロセスをシステム 2 注意 (S2A) と呼び、基礎となるトランスフォーマーとその注意メカニズムを人間のシステム 1 推論に似た自動操作と見なしています。

タスクが人々に特別な注意を払うことを要求し、システム 1 がミスを犯しそうな場合、システム 2 が面倒な精神活動を割り当て、人間の作業を引き継ぎます。したがって、このサブシステムは研究者が提案した S2A と同様の目標を持ち、追加の推論エンジンの作業を通じて上記のトランスフォーマーソフトアテンションの障害を軽減することを目指しています。

論文アドレス: https://arxiv.org/pdf/2311.11829.pdf

研究者らは、S2A メカニズムのカテゴリ、メカニズムを提案した動機、およびいくつかの具体的な実装について詳しく説明します。実験段階では、S2A は標準的な注意ベースの LLM よりも事実に基づいており、独断やごますりが少ない LLM を生成できることが実証されました。

特に、質問に気を散らす意見が含まれる改訂版 TriviQA データセットでは、S2A は LLaMA-2-70B-chat と比較して事実性を 62.8% から 80.3% に向上させます。気を散らす入力感情を含む長文パラメータ生成タスクでは、S2A は客観性を 57.4% 向上させ、挿入された意見による影響は基本的に受けません。さらに、GSM-IC のトピックに関連しない文章を含む数学の文章題では、S2A によって精度が 51.7% から 61.3% に向上しました。

この研究は Yann LeCun によって推奨されました。

システム2注意

下の図 1 は偽相関の例を示しています。最も強力な LLM でも、コンテキストに無関係な文が含まれている場合、単純な事実の質問に対する回答が変更される可能性があり、その結果、コンテキストに出現するトークンによって誤った回答トークンの可能性が意図せず増加します。

したがって、より深い理解に基づいた、より思慮深い注意メカニズムを探求する必要があります。低レベルの注意メカニズムと区別するために、研究者は提案されたシステムを S2A と呼んでいます。彼らは、LLM 自体を使用してこのような注意メカニズムを構築する方法、特に、無関係なテキストを削除してコンテキストを書き換えるように LLM を調整する指示を使用する方法を研究しました。

このようにして、LLM は応答を出力する前に、入力のどの部分に重点を置くべきかについて、思慮深く合理的な決定を下すことができます。コマンド調整された LLM を使用するもう 1 つの利点は、人間が注意を制御する方法と多少似た方法で、注意の焦点を制御できることです。

S2A は次の 2 つのプロセスで構成されます。

コンテキスト x が与えられると、S2A はまずコンテキスト x′ を再生成し、出力に悪影響を与える可能性のあるコンテキストの無関係な部分を削除します。本論文ではx′∼S2A(x)と表記する。
x ′ が与えられると、LLMの最終応答は元のコンテキストではなく再生成されたコンテキストを使用して生成されます：y ∼ LLM (x ′ )。

代替実装とバリアント

この論文では、S2A アプローチのいくつかのバリエーションが検討されています。

コンテキストと関心の分離がありません。図 2 の実装では、コンテキストと質問の 2 つの部分に分解されたコンテキストを再生成することを選択します。図 12 はこのヒントのバリエーションを示しています。

元のコンテキストは S2A に保持され、その後コンテキストが再生成されます。このコンテキストには、対応する必要があるすべての必要な要素が含まれている必要があります。その後、モデルは再生成されたコンテキストにのみ応答し、元のコンテキストは破棄されます。図 14 はこのプロンプトのバリエーションを示しています。

コマンドプロンプト。図 2 に示されている S2A プロンプトでは、文脈から意見のあるテキストを削除することが推奨されており、ステップ 2 の指示に従って意見のない応答が求められます (図 13)。

関連性と無関係性を強調します。上記の S2A 実装はすべて、客観性を高め、お世辞を減らすためにコンテキストの再生を重視しています。しかし、この論文では、関連性と無関係性を強調するなど、強調する必要がある他の点もあると主張しています。図 15 のプロンプトバリアントはこのアプローチの例を示しています。

実験

私たちは、事実に基づく質問への回答、長い議論の生成、数学の文章題の解決という 3 つの設定で実験を行います。さらに、この論文では LLaMA-2-70B-chat をベースモデルとして使用し、次の 2 つの設定で評価します。

ベースライン: データセットで提供される入力プロンプトがモデルに送られ、ゼロショット方式で回答されます。モデル生成は、入力で提供される偽の相関関係によって影響を受ける可能性があります。
Oracle プロンプト: コメントが添付されていないプロンプトや無関係な文章がモデルに入力され、ゼロショット方式で回答されます。

図5（左）は事実に基づく質問への回答の評価結果を示しています。 System 2 Attention は、オリジナルの入力プロンプトに比べて大幅に改善され、80.3% の精度を達成しました。これは、Oracle Prompt のパフォーマンスに近いものです。

図 6 (左) は、長い引数生成の全体的な結果を示しています。ここでは、ベースライン、Oracle Prompt、System 2 Attention がすべて評価され、同様の高品質の評価が得られています。図6（右）はセグメンテーションの結果を示しています。

図 7 は、GSM-IC タスクにおけるさまざまな方法の結果を示しています。 Shi らの研究結果と一致して、ベースライン精度はオラクルよりもはるかに低いことがわかりました。図 7 (右) に示すように、無関係な文が質問と同じトピックに属している場合、この効果はさらに大きくなります。

詳細については、原文論文を参照してください。

<<: AIは「技術力」の集中を加速させる。巨大企業によるAIの独占は深刻な結果をもたらすのか？

>>: 米空軍の最高データ・AI責任者が語るAI運用の主導と戦略的優位性