聞いてください、トランスフォーマーはサポートベクターマシンです

Transformer は、学界で議論を巻き起こしたサポートベクターマシン (SVM) の新しい理論です。

先週末、ペンシルバニア大学とカリフォルニア大学リバーサイド校の論文では、大規模モデルの基礎となるトランスフォーマー構造の原理を研究しようと試みられました。この論文では、アテンション層の最適化ジオメトリと、最適な入力トークンを最適でないトークンから分離するハードマージン SVM 問題との形式的な同等性が確立されました。

著者は hackernews で、この理論は各入力シーケンス内の「良い」トークンと「悪い」トークンを分離する SVM の問題を解決すると述べています。この SVM は、優れたパフォーマンスを持つトークンセレクターとして、入力に 0-1 のラベルを割り当てる従来の SVM とは本質的に異なります。

この理論は、アテンションがソフトマックスを介してスパース性を誘導する方法についても説明しています。SVM 決定境界の間違った側にある「悪い」トークンはソフトマックス関数によって抑制されますが、「良い」トークンはゼロ以外のソフトマックス確率で終わるトークンです。この SVM はソフトマックスの指数関数的な性質から生まれたものであることも言及する価値があります。

論文がarXivにアップロードされた後、人々は意見を述べた。中には、「AI研究の方向性は本当に悪循環だ。元の方向に戻るのだろうか？」という意見もあった。

ぐるぐる回った後でも、サポートベクターマシンはまだ時代遅れではありません。

古典的な論文「Attention is All You Need」が発表されて以来、Transformer アーキテクチャは自然言語処理 (NLP) の分野に革命的な進歩をもたらしました。 Transformer の注意層は、一連の入力トークン X を受け入れ、計算によってトークン間の相関関係を評価します。ここで、(K、Q) はトレーニング可能なキークエリパラメーターであり、長距離の依存関係を効果的にキャプチャします。

現在、「Transformers as Support Vector Machines」と題された新しい論文では、トークンペアの外積線形制約を使用して最適な入力トークンを非最適なトークンから分離することで、自己注意の最適化幾何学とハードマージン SVM 問題の間の形式的な同等性を確立しています。

論文リンク: https://arxiv.org/pdf/2308.16898.pdf

この正式な同等性は、Davoud Ataee Tarzanagh らによる論文「Max-Margin Token Selection in Attention Mechanism」に基づいており、勾配降下法によって最適化された 1 層トランスフォーマーの暗黙的なバイアスを説明できます。

（１）（K,Q）でパラメータ化された注意層を最適化すると、正則化消失を介して結合パラメータの核ノルムを最小化するSVM解に収束する。対照的に、W によって直接パラメータ化すると、フロベニウスノルム SVM 目的関数が最小化されます。この論文では、この収束について説明し、それが全体最適ではなく局所最適に向かって発生する可能性があることを強調しています。

（２）本論文では、適切な幾何学的条件下では、Wパラメータ化が勾配降下法の局所的/大域的方向に収束することも証明している。重要なのは、過剰パラメータ化によって、SVM 問題の実現可能性が確保され、定常点のない安全な最適化環境が保証され、グローバル収束が促進されることです。

（３）本研究の理論は主に線形予測ヘッドに適用されますが、研究チームは、非線形ヘッド/MLPを備えた1層トランスフォーマーの暗黙のバイアスを予測できる、より一般的なSVM同等物を提案しました。

全体として、この研究の結果は一般的なデータセットに適用可能であり、交差注意層に拡張することができ、研究結論の実際的な有効性は徹底した数値実験を通じて検証されています。この研究は、多層トランスフォーマーを、最適なトークンを分離して選択する SVM 階層として捉えるという新たな研究観点を確立します。

具体的には、長さ T と埋め込み次元 d の入力シーケンスが与えられた場合、この研究では、コアとなるクロスアテンションモデルと自己アテンションモデルを分析します。

ここで、K、Q、Vはそれぞれ学習可能なキー、クエリ、値の行列です。S (·)は行ごとに適用されるソフトマックス非線形性を表します。この研究では、Z の最初のトークン (z で示される) が予測に使用されることを前提としています。具体的には、トレーニングデータセット、、が与えられた場合、この研究では減少する損失関数を使用して以下を最小化します。

ここで、h(・):は値の重みVを含む予測ヘッドです。この定式化では、モデルf(·)は、注意層とそれに続くMLPを備えた単層トランスフォーマーを正確に表します。著者らは、（2）の自己注意をを設定することによって回復する。ここで、x_iはシーケンスX_iの最初のトークンを表す。ソフトマックス演算は非線形であるため、最適化には大きな課題が伴います。予測ヘッドは固定され線形ですが、問題は非凸かつ非線形です。この研究では、注目度の重み（K、Q、またはW）を最適化することに焦点を当て、これらの課題を克服してSVMの基本的な同等性を確立します。

この論文は次のように構成されています。第 2 章では、自己注意と最適化の基礎を紹介します。第 3 章では、自己注意の最適化幾何学を分析し、注意パラメーター RP が最大限界解に収束することを示します。第 4 章と第 5 章では、それぞれグローバルおよびローカル勾配降下分析を示し、キークエリ変数 W が (Att-SVM) の解に収束することを示します。第 6 章では、非線形予測ヘッドと一般化 SVM の同等性に関する結果を示します。第 7 章では、理論をシーケンシャル予測と因果予測に拡張します。第 8 章では、関連文献について説明します。最後に、第 9 章では結論を述べ、未解決の質問と将来の研究の方向性を提案します。

論文の主な内容は次のとおりです。

注意レベルにおける暗黙の偏見（第2章～第3章）

正則化が消失したときに注意パラメータ(K, Q)を最適化すると、方向の最大限界解に収束し、その核ノルムターゲットは組み合わせパラメータになります。交差注意が組み合わせパラメータ W で直接パラメータ化されると、正則化パス (RP) は、フロベニウスノルムを目的関数として (Att-SVM) ソリューションに方向的に収束します。

これは、W パラメータ化最適化と (K,Q) パラメータ化最適化のダイナミクスを正式に区別し、後者の低次のバイアスを明らかにした最初の結果です。私たちの理論は、選択されたトークンの最適性を明確に説明し、シーケンス間または因果分類設定に自然に拡張されます。

勾配降下法の収束（第 4 章 - 第 5 章）

適切な初期化と線形ヘッドh(·)を使用すると、結合されたキークエリ変数Wの勾配降下法(GD)反復は、方向(セクション5)の(Att-SVM)の局所最適解に収束します。局所最適値を達成するには、選択されたトークンのスコアが隣接するトークンよりも高くなければなりません。

局所最適方向は必ずしも一意ではなく、問題の幾何学的特性に基づいて決定することができます[TLZO23]。重要な貢献として、著者らは、グローバル最適値への収束を保証する幾何学的条件を特定しています (第 4 章)。これらの条件には以下が含まれます。

最高のトークンはスコアに明確な差があります。
初期の勾配方向は最良のトークンと一致します。

さらに、過剰パラメータ化（つまり、次元dが大きく、他の条件がすべて同じ）は、（1）（Att-SVM）の実現可能性と（2）適切に動作する最適化ランドスケープ（つまり、定常点や偽の局所最適値が存在しない）を保証することによって、グローバル収束を促進することを示します（セクション5.2を参照）。

図 1 と 2 はこれを示しています。

SVM 等価性の一般性 (第 6 章)

線形 h(・) で最適化されると、アテンション層は本質的に各シーケンスから 1 つのトークンを選択するように偏向します (ハードアテンションとも呼ばれます)。これは (Att-SVM) に反映されており、出力トークンは入力トークンの凸結合になります。対照的に、非線形ヘッドは複数のトークンで構成されている必要があることを示し、トランスフォーマーダイナミクスにおけるその重要性を強調します（セクション6.1）。理論から得られた洞察を使用して、著者らはより一般的な SVM と同等のものを提案しています。

特に、理論でカバーされていない一般的なケース（例えば、h(·)がMLPの場合）では、私たちの方法は勾配降下法で訓練された注意の暗黙的なバイアスを正確に予測することを示しています。具体的には、私たちの一般的な定式化では、注意の重みを 2 つの部分に分離します。1 つは SVM によって制御され、0-1 マスクを適用してトークンを選択する有向部分、もう 1 つはソフトマックス確率を調整して選択されたトークンの正確な構成を決定する有限部分です。

これらの発見の重要な特徴は、（SVM が実行可能である限り）あらゆるデータセットに適用可能であり、数値的に検証できることです。著者らは、実験を通じて、トランスフォーマーの最大限界等価性と暗黙のバイアスについて徹底的に検証した。著者らは、これらの発見が、トランスフォーマーを階層的な最大マージントークン選択メカニズムとして理解するのに役立ち、その最適化と一般化のダイナミクスに関する今後の研究の基礎を築くと考えています。

<<: 人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

>>: