聞いてください、トランスフォーマーはサポートベクターマシンです

聞いてください、トランスフォーマーはサポートベクターマシンです

Transformer は、学界で議論を巻き起こしたサポート ベクター マシン (SVM) の新しい理論です。

先週末、ペンシルバニア大学とカリフォルニア大学リバーサイド校の論文では、大規模モデルの基礎となるトランスフォーマー構造の原理を研究しようと試みられました。この論文では、アテンション層の最適化ジオメトリと、最適な入力トークンを最適でないトークンから分離するハードマージン SVM 問題との形式的な同等性が確立されました。

著者は hackernews で、この理論は各入力シーケンス内の「良い」トークンと「悪い」トークンを分離する SVM の問題を解決すると述べています。この SVM は、優れたパフォーマンスを持つトークン セレクターとして、入力に 0-1 のラベルを割り当てる従来の SVM とは本質的に異なります。

この理論は、アテンションがソフトマックスを介してスパース性を誘導する方法についても説明しています。SVM 決定境界の間違った側にある「悪い」トークンはソフトマックス関数によって抑制されますが、「良い」トークンはゼロ以外のソフトマックス確率で終わるトークンです。この SVM はソフトマックスの指数関数的な性質から生まれたものであることも言及する価値があります。

論文がarXivにアップロードされた後、人々は意見を述べた。中には、「AI研究の方向性は本当に悪循環だ。元の方向に戻るのだろうか?」という意見もあった。

ぐるぐる回った後でも、サポートベクターマシンはまだ時代遅れではありません。

古典的な論文「Attention is All You Need」が発表されて以来、Transformer アーキテクチャは自然言語処理 (NLP) の分野に革命的な進歩をもたらしました。 Transformer の注意層は、一連の入力トークン X を受け入れ、計算によってトークン間の相関関係を評価します。ここで、(K、Q) はトレーニング可能なキークエリ パラメーターであり、長距離の依存関係を効果的にキャプチャします。

現在、「Transformers as Support Vector Machines」と題された新しい論文では、トークンペアの外積線形制約を使用して最適な入力トークンを非最適なトークンから分離することで、自己注意の最適化幾何学とハードマージン SVM 問題の間の形式的な同等性を確立しています。

論文リンク: https://arxiv.org/pdf/2308.16898.pdf

この正式な同等性は、Davoud Ataee Tarzanagh らによる論文「Max-Margin Token Selection in Attention Mechanism」に基づいており、勾配降下法によって最適化された 1 層トランスフォーマーの暗黙的なバイアスを説明できます。

(1)(K,Q)でパラメータ化された注意層を最適化すると、正則化消失を介して結合パラメータの核ノルムを最小化するSVM解に収束する。対照的に、W によって直接パラメータ化すると、フロベニウス ノルム SVM 目的関数が最小化されます。この論文では、この収束について説明し、それが全体最適ではなく局所最適に向かって発生する可能性があることを強調しています。

(2)本論文では、適切な幾何学的条件下では、Wパラメータ化が勾配降下法の局所的/大域的方向に収束することも証明している。重要なのは、過剰パラメータ化によって、SVM 問題の実現可能性が確保され、定常点のない安全な最適化環境が保証され、グローバル収束が促進されることです。

(3)本研究の理論は主に線形予測ヘッドに適用されますが、研究チームは、非線形ヘッド/MLPを備えた1層トランスフォーマーの暗黙のバイアスを予測できる、より一般的なSVM同等物を提案しました。

全体として、この研究の結果は一般的なデータセットに適用可能であり、交差注意層に拡張することができ、研究結論の実際的な有効性は徹底した数値実験を通じて検証されています。この研究は、多層トランスフォーマーを、最適なトークンを分離して選択する SVM 階層として捉えるという新たな研究観点を確立します。

具体的には、長さ T と埋め込み次元 d の入力シーケンスが与えられた場合、この研究では、コアとなるクロスアテンションモデルと自己アテンションモデルを分析します。

ここで、K、Q、Vはそれぞれ学習可能なキー、クエリ、値の行列です。S (·)は行ごとに適用されるソフトマックス非線形性を表します。この研究では、Z の最初のトークン (z で示される) が予測に使用されることを前提としています。具体的には、トレーニングデータセット が与えられた場合、この研究では減少する損失関数を使用して以下を最小化します。

ここで、h(・):は値の重みVを含む予測ヘッドです。この定式化では、モデルf(·)は、注意層とそれに続くMLPを備えた単層トランスフォーマーを正確に表します。著者らは、(2)の自己注意をを設定することによって回復する。ここで、x_iはシーケンスX_iの最初のトークンを表す。ソフトマックス演算は非線形であるため、最適化には大きな課題が伴います。予測ヘッドは固定され線形ですが、問題は非凸かつ非線形です。この研究では、注目度の重み(K、Q、またはW)を最適化することに焦点を当て、これらの課題を克服してSVMの基本的な同等性を確立します。

この論文は次のように構成されています。第 2 章では、自己注意と最適化の基礎を紹介します。第 3 章では、自己注意の最適化幾何学を分析し、注意パラメーター RP が最大限界解に収束することを示します。第 4 章と第 5 章では、それぞれグローバルおよびローカル勾配降下分析を示し、キークエリ変数 W が (Att-SVM) の解に収束することを示します。第 6 章では、非線形予測ヘッドと一般化 SVM の同等性に関する結果を示します。第 7 章では、理論をシーケンシャル予測と因果予測に拡張します。第 8 章では、関連文献について説明します。最後に、第 9 章では結論を述べ、未解決の質問と将来の研究の方向性を提案します。

論文の主な内容は次のとおりです。

注意レベルにおける暗黙の偏見(第2章~第3章)

正則化が消失したときに注意パラメータ(K, Q)を最適化すると、方向の最大限界解に収束し、その核ノルムターゲットは組み合わせパラメータになります。交差注意が組み合わせパラメータ W で直接パラメータ化されると、正則化パス (RP) は、フロベニウス ノルムを目的関数として (Att-SVM) ソリューションに方向的に収束します。

これは、W パラメータ化最適化と (K,Q) パラメータ化最適化のダイナミクスを正式に区別し、後者の低次のバイアスを明らかにした最初の結果です。私たちの理論は、選択されたトークンの最適性を明確に説明し、シーケンス間または因果分類設定に自然に拡張されます。

勾配降下法の収束(第 4 章 - 第 5 章)

適切な初期化と線形ヘッドh(·)を使用すると、結合されたキークエリ変数Wの勾配降下法(GD)反復は、方向(セクション5)の(Att-SVM)の局所最適解に収束します。局所最適値を達成するには、選択されたトークンのスコアが隣接するトークンよりも高くなければなりません。

局所最適方向は必ずしも一意ではなく、問題の幾何学的特性に基づいて決定することができます[TLZO23]。重要な貢献として、著者らは、グローバル最適値への収束を保証する幾何学的条件を特定しています (第 4 章)。これらの条件には以下が含まれます。

  • 最高のトークンはスコアに明確な差があります。
  • 初期の勾配方向は最良のトークンと一致します。

さらに、過剰パラメータ化(つまり、次元dが大きく、他の条件がすべて同じ)は、(1)(Att-SVM)の実現可能性と(2)適切に動作する最適化ランドスケープ(つまり、定常点や偽の局所最適値が存在しない)を保証することによって、グローバル収束を促進することを示します(セクション5.2を参照)。

図 1 と 2 はこれを示しています。


SVM 等価性の一般性 (第 6 章)

線形 h(・) で最適化されると、アテンション層は本質的に各シーケンスから 1 つのトークンを選択するように偏向します (ハード アテンションとも呼ばれます)。これは (Att-SVM) に反映されており、出力トークンは入力トークンの凸結合になります。対照的に、非線形ヘッドは複数のトークンで構成されている必要があることを示し、トランスフォーマーダイナミクスにおけるその重要性を強調します(セクション6.1)。理論から得られた洞察を使用して、著者らはより一般的な SVM と同等のものを提案しています。

特に、理論でカバーされていない一般的なケース(例えば、h(·)がMLPの場合)では、私たちの方法は勾配降下法で訓練された注意の暗黙的なバイアスを正確に予測することを示しています。具体的には、私たちの一般的な定式化では、注意の重みを 2 つの部分に分離します。1 つは SVM によって制御され、0-1 マスクを適用してトークンを選択する有向部分、もう 1 つはソフトマックス確率を調整して選択されたトークンの正確な構成を決定する有限部分です。

これらの発見の重要な特徴は、(SVM が実行可能である限り)あらゆるデータセットに適用可能であり、数値的に検証できることです。著者らは、実験を通じて、トランスフォーマーの最大限界等価性と暗黙のバイアスについて徹底的に検証した。著者らは、これらの発見が、トランスフォーマーを階層的な最大マージントークン選択メカニズムとして理解するのに役立ち、その最適化と一般化のダイナミクスに関する今後の研究の基礎を築くと考えています。

<<:  人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

>>: 

ブログ    

推薦する

...

AI研究者の邢波氏:機械学習には明確な理論的枠組みが欠けており、評価の目標と方法を再定義する必要がある

[[426278]] 2021年1月、コンピュータサイエンスと人工知能分野のトップ学者であるエリッ...

現在世界で最も重要な古典的アルゴリズムトップ10

今日の世界では、数え切れないほどの古典的なアルゴリズムが発見または作成されてきました。最も価値あるア...

...

AI専門家が警告:GPT-3は素晴らしいが透明性に欠ける

[[342733]]アルゴリズムに人間のように書かせることは、人工知能研究機関 OpenAI が長年...

将来の顔認識技術の最大の問題は、それがほぼ間違いのないものであることだ

近年、顔認識技術は、女性や有色人種の誤検出率の高さや、個人の自由やプライバシーへの悪影響など、常に世...

慎重なソート - よく使われる 10 のディープラーニング アルゴリズム

過去 10 年間で、機械学習への関心は爆発的に高まりました。機械学習は、コンピューター プログラム、...

人工知能は産業の発展を助け、将来の生活は期待に値する

人工知能技術が生活のあらゆる分野で登場し、スマート経済が繁栄するにつれて、人類の文明は新たな段階に入...

リアルタイム6自由度オブジェクトトラッキングを実現するDeepACが登場

本記事では、国立国防科技大学の劉宇教授チームと浙江大学-SenseTime合同研究室の周暁偉教授チー...

音声認識、マッチングアルゴリズム、モデルに関する簡単な説明

[[185868]]スピーチの基本概念スピーチは複雑な現象です。それがどのように生成され、どのように...

初期の携帯電話で使用されていたGPRS暗号化アルゴリズムが意図的に弱められていたことが明らかになった。

[[406364]]ヨーロッパの複数の大学の研究者チームが論文の中で、初期の携帯電話で使用されてい...

...

ガートナー:世界のAIチップの収益は2023年に530億ドル、2027年には1194億ドルに達する

8月24日、市場調査会社ガートナーの最新予測によると、 AI向けハードウェアの世界販売収益は2023...

「ビッグモデル推論」を1つの記事で解説! 12の大学と研究機関が共同で750本の論文をレビューした150ページの報告書を発表した。

推論は複雑な問題を解決する上で重要な能力であり、交渉、医療診断、犯罪捜査など、さまざまな現実世界のシ...

2021年10月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...