Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

トランスフォーマーモデルは現在、言語、視覚、強化学習などの分野での有効性から注目を集めています。たとえば、自然言語処理の分野では、Transformer は現代のディープラーニングスタックに欠かせない要素となっています。

最近、Linformer、Performer、Longformer など、さまざまな X-former モデルが提案されています。これらは、元の Transformer アーキテクチャの X-former モデルを改良したもので、その多くは計算効率とメモリ効率を向上させています。

この混乱を乗り越えるために熱心な研究者を支援するために、この論文では、最近の効果的な X-former モデルの大規模かつよく考えられた選択について説明し、複数の領域にわたる既存の研究とモデルの体系的かつ包括的な概要を提供します。

論文リンク: https://arxiv.org/abs/2009.06732

導入

トランスフォーマーは、現代のディープラーニングの分野で強力な力を発揮します。トランスフォーマーはあらゆるところに存在し、言語理解や画像処理など多くの分野に大きな影響を与えてきました。したがって、このモデルを根本的に改善するために、過去数年間にわたって多大な研究が行われてきたのは当然のことです。この大きな関心は、モデルのより効率的なバリエーションの研究も刺激しました。

最近、Transformer モデルのさまざまなバリエーションが多数登場しており、研究者や実務家にとっては、イノベーションのペースに追いつくのが困難になっているかもしれません。本稿執筆時点では、過去 6 か月だけでも、効率性を重視した新しいモデルが 12 個近く提案されています。したがって、既存の文献をレビューすることは、コミュニティにとって有益であり、タイムリーなものとなるでしょう。

自己注意メカニズムは、Transformer モデルを定義する重要な機能です。このメカニズムは、関連付けベースのプーリング操作を介してシーケンス内のすべてのトークンを接続するグラフのような誘導バイアスとして考えることができます。自己注意に関するよく知られた問題は、二次時間とメモリの複雑さであり、多くの設定でモデルのスケーラビリティを妨げる可能性があります。最近、この問題に対処するために多数のモデルのバリエーションが登場しました。今後、このタイプのモデルを「効率的なトランスフォーマー」と呼ぶことにします。

モデルの効率性は、状況に応じて異なる解釈が可能です。これはモデルのメモリフットプリントを指している可能性があり、メモリが制限されたアクセラレータ上でモデルが実行されている場合に重要です。効率は、トレーニングや推論中の失敗の数など、計算コストを指す場合もあります。特にデバイス上のアプリケーションの場合、モデルは限られた計算予算内で実行できる必要があります。このレビューでは、大規模な入力をモデル化するためにトランスフォーマーを使用する場合の、メモリと計算の観点からのトランスフォーマーの効率について説明しました。

効果的な自己注意モデルは、長いシーケンスをモデリングするアプリケーションにおいて非常に重要です。たとえば、ドキュメント、画像、ビデオは通常、比較的多数のピクセルまたはタグで構成されています。したがって、Transformer が広く採用されるためには、長いシーケンスを処理する効率が重要です。

このレビューは、このタイプのモデルにおける最近の進歩について包括的な概要を提供することを目的としています。ここでは主に、自己注意メカニズムの二次複雑性の問題に対処することで Transformer の効率を向上させるモデリングの進歩とアーキテクチャの革新に焦点を当てます。また、後のセクションでは、一般的な改善点やその他の効率改善点についても簡単に説明します。

この論文では、効率的な Transformer モデルの分類法を提案し、技術革新と主要な使用例によってそれらを特徴付けます。特に、言語と視覚の両方に応用される Transformer モデルをレビューし、各分野の文献の分析を提供します。また、これらのモデルの多くについて詳細な説明を提供し、それらの間の関連性を示します。

このセクションでは、効率的な Transformer モデルの一般的な分類を概説し、その中核となる技術と主な使用例を特徴付けます。これらのモデルの主な目的は、自己注意メカニズムのメモリ複雑性を改善することですが、Transformer アーキテクチャの全体的な効率を改善する方法も含まれています。

固定パターン (FP) — 自己注意の最も初期の変更は、視野をローカルウィンドウや固定ストライドのブロックパターンなどの固定された定義済みパターンに制限することにより、注意マトリックスを簡素化することです。

複合パターン (CP) - 複合アプローチの主な考え方は、2 つ以上の異なるアクセスパターンを組み合わせることでカバレッジを向上させることです。例えば、スパーストランスフォーマー[21]は、各パターンにヘッドの半分を割り当てることで、ストライドアテンションとローカルアテンションを組み合わせます。同様に、Axial Transformer は、入力として高次元テンソルに一連の自己注意計算を適用し、各計算は入力テンソルの単一の軸に沿って行われます。本質的には、パターンの組み合わせにより、固定パターンと同じようにメモリの複雑さが軽減されます。ただし、違いは、複数のモードを集約して組み合わせると、自己注意メカニズムの全体的なカバレッジが向上することです。

学習可能なパターン (LP) - 固定された事前に決定されたパターンの拡張が学習可能なパターンです。予想どおり、学習可能なパターンを使用するモデルは、データ駆動型の方法でアクセスパターンを学習することを目的としています。学習モデルの重要な特徴は、トークンの相関関係を決定し、トークンをバケットまたはクラスターに割り当てるという概念です。特に、Reformer はハッシュベースの類似度測定を導入して、トークンを効率的にブロックにクラスタ化します。同様に、ルーティングトランスフォーマーはトークンに対してオンライン k-means クラスタリングを使用します。一方、Sinkhorn ランキングネットワークは、入力シーケンスのチャンクをソートすることを学習することで、注目度の重みのスパース性を明らかにします。これらすべてのモデルでは、類似性関数はネットワークの残りの部分とエンドツーエンドでトレーニングされます。学習可能なパターンの重要な考え方は、依然として固定パターン (ブロックパターン) を活用することです。ただし、このような方法は、入力トークンをランク付け/クラスタリングすることを学習し、固定パターン方法の効率の利点を維持しながら、シーケンスのより優れたグローバルビューを実現します。

ニューラルメモリ — もう一つの注目すべきアプローチは、一度に複数のトークンにアクセスできる学習可能なサイドメモリモジュールを利用することです。一般的な形式は、シーケンス全体にアクセスできるグローバルニューラルメモリです。グローバルタグ付けはモデルメモリの一種として機能し、入力シーケンスタグからデータを収集することを学習します。これは、Set 変圧器で初めて導入された誘導点方式です。これらのパラメータは、将来の処理のための一時的なコンテキストの形式として使用される「メモリ」として解釈されることがよくあります。これはパラメータアテンションの一種と考えることができます。 ETC と Longformer もグローバルメモリトークンを使用します。限られたニューラルメモリ（または誘導ポイント）内で、入力シーケンスに対して予備的なプーリングのような操作を実行して、入力シーケンスを圧縮することができます。これは、効率的な自己注意モジュールを設計するときに利用できる便利なトリックです。

低ランク法 - もう一つの新しい手法は、自己注意行列の低ランク近似を活用して効率を向上させることです。

カーネル — トランスフォーマーの効率を向上させるための最近人気のもう 1 つのアプローチは、カーネル化を通じてアテンションメカニズムを調べることです。

再帰 - ブロックアプローチの自然な拡張は、これらのブロックを再帰を介して接続することです。

ダウンサンプリング — 計算コストを削減するもう 1 つの一般的な方法は、シーケンスの解像度を下げて、対応する係数で計算コストを削減することです。

スパースモデルと条件付き計算 — アテンションモジュール専用ではありませんが、スパースモデルはパラメーターのサブセットをスパースにアクティブ化するため、一般的にパラメーターと FLOP の比率が向上します。

<<: Meta AI が 3 つのテキストレス NLP 論文を連続して公開: 音声生成に対する究極の答えか?

>>: この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。