Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

トランスフォーマー モデルは現在、言語、視覚、強化学習などの分野での有効性から注目を集めています。たとえば、自然言語処理の分野では、Transformer は現代のディープラーニング スタックに欠かせない要素となっています。

最近、Linformer、Performer、Longformer など、さまざまな X-former モデルが提案されています。これらは、元の Transformer アーキテクチャの X-former モデルを改良したもので、その多くは計算効率とメモリ効率を向上させています。

この混乱を乗り越えるために熱心な研究者を支援するために、この論文では、最近の効果的な X-former モデルの大規模かつよく考えられた選択について説明し、複数の領域にわたる既存の研究とモデルの体系的かつ包括的な概要を提供します。

論文リンク: https://arxiv.org/abs/2009.06732

導入

トランスフォーマーは、現代のディープラーニングの分野で強力な力を発揮します。トランスフォーマーはあらゆるところに存在し、言語理解や画像処理など多くの分野に大きな影響を与えてきました。したがって、このモデルを根本的に改善するために、過去数年間にわたって多大な研究が行われてきたのは当然のことです。この大きな関心は、モデルのより効率的なバリエーションの研究も刺激しました。

最近、Transformer モデルのさまざまなバリエーションが多数登場しており、研究者や実務家にとっては、イノベーションのペースに追いつくのが困難になっているかもしれません。本稿執筆時点では、過去 6 か月だけでも、効率性を重視した新しいモデルが 12 個近く提案されています。したがって、既存の文献をレビューすることは、コミュニティにとって有益であり、タイムリーなものとなるでしょう。

自己注意メカニズムは、Transformer モデルを定義する重要な機能です。このメカニズムは、関連付けベースのプーリング操作を介してシーケンス内のすべてのトークンを接続するグラフのような誘導バイアスとして考えることができます。自己注意に関するよく知られた問題は、二次時間とメモリの複雑さであり、多くの設定でモデルのスケーラビリティを妨げる可能性があります。最近、この問題に対処するために多数のモデルのバリエーションが登場しました。今後、このタイプのモデルを「効率的なトランスフォーマー」と呼ぶことにします。

モデルの効率性は、状況に応じて異なる解釈が可能です。これはモデルのメモリ フットプリントを指している可能性があり、メモリが制限されたアクセラレータ上でモデルが実行されている場合に重要です。効率は、トレーニングや推論中の失敗の数など、計算コストを指す場合もあります。特にデバイス上のアプリケーションの場合、モデルは限られた計算予算内で実行できる必要があります。このレビューでは、大規模な入力をモデル化するためにトランスフォーマーを使用する場合の、メモリと計算の観点からのトランスフォーマーの効率について説明しました。

効果的な自己注意モデルは、長いシーケンスをモデリングするアプリケーションにおいて非常に重要です。たとえば、ドキュメント、画像、ビデオは通常、比較的多数のピクセルまたはタグで構成されています。したがって、Transformer が広く採用されるためには、長いシーケンスを処理する効率が重要です。

このレビューは、このタイプのモデルにおける最近の進歩について包括的な概要を提供することを目的としています。ここでは主に、自己注意メカニズムの二次複雑性の問題に対処することで Transformer の効率を向上させるモデリングの進歩とアーキテクチャの革新に焦点を当てます。また、後のセクションでは、一般的な改善点やその他の効率改善点についても簡単に説明します。

この論文では、効率的な Transformer モデルの分類法を提案し、技術革新と主要な使用例によってそれらを特徴付けます。特に、言語と視覚の両方に応用される Transformer モデルをレビューし、各分野の文献の分析を提供します。また、これらのモデルの多くについて詳細な説明を提供し、それらの間の関連性を示します。

このセクションでは、効率的な Transformer モデルの一般的な分類を概説し、その中核となる技術と主な使用例を特徴付けます。これらのモデルの主な目的は、自己注意メカニズムのメモリ複雑性を改善することですが、Transformer アーキテクチャの全体的な効率を改善する方法も含まれています。

固定パターン (FP) — 自己注意の最も初期の変更は、視野をローカル ウィンドウや固定ストライドのブロック パターンなどの固定された定義済みパターンに制限することにより、注意マトリックスを簡素化することです。

複合パターン (CP) - 複合アプローチの主な考え方は、2 つ以上の異なるアクセス パターンを組み合わせることでカバレッジを向上させることです。例えば、スパーストランスフォーマー[21]は、各パターンにヘッドの半分を割り当てることで、ストライドアテンションとローカルアテンションを組み合わせます。同様に、Axial Transformer は、入力として高次元テンソルに一連の自己注意計算を適用し、各計算は入力テンソルの単一の軸に沿って行われます。本質的には、パターンの組み合わせにより、固定パターンと同じようにメモリの複雑さが軽減されます。ただし、違いは、複数のモードを集約して組み合わせると、自己注意メカニズムの全体的なカバレッジが向上することです。

学習可能なパターン (LP) - 固定された事前に決定されたパターンの拡張が学習可能なパターンです。予想どおり、学習可能なパターンを使用するモデルは、データ駆動型の方法でアクセス パターンを学習することを目的としています。学習モデルの重要な特徴は、トークンの相関関係を決定し、トークンをバケットまたはクラスターに割り当てるという概念です。特に、Reformer はハッシュベースの類似度測定を導入して、トークンを効率的にブロックにクラスタ化します。同様に、ルーティング トランスフォーマーはトークンに対してオンライン k-means クラスタリングを使用します。一方、Sinkhorn ランキング ネットワークは、入力シーケンスのチャンクをソートすることを学習することで、注目度の重みのスパース性を明らかにします。これらすべてのモデルでは、類似性関数はネットワークの残りの部分とエンドツーエンドでトレーニングされます。学習可能なパターンの重要な考え方は、依然として固定パターン (ブロック パターン) を活用することです。ただし、このような方法は、入力トークンをランク付け/クラスタリングすることを学習し、固定パターン方法の効率の利点を維持しながら、シーケンスのより優れたグローバルビューを実現します。

ニューラル メモリ — もう一つの注目すべきアプローチは、一度に複数のトークンにアクセスできる学習可能なサイド メモリ モジュールを利用することです。一般的な形式は、シーケンス全体にアクセスできるグローバル ニューラル メモリです。グローバル タグ付けはモデル メモリの一種として機能し、入力シーケンス タグからデータを収集することを学習します。これは、Set 変圧器で初めて導入された誘導点方式です。これらのパラメータは、将来の処理のための一時的なコンテキストの形式として使用される「メモリ」として解釈されることがよくあります。これはパラメータアテンションの一種と考えることができます。 ETC と Longformer もグローバル メモリ トークンを使用します。限られたニューラルメモリ(または誘導ポイント)内で、入力シーケンスに対して予備的なプーリングのような操作を実行して、入力シーケンスを圧縮することができます。これは、効率的な自己注意モジュールを設計するときに利用できる便利なトリックです。

低ランク法 - もう一つの新しい手法は、自己注意行列の低ランク近似を活用して効率を向上させることです。

カーネル — トランスフォーマーの効率を向上させるための最近人気のもう 1 つのアプローチは、カーネル化を通じてアテンション メカニズムを調べることです。

再帰 - ブロック アプローチの自然な拡張は、これらのブロックを再帰を介して接続することです。

ダウンサンプリング — 計算コストを削減するもう 1 つの一般的な方法は、シーケンスの解像度を下げて、対応する係数で計算コストを削減することです。

スパース モデルと条件付き計算 — アテンション モジュール専用ではありませんが、スパース モデルはパラメーターのサブセットをスパースにアクティブ化するため、一般的にパラメーターと FLOP の比率が向上します。

<<:  Meta AI が 3 つのテキストレス NLP 論文を連続して公開: 音声生成に対する究極の答えか?

>>:  この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

推薦する

科学者らが世界最小の「カニ」遠隔操作歩行ロボットを公開。ノミよりも小さい

最近、米国ノースウェスタン大学のエンジニアたちが、小さくてかわいいカニの形をした、史上最小の遠隔操作...

...

...

F5、AI時代のアプリケーションセキュリティの新たな革命をリード

サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...

深層強化学習とは:次世代のAIと深層学習

[51CTO.com クイック翻訳] 強化学習は自律的な意思決定を実現するのに非常に適しています。対...

...

Metaはオープンソースのビッグモデルを緩和し、開発者が商用利用で利益を得られるよう検討していると報じられている。

6月16日、MetaのCEOマーク・ザッカーバーグ氏とその代理人は、Metaが開発中の新しい人工知...

自動運転の認識、予測、計画技術の分析

自動運転 (AD) とインテリジェント車両 (IV) への関心が高まっているのは、安全性、効率性、経...

IoTが発展するために機械学習が必要な理由

ビッグデータや人工知能などのテクノロジーがもたらす機会と脅威、そしてその将来に対する懸念については、...

...

あなたは「オアシス」からどれくらい離れていますか? テクノロジーオタクが世界を救う方法をご覧ください

【元記事は51CTO.comより】最近、VR熱血ゲームを題材にした映画『レディ・プレイヤー1』が主要...

ソフトウェア開発プロセスは、路上でのスマートカーの安全な運行を保証するものである。

2021年に入り、自動車の道路事故率を減らし、運転プロセスの快適性を向上させる先進運転支援システム...

Google が検索エンジン Talk to Books と意味連想ゲーム Semantris をリリース

Google は、「Semantic Experiences」という新しい Web サイトを立ち上げ...