効率的なトランスフォーマーが次々と登場、Googleチームが1つの記事ですべてをレビュー

効率的なトランスフォーマーが次々と登場、Googleチームが1つの記事ですべてをレビュー

Transformerモデルは2017年の誕生以来、自然言語処理やコンピュータービジョンなど多くの分野で広く利用され、多数の亜種が登場しています。最近、Transformer のさまざまなバリエーションが多数登場し、より効率的な方向へと進化しています。Google の研究者は、このタイプの効率的な Transformer アーキテクチャをレビューしました。

Transformer は、現代のディープラーニングの分野では驚異的な力を発揮しています。言語理解や画像処理など、多くの分野で広く使用され、大きな影響を与えています。過去数年間、Transformer モデルに基づいて根本的な改善を行う研究が数多く行われてきました。これに対する大きな関心により、より効率的な Transformer の変種に関する研究も促進されました。

最近、Transformer モデルのバリエーションが多数登場しており、研究者や実務家がイノベーションのペースに追いつくのは難しいかもしれません。この論文を執筆している時点(2020 年 8 月)では、過去 6 か月間に 12 を超える新しい効率的な Transformer モデルが登場しました。したがって、既存の文献のレビューはコミュニティにとって有益かつタイムリーなものです。

自己注意メカニズムは、Transformer モデルの中心的な典型的な機能です。このメカニズムは、相関ベースのプーリング操作を使用してシーケンス内のすべてのトークンを接続するグラフのような誘導バイアスとして考えることができます。自己注意に関する懸念の 1 つは、その空間的および時間的複雑さが 2 次関数的であるため、さまざまな設定でモデルのスケーラビリティが妨げられることです。最近、この問題を解決しようとする Transformer モデルのバリエーションが多数登場しています。この記事では、このタイプのモデルを「効率的な Transformer」と呼びます。

これに基づいて、モデルの効率性にはさまざまな解釈があります。効率とは、モデルのメモリ フットプリントのことであり、メモリが限られたアクセラレータ上でモデルを実行する場合に特に重要です。また、効率とは、FLOP 数など、トレーニングおよび推論中の計算コストのことを指す場合もあります。特にデバイス上のアプリケーションの場合、モデルは限られた計算予算内で実行する必要があります。このレビュー論文では、メモリと計算という 2 つの観点から Transformer の効率性を検討します。

効率的な自己注意モデルは、通常多数のピクセルまたはトークンで構成されるドキュメント、画像、ビデオなどの長いシーケンスをモデル化するアプリケーションにとって重要です。したがって、Transformer が広く採用されることにより、長いシーケンスを処理する際の効率が優先されます。

この論文は、このタイプのモデルの最近の開発状況をレビューすることを目的としています。主に、自己注意メカニズムの二次複雑性に対処することで Transformer の効率性を向上させるモデリング開発とアーキテクチャ革新に焦点を当てています。また、一般的な改善点やその他の効率性の改善点についても簡単に説明します。

この論文では、効率的な Transformer モデルの分類法を提案し、技術革新と主な用途に応じて分類します。具体的には、この論文では、言語と視覚の両方で使用されてきた Transformer モデルをレビューし、これらのモデルのいくつかについて詳細な解釈を提供します。

論文リンク: https://arxiv.org/pdf/2009.06732.pdf

トランスフォーマーについて

Transformer は、Transformer ブロックを 1 つずつ積み重ねる多層アーキテクチャです。標準的な Transformer のアーキテクチャを下図に示します。

Transformer ブロックは、マルチヘッド自己注意メカニズム、位置ごとのフィードフォワード ネットワーク、レイヤー正規化モジュール、および残差接続を特徴としています。 Transformer モデルへの入力は通常、R^B × R^N の形状のテンソルです。ここで、B はバッチ サイズを表し、N はシーケンスの長さを表します。

入力はまず埋め込み層を通過し、そこで各ワンホットトークン表現が d 次元の埋め込み、つまり R^B × R^N × R^D に変換されます。この新しいテンソルは位置エンコーディングに追加され、マルチヘッド自己注意モジュールに送られます。位置エンコーディングは、正弦波入力またはトレーニング可能な埋め込みの形式を取ることができます。

マルチヘッド自己注意モジュールの入力と出力は、残差接続とレイヤー正規化レイヤーによって接続されます。マルチヘッド自己注意モジュールの出力は、残差と層の正規化を介して入力/出力が連結される 2 層のフィードフォワード ネットワークに送られます。サブレイヤーの残差接続とレイヤーの正規化は次のように表現できます。

ここで、F_S はサブレイヤー モジュールであり、マルチヘッド セルフアテンションまたは位置ごとのフィードフォワード レイヤーのいずれかです。

効率的なTransformerモデルのレビュー

このセクションでは、効率的な Transformer モデルについて説明します。まず、さまざまなモデルの特徴を見てみましょう。表 1 に、現在リリースされている効率的な Transformer モデルを示します。図 2 に、いくつかの重要な効率的な Transformer モデルの図を示します。

図 2: 効率的な Transformer モデルの分類。分類基準は、モデルのコア技術と主な適用シナリオです。

表 1: リリース時間順に並べられた効率的な Transformer モデル。

さらに、このセクションでは、いくつかの重要かつ効率的な Transformer モデルを詳しく紹介し、その利点、欠点、独自の機能を分析します。これらのモデルには、メモリ圧縮トランスフォーマー、イメージトランスフォーマー、セットトランスフォーマー、スパーストランスフォーマー、アキシャルトランスフォーマー、ロングフォーマー、ETC、ビッグバード、ルーティングトランスフォーマー、リフォーマー、シンクホーントランスフォーマー、リンフォーマー、シンセサイザー、パフォーマー、リニアトランスフォーマー、トランスフォーマー XL、圧縮トランスフォーマーが含まれます。

具体的な内容についてはここでは繰り返さないので、原著論文の第 3 章を参照してください。

この論文は、これらのモデルの評価と設計の傾向について議論し、重み共有、量子化/混合精度、知識蒸留、ニューラル アーキテクチャ検索 (NAS)、タスク アダプタなど、Transformer の効率を向上できる他のアプローチの概要を簡単に説明します。

<<:  インテリジェントビル通信システムの構成と要件

>>:  イラストレーターが10年後の情景を描く、ロボットが人間に取って代わり、38%の人が解雇に直面

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Google Gemini: CMU の総合評価では、Gemini Pro は GPT 3.5 Turbo より劣っていることが判明

少し前に、Google はOpenAI の GPT モデルの競合製品であるGemini をリリースし...

...

人工知能技術が農業に革命を起こす

国際的に著名な学者である周海中教授は、1990年代に「科学技術の進歩により、人工知能の時代が到来しよ...

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

安定拡散 3 論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(D...

大規模機械学習システムでは無料のランチはない

[[205684]] Tu Weiwei 氏は、Fourth Paradigm Prophet プラ...

人工知能が物理学に及ぼす影響

人工知能(AI)は物理学の分野を含む多くの産業に変革をもたらしています。物理学では、AI は複雑な問...

中国の自動運転はアメリカの自動運転と比べてどう劣っているのか?

アリゾナ州フェニックスからテキサス州エルパソまでの距離は約 690 キロメートルで、地図に示されてい...

AIが疫病と戦う:百度がマスク顔検出・分類モデルをオープンソース化

仕事に戻るにあたり、各地域はどのように流行を予防すべきでしょうか?人工知能技術は、新型コロナウイルス...

第2回解析アルゴリズムコンテストが開始され、技術専門家があなたの参加を待っています

データスキルについてまだ不安がありますか?アルゴリズムの革新を適用できる場所はありませんか?こんなに...

ダンジョンズ&ドラゴンズ: ビッグモデルへの道 テキストゲーム

著者 | 崔昊レビュー | Chonglouまとめこの記事の著者は、海外のブロガーに触発され、大規模...

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

現在、国内の新興デジタルインフラの進歩と、5G、クラウドコンピューティング、ビッグデータなどのモジュ...

グラフニューラルネットワーク (GNN) とは何ですか?

[51CTO.com クイック翻訳]グラフィックは人々の仕事や生活のいたるところに存在します。たと...

「安佳」の人工知能版? 「AI仲介人」が近々登場?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ニューラルネットワーク: 知っておくべきこと

ニューラル ネットワーク (NN) は、ほぼすべての分野で創造的な方法で問題を解決するのに役立ちます...