Transformer は複数のモダリティ (言語、画像、タンパク質配列) で SOTA 結果を達成していますが、欠点もあります。自己注意メカニズムの二次複雑性により、長い配列の分野での応用が制限されるのです。現在、研究者たちはこの問題を解決するために、多数の効率的な Transformer モデル (「xformer」) を提案しています。それらの多くは、セルフアテンションメカニズムのメモリの複雑さを効果的に削減しながら、オリジナルの Transformer に匹敵するパフォーマンスを示します。 Google と DeepMind の研究者は、これらの論文の評価と実験設定を比較し、次のことを発見しました。
そこで、Google と DeepMind の研究者は、長いコンテキストのシナリオにおけるシーケンス モデルのベンチマークを行うための新しいベンチマーク、Long-Range Arena (LRA) を提案しました。このベンチマークには合成タスクと現実世界のタスクの両方が含まれており、研究者らはこのベンチマークで、Sparse Transformers、Reformer、Linformer、Longformer、Sinkhorn Transformer、Performer、Synthesizer、Linear Transformer、BigBird モデルなど、最近提案された 10 個の効率的な Transformer モデルを比較しました。 このベンチマークは、長いコンテキストのシナリオにおけるモデルの機能に重点を置いていますが、研究者はさまざまなデータ タイプや条件にわたる xformer アーキテクチャの機能にも関心を持っています。したがって、ベンチマークでは、特定の事前構造を持つデータセットとタスクを選択します。たとえば、これらのアーキテクチャは、階層的に構造化された長いシーケンスや、何らかの形式の空間構造を含む長いシーケンスをモデル化できますか?これらのタスクは、シーケンスの長さが 1K から 16K トークンの範囲で、テキスト、自然画像、合成画像、類似性、構造、視覚空間推論を必要とする数式など、幅広いデータ タイプとモダリティをカバーします。このベンチマークは主に効率的なトランスフォーマーを対象としていますが、長いプログラムシーケンスをモデリングするためのベンチマークとしても使用できます。 モデル品質の比較に加えて、この研究では、効率性とメモリ使用量の広範な分析も実施しました。研究者たちは、並列パフォーマンス ベンチマークはコミュニティにとって有益かつ価値があり、誰もがこれらの方法の実際の効率性について理解を深めるのに役立つと考えています。要約すると、この研究では、効率的な Transformer モデルの単純な並列比較分析と、長時間実行されるシーケンス モデルのベンチマークの両方を実行できる統合フレームワークを提案しています。フレームワークは JAX/FLAX1 を使用して記述されています。 効率的な変圧器評価のための新しいベンチマーク: ロングレンジアリーナ (LRA) ベースライン要件 LRA ベンチマークを作成する前に、研究者はいくつかの要件をリストしました。
タスク LRA ベンチマークは、効率的な Transformer モデルのさまざまな機能を評価するように設計された複数のタスクで構成されています。具体的には、これらのタスクには、Long ListOps、ビットレベルのテキスト分類、ビットレベルのドキュメント検索、ピクセルシーケンスベースの画像分類、Pathfinder (長距離空間依存性)、Pathfinder-X (極端な長さでの長距離空間依存性) が含まれます。 LRAタスクに必要な注意力 LRA ベンチマークの主な目標の 1 つは、効率的な Transformer モデルが長距離依存関係をキャプチャする能力を評価することです。入力をエンコードする際に注意機構が考慮する必要がある空間範囲を定量的に推定するために、本研究では「必要な注意持続時間」を提案した。注意モデルと入力トークン シーケンスが与えられた場合、注意モジュールに必要な注意範囲は、クエリ トークンと注目トークン間の平均距離になります。 図 2 は、LRA ベンチマークの各タスクに必要な注意持続時間をまとめたものです。各タスクに必要な注意持続時間が非常に長いことがわかります。これは、Transformer モデルにはローカル情報以上のものが含まれていることを示しています。多くのタスクとデータセットでは、アテンション メカニズムは隣接する位置からの情報を組み合わせる必要があることがよくあります。 実験 定量的な結果 実験結果によると、LRA のすべてのタスクは困難であり、異なる xformer モデルのパフォーマンスはある程度異なることがわかりました。具体的な結果は、以下の表 1 に示されています。 効率ベンチマーク 表 2 は、xformer モデルの効率ベンチマーク結果を示しています。 一般的に、低ランクモデルとカーネルベースのモデルが最も高速であることがわかります。全体的に最も速いモデルは Performer で、4k シーケンス長では Transformer の 5.7 倍高速であり、次に Linformer と Linear Transformer が続きます。最も遅いモデルは Reformer で、4k シーケンス長では Transformer の 80% の速度、1k シーケンス長では Transformer の半分の速度です。 さらに、研究者らはこれらのモデルのメモリ消費量も評価しました。結果によると、メモリ使用量が最も少ないモデルは Linformer で、4k シーケンス長で TPU あたり 0.99 GB しか使用しません。一方、元の Transformer は TPU あたり 9.48 GB を使用し、メモリ使用量が約 90% 削減されます。 全体的な結果: 万能のモデルは存在しない 研究者の分析によると、すべての LRA タスクにおいて総合的なパフォーマンスが最も優れている (LRA スコアが最も高い) モデルは BigBird です。ただし、BigBird はすべてのタスクで最高のパフォーマンスを発揮するわけではなく、すべてのタスクで優れたパフォーマンスを実現するだけです。 Performer と Linear Transformer はいくつかのタスクでは優れたパフォーマンスを発揮しましたが、平均スコアは ListOps タスクによって低下しました。 下の図 3 は、モデルのパフォーマンス、速度、およびメモリ使用量のトレードオフを示しています。 BigBird は最高のパフォーマンスを発揮しますが、その速度はオリジナルの Transformer とほぼ同じです。 Local Attention モデルは高速ですが、パフォーマンスは低くなります。これらのモデルの中で、カーネルベースのモデル (Performer、Linformer、Linear Transformer など) は、速度とパフォーマンスのバランスをより適切にとりながら、メモリ フットプリントも適切に抑えることができます。 |
>>: 第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
近年、デジタル経済の継続的な発展を背景に、人工知能は急速に発展し、さまざまな応用シナリオと深く統合さ...
現在、AI チップ市場全体はディープラーニングを中心に展開しています。ディープラーニング (DL) ...
たった 5 つの文字でピクセル ペイントを完成させることができます。合計 8 色、最大 256×25...
[[251349]]古代、神農は何百種類もの生薬を試飲しましたが、これは実際には薬を人工的に選別する...
前回の記事では、KMPアルゴリズムを紹介しました。ただし、これは最も効率的なアルゴリズムではなく、実...
原文: https://shardeum.org/blog/ai-and-web3-crypto-p...
先ほど、グローバル AI 人材レポートが発表されました。世界のトップクラスの AI 人材のうち、約半...
COVID-19パンデミックは、医学的発見のスピードの重要性だけでなく、その加速を支援するデータサイ...
今日の世界では、人工知能(AI)が私たちの日常生活にますます統合されつつあります。 SiriやAle...
序文機械学習(ML)は、教師あり学習、教師なし学習、半教師あり学習などに分けられます。 1.1 教師...
ロボット工学は医療分野で一般的になりつつあり、生物医学工学の分野における医療用ロボットへの資金提供が...
製造業者は、AI を、適切に機能するために会社全体にわたるエンドツーエンドのシステムを必要とする、非...