この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 NLP では、Transformer は自己注意モデル メカニズムを魔法の武器として使用し、画像認識の問題で幅広い成功を収めています。 特に、ViT は大規模な画像ネットワークで優れたパフォーマンスを発揮するため、広く使用されています。 ただし、データセットのサイズが大きくなるにつれて、計算コストが大幅に増加し、自己注意内のトークンの数も徐々に増加します。 最近、清華大学自動化学部の黄高助教授の研究チームとファーウェイの研究者は、異なるアプローチを採用し、入力画像ごとに適切な数のトークンを自動的に構成し、冗長な計算を減らして効率を大幅に向上させることができるダイナミックビジョントランスフォーマー(DVT)を提案しました。 「すべての画像が 16x16 ワードの価値があるわけではない: 適応型シーケンス長を備えたダイナミック ビジョン トランスフォーマー」と題された論文が arXiv で公開されました。 ダイナミック ViT明らかに、現在の ViT は計算コストとトークン数の点で困難に直面しています。 精度と速度の最適なバランスを実現するために、トークンの数は通常 14x14/16x16 になります。 研究チームは次のことを観察しました。
トークンの数を動的に調整することで、計算効率が「簡単な」サンプルと「難しい」サンプルの間で均等に分散されず、効率を向上させる余地が大きく残ります。 これを基に研究チームは、各画像に調整されたトークンの数を自動的に構成して高い計算効率を実現することを目的とした新しい動的ViT(DVT)フレームワークを提案しました。 この DVT は一般的なフレームワークとして設計されています。 テスト時には、これらのモデルは、より少ないトークンから順番にアクティブ化されます。 十分に信頼性の高い予測が生成されるとすぐに推論プロセスは終了します。 モデルの主なアーキテクチャは、ViT、DeiT、T2T-ViT などの最先端の画像認識トランスフォーマーを採用しており、効率を向上させることができます。 このアプローチも非常に柔軟です。 DVT の計算量は、単純な早期終了基準によって調整できるためです。 この機能により、DVT は、利用可能なコンピューティング リソースが動的に変化する状況や、最小限の電力消費で所定のパフォーマンスを達成できる状況に適しています。 これら両方の状況は、検索エンジンやモバイル アプリケーションなどの実際のアプリケーションでは一般的です。 上記のフローチャートによれば、注意深い読者は次のことも発見するでしょう。 上流から下流への計算が失敗すると、以前の情報または上流情報を再利用する方法が採用され、さらなるデータトレーニングが実現されます。 これを基に研究チームはさらに、特徴再利用メカニズムと関係再利用メカニズムを提案しました。どちらも計算コストを最小限に抑えて冗長な計算を減らすことで、テストの精度を大幅に向上させることができます。 前者は、以前に抽出された深層特徴に基づいて下流のデータをトレーニングすることを可能にし、後者は既存の上流の自己注意モデルを活用して、より正確な注意を学習することができます。 「簡単」と「難しい」を動的に割り当てるこの方法の実際的な効果は、下の図の例で説明できます。 それでは、これら 2 つのメカニズムがどのように機能するかを見てみましょう。 機能再利用メカニズムDVT のすべてのトランスフォーマーには、正確な認識のために特徴信号を抽出するという共通の目標があります。 したがって、下流モデルは、最初から特徴を抽出するのではなく、以前に取得した深層特徴に基づいて学習する必要があります。 上流モデルで実行される計算は、そのモデル自体と後続のモデルの両方に貢献し、モデルの効率を高めます。 このアイデアを実現するために、研究チームは機能再利用メカニズムを提案しました。 簡単に言えば、上流の Transformer の最後のレイヤーによって出力された画像トークンは、レイヤーごとのコンテキスト埋め込みを学習するために使用され、下流の各 Transformer の MLP ブロックに統合されます。 関係再利用メカニズムTransformer の優れた利点の 1 つは次のとおりです。
通常、モデルはトークン間の関係を記述するために、各レイヤーで一連の注意マップを学習する必要があります。 上記のディープ フィーチャに加えて、ダウンストリーム モデルは、前のモデルによって生成された自己注意マップも取得できます。 研究チームは、これらの学習した関係は、特に対数加算演算を使用することで、下流のトランスフォーマー学習を促進するために再利用できるとも考えています。 パフォーマンスはどうですか?これ以上言う意味はありません。実際の結果を見てみましょう。 ImageNet における Top-1 精度と計算量の関係を次の図に示します。 DVT は DeiT や T2T-VIT よりも大幅に効率的であることがわかります。
さらに、このアプローチは柔軟性が高く、DVT の信頼しきい値を 1 回だけ調整することで、各曲線上のすべてのポイントに到達できます。 CIFAR のトップ 1 精度と GFLOP の比較を以下に示します。 ImageNet における Top-1 精度とスループットの関係を次の表に示します。 DVT では、「簡単」と「難しい」の視覚化サンプルを以下に示します。 上記の ImageNet、CIFAR-10、CIFAR-100 に関する多数の実証結果は次のことを示しています。
こんなに美しい結果を見ると感動しませんか? 興味のある方はぜひ原文を読んでみてください〜 ポータル論文の宛先: https://arxiv.org/abs/2105.15075 研究チーム黄高 現在33歳で、清華大学オートメーション学部の助教授および博士課程の指導者を務めています。 2020年アリババDAMOアカデミーYoung Orange Awardを受賞。研究分野は機械学習、ディープラーニング、コンピュータービジョン、強化学習など。 |
>>: 「ロボットが私にそうさせた」:ロボットは人々にリスクを取るよう促すことができると研究で判明
AlexNet、AlphaGo、GPT、CLIP、DALL-E、Codex、これらはAIの世界でセン...
音声認識技術は 1950 年代に開発され始めました。それでは、このテクノロジーが長年にわたってどのよ...
2000年前に生きていた古代人が1000年前に戻ったとしても、適応できるものは多くないかもしれません...
導入GPT4がリリースされてから半年以上が経ち、皆さんもある程度は理解できたかと思います。しかし一方...
[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...
PyTorch でディープラーニング モデルをトレーニングする場合、モデルのトレーニングを高速化す...
最近、Facebook は、自然言語処理とコンピューター ビジョンを使用してロボットが周囲の世界を理...
[[252389]]人工知能囲碁プログラム「AlphaGo」が囲碁の世界チャンピオンを破って以来、人...
現在、GPT-4 であれ、Llama 2 などの大規模言語モデルであれ、その背後にあるメカニズムは人...
研究論文によると、写真が実際に生きている人物を写したものか、それとも攻撃のデモンストレーションなのか...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...