SFUとアリババは、複雑さを線形に減らし、パフォーマンスを向上させる一般的なQuadTree Attentionを提案した。

SFUとアリババは、複雑さを線形に減らし、パフォーマンスを向上させる一般的なQuadTree Attentionを提案した。

Transformer モデルは、長距離の依存関係とグローバル情報をキャプチャできます。コンピューター ビジョン タスクに導入されてから、ほとんどのタスクでパフォーマンスが大幅に向上しました。

しかし、Transformer の欠陥は避けられません。時間と空間の複雑度が高すぎるのです。どちらも入力シーケンスの長さの 2 乗です。

通常、入力画像はパッチに分割され、これらのパッチはトークン シーケンスにフラット化されて Transformer に送られます。シーケンスが長くなるほど、複雑さが増します。

したがって、多くの視覚タスクでトランスフォーマーを活用するには、低解像度に適用するか、注目メカニズムを画像のローカル領域に制限することを選択します。

しかし、Transformerを高解像度で適用すると、より幅広い応用の可能性とパフォーマンスの向上がもたらされるため、計算の複雑さを軽減するための効果的なTransformerの設計が多くの研究で研究されています。

一部の学者は、線形法を使用して標準トランスフォーマーを近似する線形近似トランスフォーマーを提案しました。しかし、実験結果によると、視覚タスクにおけるこれらの線形トランスフォーマーのパフォーマンスは比較的低いことがわかりました。計算コストを削減するために、PVT はダウンサンプリングされたキーと値を使用します。これにより、ピクセルレベルの詳細をキャプチャするモデルの能力が低下します。対照的に、Swin トランスフォーマーはグローバルアテンションのインタラクティブ情報を制限して計算量を削減します。

サイモンフレーザー大学とアリババAIラボの研究者らは、これまでの研究の方向性とは異なり、粗から細までの注意メカニズムを確立し、グローバルな相互作用と細粒度の情報を同時に含めることができ、時間の複雑さを線形に削減できる、新しい注意メカニズムであるQuadTree注意を提案しました。この論文はICLR 2022に採択されました。

論文アドレス: https://arxiv.org/abs/2201.02767

コードアドレス: https://github.com/Tangshitao/QuadTreeAttention

画像を見ると、ほとんどの画像領域が無関係であることがわかります。そのため、トークン ピラミッドを構築して、大まかから細かい順に注目度を計算することができます。この方法では、対応する粗いレベルの領域が無関係である場合、細かいレベルの無関係な領域をすばやくスキップすることもできます。

たとえば、最初のレイヤーは、画像 A の青い領域の注目度を計算します。つまり、画像 A の青いパッチと画像 B のすべてのパッチの注目度を計算し、関連する領域であることを示す青色でマークされた最初の K 個のパッチを選択します。

2 番目のレイヤーでは、画像 A の最初のレイヤーの青いパッチの 4 つのサブパッチについては、最初のレイヤーの画像 B の上位 K 個のパッチに対応するサブパッチのみを使用して注目度を計算し、その他のすべてのシャドウ サブパッチは計算量を削減するためにスキップされます。画像 A の 2 つのパッチを黄色と緑で表し、画像 B の対応する最初の K 個のパッチも同じ色で強調表示されています。

プロセス全体は第 3 層で反復され、このようにして、長距離の依存関係接続を維持しながらきめ細かい注意を得ることができます。

最も重要なことは、プロセス全体を通して、ほんの少しの注意だけを計算する必要があるということです。したがって、この方法ではメモリ消費量と計算コストが低くなります。

実装では、研究者はクアッドツリーデータ構造を使用して注意メカニズムを構築しました。

従来の注意メカニズムと同様に、埋め込みは最初に Q、K、および V にマッピングされます。次に、カーネル サイズが 2x2 のプーリング層または畳み込み層を使用して、それらを複数回ダウンサンプリングし、トークン ピラミッドを構築します。

最も粗いレイヤーから始めて、各レイヤーは、次のレイヤーの計算に参加するために、最も高い注意スコアを持つ K 個のパッチのみを選択します。異なる計算方法に従って、QuadTree-A と QuadTree-B という 2 つのメカニズムが設計されています。

QuadTree-B メソッドでは、最も粗いレイヤーについては、計算に注意式のみを使用する必要があります。

残りのレイヤーでは、前のレイヤーから注目度スコアが最も高い k 個のパッチが選択され、メッセージの受け渡しが計算されます。

最後に、各レイヤーの情報を結合します。ここで、w_i は i 番目のレイヤーの学習可能なパラメーターです。

実験結果

異なる画像間の特徴の対応関係を見つけることは、3D コンピューター ビジョンの典型的なタスクです。通常の評価方法は、対応する点のカメラ姿勢推定の精度です。

研究者らは、CNN ベースの特徴抽出器とトランスフォーマーベースのマッチング機能を含む、最近提案された SOTA フレームワーク LoFTR を使用しました。

QuadTree Transformer の効果を検証するために、研究者は LoFTR の線形トランスフォーマーを QuadTree に置き換えました。さらに、この記事では、空間縮小 (SR) 注意との比較のために、LoFTR の新しいバージョンが実装されています。

研究者らは、1,513のシーンを含むScanNetで実験を行った。

QuadTree Transformer のパラメータには、最も粗い解像度 15×20 ピクセルの 3 層ピラミッドが使用されます。パラメータ K は、最も細かいレベルでは 8 に設定され、粗いレベルではその 2 倍に設定されます。 SR アテンションの場合、値とキー トークンは 8×8 サイズに均等にプールされ、QuadTree アテンションと同様のメモリ消費とフロップが保証されます。

(5◦、10◦、20◦)でのカメラ姿勢誤差のAUC実験結果から、SRアテンションは線形トランスフォーマーと同様の結果を達成することがわかります。対照的に、QuadTreeA と QuadTreeB は線形トランスフォーマーと SR アテンションを大幅に上回り、Quadtree-B は全体的に Quadtree-A よりも優れたパフォーマンスを発揮します。

研究者らは結果をさらに改善するために、K=16 のモデルもトレーニングし、モデルのパフォーマンスがさらに向上したことがわかります。

ステレオマッチングのタスクでは、2 つの画像間の線上にある対応するピクセルを見つけることが目標です。最近の研究では、STTR はエピポーラ線間の特徴点に Transformer を適用し、SOTA パフォーマンスを実現しています。

STTR の標準 Transformer を QuadTree Transformer に置き換えた後、解像度 960×540 の 25,466 枚の画像を含む Scene Flow FlyingThings3D 合成データセットで実験が行われます。

研究者らは、QuadTree Attention を評価するために 4 層のピラミッドを構築しました。実験結果には、遮蔽されていない領域の EPE (End-Point-Error) と遮蔽されている領域の IOU (Intersection-over-Union) が示されています。表には、計算の複雑さとメモリ使用量も含まれています。

標準的なトランスフォーマーベースの STTR と比較すると、QuadTree トランスフォーマーは同様の EPE (0.45 ピクセル対 0.46 ピクセル) とより高いオクルージョン推定 IOU を実現しますが、計算コストとメモリ コストは大幅に削減され、FLOP は 52%、メモリ消費量は 63% に抑えられます。

研究者らは、基本的な自己注意タスクにおける QuadTree Transformer のパフォーマンスもテストしました。

まず、ImageNet での画像分類タスクの実験結果から、PVTv2 ベースのモデルは、空間縮小アテンションを四分木アテンションに置き換えることで、ImageNet で 84.0% のトップ 1 精度を達成できることがわかります。これは、さまざまなサイズのモデルで PVTv2 よりも 0.4 ~ 1.5 パーセントポイント高い値です。

COCO オブジェクト検出データセットの実験結果から、QuadTree Attention の場合、粗い情報から細かい情報までキャプチャするには、小さな K で十分であることがわかります。そのため、高解像度の画像を使用する場合、計算量をさらに削減できます。

また、QuadTree-B は PVTv2 よりもはるかに少ないフロップスでより高いパフォーマンスを実現し、そのパフォーマンスは ResNet や ResNeXt を上回ります。 QuadTree-B-b2 は、ResNet101 および ResNeXt101-32x4d をそれぞれ 7.7AP および 6.3AP 上回り、バックボーン フロップが約 40% 削減されました。

ADE20K のセマンティックセグメンテーション実験では、同様のパラメータ数とフロップスで、PVTv2 と比較して 0.8 ~ 1.3 改善されています。

著者について

第一著者は、現在サイモンフレーザー大学の博士課程 3 年生である Tang Shitao です。彼の指導教官は Tan Ping で、彼の研究対象はディープラーニングと 3D ビジョンです。彼は、ECCV、ICCV、CVPR、ICML、ICLR などの会議で多数の論文を発表しています。

共同筆頭著者の張家慧氏は現在、アリババのアルゴリズムエンジニアです。 2020年に清華大学で博士号を取得し、3D再構築と3Dディープラーニングを研究対象としています。博士課程在学中、私はインテル中国研究所と香港科技大学でインターンシップや交換留学をしました。 ECCV、ICCV、CVPR、ICLR、TPAMI、TVCG などの会議やジャーナルに複数の論文を発表しました。

朱思宇博士は、アリババクラウド人工知能研究所のアルゴリズムチームの責任者です。彼は香港科技大学で博士号を取得しました。彼は博士号取得を目指しながら、3D ビジョン会社 Altizure を共同設立しました。 Zhu Siyu 博士は、ICCV、CVPR、ECCV、PAMI などのコンピューター ビジョンに関する国際学術会議やジャーナルに 30 本以上の論文を発表しています。

Tan Ping 氏は現在、Alibaba XR Lab に勤務しています。以前は、サイモンフレーザー大学の終身在職権を持つ准教授であり、シンガポール国立大学の准教授でもありました。彼の主な研究対象には、コンピューター ビジョン、コンピューター グラフィックス、ロボット工学、3D 再構築、画像ベースのモデリング、画像とビデオの編集、照明と反射率のモデリングなどがあります。

<<:  データセットには独自の世界観がありますか?いいえ、それは実際には人々の世界観です。

>>:  エネルギーおよび公益事業業界におけるインテリジェントオートメーションの役割

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...

プログラマーは30歳で転職すべきでしょうか?曲がるならどちらの方向がいいでしょうか?

最近、皆さんは次のような H5 に悩まされていると思います。広告ポスター500枚の予算は2,000元...

...

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

アマゾンの幹部は7月27日、クラウドコンピューティング部門が人工知能サービス「ベッドロック」を試す顧...

...

人工知能はソフトウェア開発業界にどのような影響を与えるでしょうか? AIはクリエイティブな労働者に取って代わることはできない

AI業界はクリエイティブなソフトウェア開発者を満足させることは決してできないでしょう。このテクノロジ...

...

Pythonを使用して独自のTwitterボットを構築する方法を学びます

Twitter を使用すると、ユーザーはブログの投稿や記事を世界と共有できます。 Python と ...

...

人間の世界チャンピオン3人を破り、ネイチャー誌の表紙に登場! AIドローンエクストリームレースが自動運転の新時代を切り開く

チェスや事務作業、ゲームなどの知的活動において人間が AI に圧倒されていることはもはやニュースでは...

人工知能が人の感情を認識できるなんてすごいですね。信じられません。

感情認識技術は、実際には人工知能を使用して顔の表情から感情を検出する新興技術であり、数十億ドル規模の...

ベンチマーク: 14 のソートアルゴリズムと PHP 配列

この記事では、PHP で記述されたソートアルゴリズムのテストについて紹介します。ソートアルゴリズムは...

ホテルは機械学習を使ってどのゲストが立ち上がるかを予測する

現在、主要なOTA(オンライン旅行代理店)プラットフォームは人々の旅行を大幅に容易にしています。ホテ...

...

TikTokが米メディアにアルゴリズムの原則を導入:まずは8つの人気動画を使ってユーザーを理解する

人気の短編動画アプリ「TikTok」(Douyinの海外版)は、主にアルゴリズムのおかげで、世界中で...