SFUとアリババは、複雑さを線形に減らし、パフォーマンスを向上させる一般的なQuadTree Attentionを提案した。

Transformer モデルは、長距離の依存関係とグローバル情報をキャプチャできます。コンピュータービジョンタスクに導入されてから、ほとんどのタスクでパフォーマンスが大幅に向上しました。

しかし、Transformer の欠陥は避けられません。時間と空間の複雑度が高すぎるのです。どちらも入力シーケンスの長さの 2 乗です。

通常、入力画像はパッチに分割され、これらのパッチはトークンシーケンスにフラット化されて Transformer に送られます。シーケンスが長くなるほど、複雑さが増します。

したがって、多くの視覚タスクでトランスフォーマーを活用するには、低解像度に適用するか、注目メカニズムを画像のローカル領域に制限することを選択します。

しかし、Transformerを高解像度で適用すると、より幅広い応用の可能性とパフォーマンスの向上がもたらされるため、計算の複雑さを軽減するための効果的なTransformerの設計が多くの研究で研究されています。

一部の学者は、線形法を使用して標準トランスフォーマーを近似する線形近似トランスフォーマーを提案しました。しかし、実験結果によると、視覚タスクにおけるこれらの線形トランスフォーマーのパフォーマンスは比較的低いことがわかりました。計算コストを削減するために、PVT はダウンサンプリングされたキーと値を使用します。これにより、ピクセルレベルの詳細をキャプチャするモデルの能力が低下します。対照的に、Swin トランスフォーマーはグローバルアテンションのインタラクティブ情報を制限して計算量を削減します。

サイモンフレーザー大学とアリババAIラボの研究者らは、これまでの研究の方向性とは異なり、粗から細までの注意メカニズムを確立し、グローバルな相互作用と細粒度の情報を同時に含めることができ、時間の複雑さを線形に削減できる、新しい注意メカニズムであるQuadTree注意を提案しました。この論文はICLR 2022に採択されました。

論文アドレス: https://arxiv.org/abs/2201.02767

コードアドレス: https://github.com/Tangshitao/QuadTreeAttention

画像を見ると、ほとんどの画像領域が無関係であることがわかります。そのため、トークンピラミッドを構築して、大まかから細かい順に注目度を計算することができます。この方法では、対応する粗いレベルの領域が無関係である場合、細かいレベルの無関係な領域をすばやくスキップすることもできます。

たとえば、最初のレイヤーは、画像 A の青い領域の注目度を計算します。つまり、画像 A の青いパッチと画像 B のすべてのパッチの注目度を計算し、関連する領域であることを示す青色でマークされた最初の K 個のパッチを選択します。

2 番目のレイヤーでは、画像 A の最初のレイヤーの青いパッチの 4 つのサブパッチについては、最初のレイヤーの画像 B の上位 K 個のパッチに対応するサブパッチのみを使用して注目度を計算し、その他のすべてのシャドウサブパッチは計算量を削減するためにスキップされます。画像 A の 2 つのパッチを黄色と緑で表し、画像 B の対応する最初の K 個のパッチも同じ色で強調表示されています。

プロセス全体は第 3 層で反復され、このようにして、長距離の依存関係接続を維持しながらきめ細かい注意を得ることができます。

最も重要なことは、プロセス全体を通して、ほんの少しの注意だけを計算する必要があるということです。したがって、この方法ではメモリ消費量と計算コストが低くなります。

実装では、研究者はクアッドツリーデータ構造を使用して注意メカニズムを構築しました。

従来の注意メカニズムと同様に、埋め込みは最初に Q、K、および V にマッピングされます。次に、カーネルサイズが 2x2 のプーリング層または畳み込み層を使用して、それらを複数回ダウンサンプリングし、トークンピラミッドを構築します。

最も粗いレイヤーから始めて、各レイヤーは、次のレイヤーの計算に参加するために、最も高い注意スコアを持つ K 個のパッチのみを選択します。異なる計算方法に従って、QuadTree-A と QuadTree-B という 2 つのメカニズムが設計されています。

QuadTree-B メソッドでは、最も粗いレイヤーについては、計算に注意式のみを使用する必要があります。

残りのレイヤーでは、前のレイヤーから注目度スコアが最も高い k 個のパッチが選択され、メッセージの受け渡しが計算されます。

最後に、各レイヤーの情報を結合します。ここで、w_i は i 番目のレイヤーの学習可能なパラメーターです。

実験結果

異なる画像間の特徴の対応関係を見つけることは、3D コンピュータービジョンの典型的なタスクです。通常の評価方法は、対応する点のカメラ姿勢推定の精度です。

研究者らは、CNN ベースの特徴抽出器とトランスフォーマーベースのマッチング機能を含む、最近提案された SOTA フレームワーク LoFTR を使用しました。

QuadTree Transformer の効果を検証するために、研究者は LoFTR の線形トランスフォーマーを QuadTree に置き換えました。さらに、この記事では、空間縮小 (SR) 注意との比較のために、LoFTR の新しいバージョンが実装されています。

研究者らは、1,513のシーンを含むScanNetで実験を行った。

QuadTree Transformer のパラメータには、最も粗い解像度 15×20 ピクセルの 3 層ピラミッドが使用されます。パラメータ K は、最も細かいレベルでは 8 に設定され、粗いレベルではその 2 倍に設定されます。 SR アテンションの場合、値とキートークンは 8×8 サイズに均等にプールされ、QuadTree アテンションと同様のメモリ消費とフロップが保証されます。

(5◦、10◦、20◦)でのカメラ姿勢誤差のAUC実験結果から、SRアテンションは線形トランスフォーマーと同様の結果を達成することがわかります。対照的に、QuadTreeA と QuadTreeB は線形トランスフォーマーと SR アテンションを大幅に上回り、Quadtree-B は全体的に Quadtree-A よりも優れたパフォーマンスを発揮します。

研究者らは結果をさらに改善するために、K=16 のモデルもトレーニングし、モデルのパフォーマンスがさらに向上したことがわかります。

ステレオマッチングのタスクでは、2 つの画像間の線上にある対応するピクセルを見つけることが目標です。最近の研究では、STTR はエピポーラ線間の特徴点に Transformer を適用し、SOTA パフォーマンスを実現しています。

STTR の標準 Transformer を QuadTree Transformer に置き換えた後、解像度 960×540 の 25,466 枚の画像を含む Scene Flow FlyingThings3D 合成データセットで実験が行われます。

研究者らは、QuadTree Attention を評価するために 4 層のピラミッドを構築しました。実験結果には、遮蔽されていない領域の EPE (End-Point-Error) と遮蔽されている領域の IOU (Intersection-over-Union) が示されています。表には、計算の複雑さとメモリ使用量も含まれています。

標準的なトランスフォーマーベースの STTR と比較すると、QuadTree トランスフォーマーは同様の EPE (0.45 ピクセル対 0.46 ピクセル) とより高いオクルージョン推定 IOU を実現しますが、計算コストとメモリコストは大幅に削減され、FLOP は 52%、メモリ消費量は 63% に抑えられます。

研究者らは、基本的な自己注意タスクにおける QuadTree Transformer のパフォーマンスもテストしました。

まず、ImageNet での画像分類タスクの実験結果から、PVTv2 ベースのモデルは、空間縮小アテンションを四分木アテンションに置き換えることで、ImageNet で 84.0% のトップ 1 精度を達成できることがわかります。これは、さまざまなサイズのモデルで PVTv2 よりも 0.4 ～ 1.5 パーセントポイント高い値です。

COCO オブジェクト検出データセットの実験結果から、QuadTree Attention の場合、粗い情報から細かい情報までキャプチャするには、小さな K で十分であることがわかります。そのため、高解像度の画像を使用する場合、計算量をさらに削減できます。

また、QuadTree-B は PVTv2 よりもはるかに少ないフロップスでより高いパフォーマンスを実現し、そのパフォーマンスは ResNet や ResNeXt を上回ります。 QuadTree-B-b2 は、ResNet101 および ResNeXt101-32x4d をそれぞれ 7.7AP および 6.3AP 上回り、バックボーンフロップが約 40% 削減されました。

ADE20K のセマンティックセグメンテーション実験では、同様のパラメータ数とフロップスで、PVTv2 と比較して 0.8 ～ 1.3 改善されています。

著者について

第一著者は、現在サイモンフレーザー大学の博士課程 3 年生である Tang Shitao です。彼の指導教官は Tan Ping で、彼の研究対象はディープラーニングと 3D ビジョンです。彼は、ECCV、ICCV、CVPR、ICML、ICLR などの会議で多数の論文を発表しています。

共同筆頭著者の張家慧氏は現在、アリババのアルゴリズムエンジニアです。 2020年に清華大学で博士号を取得し、3D再構築と3Dディープラーニングを研究対象としています。博士課程在学中、私はインテル中国研究所と香港科技大学でインターンシップや交換留学をしました。 ECCV、ICCV、CVPR、ICLR、TPAMI、TVCG などの会議やジャーナルに複数の論文を発表しました。

朱思宇博士は、アリババクラウド人工知能研究所のアルゴリズムチームの責任者です。彼は香港科技大学で博士号を取得しました。彼は博士号取得を目指しながら、3D ビジョン会社 Altizure を共同設立しました。 Zhu Siyu 博士は、ICCV、CVPR、ECCV、PAMI などのコンピュータービジョンに関する国際学術会議やジャーナルに 30 本以上の論文を発表しています。

Tan Ping 氏は現在、Alibaba XR Lab に勤務しています。以前は、サイモンフレーザー大学の終身在職権を持つ准教授であり、シンガポール国立大学の准教授でもありました。彼の主な研究対象には、コンピュータービジョン、コンピューターグラフィックス、ロボット工学、3D 再構築、画像ベースのモデリング、画像とビデオの編集、照明と反射率のモデリングなどがあります。

<<: データセットには独自の世界観がありますか?いいえ、それは実際には人々の世界観です。

>>: エネルギーおよび公益事業業界におけるインテリジェントオートメーションの役割