TransformerはCNNを超え、計算複雑性の問題を解決します

TransformerはCNNを超え、計算複雑性の問題を解決します

[[390500]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Transformer について話すとき、いくつかの NLP モデルを思い浮かべるかもしれません。

しかし現在、Transformer は実際に CNN の仕事をこなすことができ、しかもかなりうまく機能しています。

たとえば、Microsoft Research Asia が提案した新製品である Swin Transformer は、COCO データセットのセグメンテーションと検出タスクにおいてクロスドメインの成功を収め、一挙に SOTA に到達しました。

そこで、質問です。

NLP に興味のある友人はおそらくこう尋ねるでしょう。CV タスクに Transformer を使用するというアイデアは以前から存在しており、CNN のステータスに揺るぎない影響を与えていません。Swin Transformer の違いは何ですか?

これには、Transformer の CV アプリケーションにおける 2 つの主な問題が関係します。

  • まず、Transformer モデルに基づいて、トークンの長さが固定されます。これはもちろん NLP における単語の問題ではありませんが、CV の分野では視覚要素の比率が異なります。たとえば、同じシーンに異なるサイズのオブジェクトが存在する場合があります。
  • 第二に、画像内のピクセルには、テキスト内の単語よりも高い解像度が必要です。従来の自己注意の計算の複雑さは画像サイズの 2 乗であり、ピクセル レベルで高密度の予測を行うときに問題が発生します。

Swin Transformer は、NLP と CV の違いによって生じる問題を解決することを目的としています。

移動ウィンドウ計算による階層型トランスフォーマー

Swin Transformer の秘密は、次の 2 つの重要な点にあります。

  • 階層的な特徴マップに基づいて、特徴ピラミッドネットワーク(FPN)やU-Netなどの技術を使用して高密度予測が実行されます。
  • 重複しないローカル ウィンドウに自己注意の計算を制限し、ウィンドウ間の接続を許可すると、効率が向上します。

2 番目のトリックは、移動ウィンドウに基づく自己注意です。

上の図に示すように、レイヤー l では、従来のウィンドウ分割方式が採用され、各ウィンドウ内で自己注意が計算されます。

次のレイヤー l+1 では、ウィンドウ パーティションが移動され、新しいウィンドウが生成されます。新しいウィンドウでの自己注意計算は、レイヤー l のウィンドウの境界を越えて、新しいコンテキスト情報を提供します。

具体的には、Swin Transformer の全体的なアーキテクチャは次のとおりです。

  • RGB 画像を重複しない画像ブロック (トークン) に分割します。
  • MLP (多層パーセプトロン) を適用して、元の特徴を任意の次元に変換します。
  • トークンの数を維持しながら、修正された自己注意計算を備えた複数の Swin Transformer ブロックを適用します。
  • ダウンサンプリング レイヤー: 隣接する画像パッチを 2×2 ウィンドウにマージしてトークンの数を減らし、特徴の深度を 2 倍にします。

実験結果

研究者らは、Swin Transformer に、それぞれ ImageNet-1K、COCO、ADE20K で画像分類、オブジェクト検出、セマンティックセグメンテーションのタスクを実行させました。

このうち、ImageNet-22Kデータセットは事前トレーニングに使用され、ImageNet-1Kデータセットは微調整に使用されます。

結果は、Swin Transformer が CNN を上回り、COCO セグメンテーションおよび検出タスク、および ADE20K セマンティック セグメンテーション タスクで SOTA に到達したことを示しています。

ImageNet-1K分類タスクでは、EfficientNetを上回ることはできなかったものの、その効果は同等であり、速度は速かった。

紙面ノートはこれで終わりです。詳細を知りたい方は記事末尾のポータルをクリックしてください。

読んだ後の感想もぜひシェアしてくださいね〜

ポータル

論文の宛先:
https://arxiv.org/abs/2103.14030

オープンソースアドレス:
https://github.com/microsoft/Swin-Transformer

<<:  ボストン・ダイナミクスの最新倉庫ロボットは1時間あたり800個のレンガを移動できる

>>:  ディープラーニングを理解するには、より低い次元からアプローチするべきでしょうか、それともより高い次元で考えるべきでしょうか?

ブログ    

推薦する

...

無人トラックで商品を配達しますか?アマゾンが自動運転車の特許を申請

[51CTO.com からのオリジナル記事] 現在、ドローンは間違いなくアマゾンの物流ネットワークで...

...

...

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...

人工知能は教育にどのような変化をもたらすのでしょうか?

[[441080]]経済観察記者 鄭躍新12月16日、中国教育部元副部長で中国教育国際交流協会会長...

データガバナンスはAIの将来にとって重要

人工知能は、消費者と組織にとって大きな革命的な進歩です。その結果、さらに重要かつ緊急性の高い発見がい...

アップルはiOS 18でクラウドやデバイスを含む生成AI機能を導入したと言われている。

海通国際証券のアナリスト、ジェフ・プー氏は本日、 Appleが早ければ2024年末にもiPhoneと...

30年以上前の主張が覆された?大規模モデルは人間レベルのシステム一般化能力を持つ

人間には「類推による学習」能力があることがわかっています。つまり、新しい概念を学習した後、すぐにそれ...

AIが米国の8年生の理科テストに高得点で合格。常識や推論の問題を解くことができ、同じ舞台でAIと競争する準備が整った。

8年生の理科のテストに60点で合格すれば、8万ドル(57万人民元相当)の賞金を獲得できます。 [[...

2022 年の銀行業界における AI とビッグデータのトップ 10 トレンド

当初の目標は人間と同じくらい知的な機械を持つことでしたが、人工知能ではなくインテリジェントオートメー...