TransformerはCNNを超え、計算複雑性の問題を解決します

TransformerはCNNを超え、計算複雑性の問題を解決します

[[390500]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Transformer について話すとき、いくつかの NLP モデルを思い浮かべるかもしれません。

しかし現在、Transformer は実際に CNN の仕事をこなすことができ、しかもかなりうまく機能しています。

たとえば、Microsoft Research Asia が提案した新製品である Swin Transformer は、COCO データセットのセグメンテーションと検出タスクにおいてクロスドメインの成功を収め、一挙に SOTA に到達しました。

そこで、質問です。

NLP に興味のある友人はおそらくこう尋ねるでしょう。CV タスクに Transformer を使用するというアイデアは以前から存在しており、CNN のステータスに揺るぎない影響を与えていません。Swin Transformer の違いは何ですか?

これには、Transformer の CV アプリケーションにおける 2 つの主な問題が関係します。

  • まず、Transformer モデルに基づいて、トークンの長さが固定されます。これはもちろん NLP における単語の問題ではありませんが、CV の分野では視覚要素の比率が異なります。たとえば、同じシーンに異なるサイズのオブジェクトが存在する場合があります。
  • 第二に、画像内のピクセルには、テキスト内の単語よりも高い解像度が必要です。従来の自己注意の計算の複雑さは画像サイズの 2 乗であり、ピクセル レベルで高密度の予測を行うときに問題が発生します。

Swin Transformer は、NLP と CV の違いによって生じる問題を解決することを目的としています。

移動ウィンドウ計算による階層型トランスフォーマー

Swin Transformer の秘密は、次の 2 つの重要な点にあります。

  • 階層的な特徴マップに基づいて、特徴ピラミッドネットワーク(FPN)やU-Netなどの技術を使用して高密度予測が実行されます。
  • 重複しないローカル ウィンドウに自己注意の計算を制限し、ウィンドウ間の接続を許可すると、効率が向上します。

2 番目のトリックは、移動ウィンドウに基づく自己注意です。

上の図に示すように、レイヤー l では、従来のウィンドウ分割方式が採用され、各ウィンドウ内で自己注意が計算されます。

次のレイヤー l+1 では、ウィンドウ パーティションが移動され、新しいウィンドウが生成されます。新しいウィンドウでの自己注意計算は、レイヤー l のウィンドウの境界を越えて、新しいコンテキスト情報を提供します。

具体的には、Swin Transformer の全体的なアーキテクチャは次のとおりです。

  • RGB 画像を重複しない画像ブロック (トークン) に分割します。
  • MLP (多層パーセプトロン) を適用して、元の特徴を任意の次元に変換します。
  • トークンの数を維持しながら、修正された自己注意計算を備えた複数の Swin Transformer ブロックを適用します。
  • ダウンサンプリング レイヤー: 隣接する画像パッチを 2×2 ウィンドウにマージしてトークンの数を減らし、特徴の深度を 2 倍にします。

実験結果

研究者らは、Swin Transformer に、それぞれ ImageNet-1K、COCO、ADE20K で画像分類、オブジェクト検出、セマンティックセグメンテーションのタスクを実行させました。

このうち、ImageNet-22Kデータセットは事前トレーニングに使用され、ImageNet-1Kデータセットは微調整に使用されます。

結果は、Swin Transformer が CNN を上回り、COCO セグメンテーションおよび検出タスク、および ADE20K セマンティック セグメンテーション タスクで SOTA に到達したことを示しています。

ImageNet-1K分類タスクでは、EfficientNetを上回ることはできなかったものの、その効果は同等であり、速度は速かった。

紙面ノートはこれで終わりです。詳細を知りたい方は記事末尾のポータルをクリックしてください。

読んだ後の感想もぜひシェアしてくださいね〜

ポータル

論文の宛先:
https://arxiv.org/abs/2103.14030

オープンソースアドレス:
https://github.com/microsoft/Swin-Transformer

<<:  ボストン・ダイナミクスの最新倉庫ロボットは1時間あたり800個のレンガを移動できる

>>:  ディープラーニングを理解するには、より低い次元からアプローチするべきでしょうか、それともより高い次元で考えるべきでしょうか?

ブログ    
ブログ    

推薦する

Baidu UNITが小能科技を支援し、ハイアールグループと提携してインテリジェントクラウド顧客サービスをアップグレード

インテリジェントな顧客サービスの分野は、2018 年に急速な発展を遂げました。企業の人件費を抑制する...

150億のパラメータを持つ、史上最大のビジュアルモデル「V-MoE」の全コードをGoogleがオープンソース化

昨年 6 月に Google Brain チームが発表した 43 ページの論文「Scaling Vi...

2030年までに、仕事の70%が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか?

10年前は多くの人が必死に五線譜を練習していましたが、今ではほとんど誰も使っていません。 5年前は...

自動運転は本当に実現します!最初の発砲は全国7か所で行われた。

自動車市場の発展に伴い、さまざまないわゆる「ブラックテクノロジー」が自動車所有者の敏感な神経をますま...

テンセントクラウドが7つの新製品をリリース、AIアプリケーションは洗練へ向かう

12月11日、テンセントクラウドは北京で新しいビッグデータAI製品発表会を開催した。テンセントクラウ...

ロボット「シェフ」がニューヨークに登場、1時間で300個の巻き寿司を作れる!

マンハッタンのファストカジュアルチェーン「ダルプ・モダン・インディアン」にあるドーサを自動で作る機械...

2019年ディープラーニングフレームワークランキング(トップ10からトップ3まで)

【51CTO.comオリジナル記事】 1. 前に書く5Gは2019年上半期の輝く「星」と言えるが、...

機械学習は「原子幾何学」の秘密を明らかにし、数学の発展を促進した

代数多様体とその方程式。代数幾何学は、一方では方程式の研究である代数学、他方では図形の研究である幾何...

...

2022年、ビッグモデルはどこまで行けるでしょうか?

[[442868]]著者: ユン・チャオこの記事は、2021年の業界レビュー、2021年のビッグモ...

機械学習の基本概念30選(手描きイラスト)

01 空間表現深遠な機械学習理論を学ぶ前に、まず機械学習の最も基本的な概念のいくつかを紹介しましょ...

負けても落ち込まないで! Google、ロボット工学プロジェクトを再開

[[260578]]海外メディアの報道によると、グーグルは以前の取り組みが失敗した後、ロボット工学プ...

...

デアデビルが来た!バットセンスAIは、スマートフォンが音を聞いて3D画像を生成できるようにする

英国の科学者たちは、スマートフォンやノートパソコンなどの日常的な物に、デアデビルと同じくらい強力なコ...