この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Transformer について話すとき、いくつかの NLP モデルを思い浮かべるかもしれません。 しかし現在、Transformer は実際に CNN の仕事をこなすことができ、しかもかなりうまく機能しています。 たとえば、Microsoft Research Asia が提案した新製品である Swin Transformer は、COCO データセットのセグメンテーションと検出タスクにおいてクロスドメインの成功を収め、一挙に SOTA に到達しました。 そこで、質問です。 NLP に興味のある友人はおそらくこう尋ねるでしょう。CV タスクに Transformer を使用するというアイデアは以前から存在しており、CNN のステータスに揺るぎない影響を与えていません。Swin Transformer の違いは何ですか? これには、Transformer の CV アプリケーションにおける 2 つの主な問題が関係します。
Swin Transformer は、NLP と CV の違いによって生じる問題を解決することを目的としています。 移動ウィンドウ計算による階層型トランスフォーマーSwin Transformer の秘密は、次の 2 つの重要な点にあります。
2 番目のトリックは、移動ウィンドウに基づく自己注意です。 上の図に示すように、レイヤー l では、従来のウィンドウ分割方式が採用され、各ウィンドウ内で自己注意が計算されます。 次のレイヤー l+1 では、ウィンドウ パーティションが移動され、新しいウィンドウが生成されます。新しいウィンドウでの自己注意計算は、レイヤー l のウィンドウの境界を越えて、新しいコンテキスト情報を提供します。 具体的には、Swin Transformer の全体的なアーキテクチャは次のとおりです。
実験結果研究者らは、Swin Transformer に、それぞれ ImageNet-1K、COCO、ADE20K で画像分類、オブジェクト検出、セマンティックセグメンテーションのタスクを実行させました。 このうち、ImageNet-22Kデータセットは事前トレーニングに使用され、ImageNet-1Kデータセットは微調整に使用されます。 結果は、Swin Transformer が CNN を上回り、COCO セグメンテーションおよび検出タスク、および ADE20K セマンティック セグメンテーション タスクで SOTA に到達したことを示しています。 ImageNet-1K分類タスクでは、EfficientNetを上回ることはできなかったものの、その効果は同等であり、速度は速かった。 紙面ノートはこれで終わりです。詳細を知りたい方は記事末尾のポータルをクリックしてください。 読んだ後の感想もぜひシェアしてくださいね〜 ポータル論文の宛先: オープンソースアドレス: |
<<: ボストン・ダイナミクスの最新倉庫ロボットは1時間あたり800個のレンガを移動できる
>>: ディープラーニングを理解するには、より低い次元からアプローチするべきでしょうか、それともより高い次元で考えるべきでしょうか?
[[414820]]最近、DeepMind と Google Research チームが共同で、ニュ...
GPT-4 がレビュー担当者になりました!最近、スタンフォード大学などの研究者は、Nature や...
[51CTO.com からのオリジナル記事] 現在、ドローンは間違いなくアマゾンの物流ネットワークで...
ドキュメント画像を Markdown 形式に変換したいですか?以前は、このタスクには、テキスト認識、...
消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...
[[441080]]経済観察記者 鄭躍新12月16日、中国教育部元副部長で中国教育国際交流協会会長...
人工知能は、消費者と組織にとって大きな革命的な進歩です。その結果、さらに重要かつ緊急性の高い発見がい...
海通国際証券のアナリスト、ジェフ・プー氏は本日、 Appleが早ければ2024年末にもiPhoneと...
人間には「類推による学習」能力があることがわかっています。つまり、新しい概念を学習した後、すぐにそれ...
8年生の理科のテストに60点で合格すれば、8万ドル(57万人民元相当)の賞金を獲得できます。 [[...
当初の目標は人間と同じくらい知的な機械を持つことでしたが、人工知能ではなくインテリジェントオートメー...
[[312069]] 1月2日のZhidongxiによると、Alibaba Damo Academy...