大規模なカーネル畳み込みを3つのステップに分割し、清華大学の胡世民氏のチームの新しいビジュアルバックボーンが3つの主要なタスクでリストのトップに立った。

大規模なカーネル畳み込みを3つのステップに分割し、清華大学の胡世民氏のチームの新しいビジュアルバックボーンが3つの主要なタスクでリストのトップに立った。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

視覚タスクでは、CNN と ViT にはそれぞれ長所と短所があります。

そのため、古典的なバックボーンを基礎として、詳細に相互に学習することが、最近注目されている研究方向になっています。

以前、Microsoft のSwinTransformer はCNN のスライディング ウィンドウなどの機能を導入し、ダウンストリーム タスクのリストでトップになり、Marr Prize を受賞しました。

その後、Meta AI のConvNeXT はViT の多くの技術を使用して ResNet を修正し、そのパフォーマンスを上回りました。

現在、新たなバックボーンであるVAN (Visual Attention Network) が再び学界の注目を集めています。

なぜなら、この新モデルは、上記の 2 つを上回り、 3 つの主要な視覚タスクのリストで再びトップになったからです。

VAN は CNN と ViT の両方の利点を取り入れ、シンプルで効率的であり、精度が高く、パラメーターと計算の数が少ないと主張しています。

VAN は、清華大学の Hu Shimin 氏が率いるチームによるものです。彼らは、標準的な大規模カーネル畳み込みを 3 つの部分に分解できると提案しました。

深さ方向畳み込み (DW-Conv)、深さ方向膨張畳み込み (DW-D-Conv)、および 1 × 1 畳み込み (1 × 1 Conv)。

さらに重要なのは、要素ごとの乗算ステップを追加することで、アテンションのような効果を実現できることです。チームは新しい畳み込みモジュールをLarge Kernel Attention (LKA ) と名付けました。

また、論文の最後には、現在の VAN は、慎重に磨き上げられていない、直感的な未加工バージョンに過ぎず、将来的に改善される可能性がまだ大きいことも述べられています。

(コードはオープンソースで、アドレスは記事の最後にあります)

大きなカーネル畳み込みを分解すると注目度を計算できる

注意メカニズムは、入力に基づいて主要な特徴を識別し、ノイズを自動的に無視できる適応型選択プロセスとして理解できます。

重要なステップは、入力データの長期的な依存関係を学習し、注意マップを生成することです。

注意マップを生成する一般的な方法は 2 つあります。

1 つ目は NLP の自己注意メカニズムですが、視覚に使用する場合はまだいくつかの欠点があります。たとえば、画像を 1 次元シーケンスに変換すると、その 2 次元構造は無視されます。

2 つ目は視覚的な大規模カーネル畳み込み法ですが、計算オーバーヘッドが大きすぎます。

上記の問題を克服するために、研究チームは大規模なカーネル畳み込みを 3 つの部分に分解する LKA 法を提案しました。

拡張間隔がdであると仮定すると、 K x K畳み込みは、 K/dx K/d 深さ拡張畳み込み、 (2d − 1) × (2d − 1) 深さ方向畳み込みカーネル、および 1 x 1 ポイント方向畳み込みに分解できます。

△cはチャネル

このようにして、計算オーバーヘッドを節約しながら長距離の依存関係をキャプチャし、さらに注意マップを生成することができます。

LKA メソッドは、畳み込みと自己注意の利点を組み合わせるだけでなく、チャネル適応性も獲得します。

CNN では、LKA 方式はMobileNetの 2 部分解方式に似ており、深度拡張畳み込みの増加により長距離の依存関係を捉えることができます。

ViT と比較すると、高解像度画像の場合、自己注意の二次複雑度の計算コストが高すぎるという問題を解決します。

MLP アーキテクチャのgMLPもアテンション メカニズムを導入していますが、固定解像度の画像のみを処理でき、画像のローカル構造を無視してグローバルな特徴のみに焦点を当てています。

理論的には、LKA 方式はすべての当事者の利点を組み合わせ、上記の欠点を克服します。

では、実際の効果はどうでしょうか?

新しいバックボーンランキングの3つの主要タスク

LKA 方式に従って設計された新しいバックボーン ネットワーク VAN は、従来の 4 段階設計を継承しており、具体的な構成は次のとおりです。

各ステージの構造は図に示されています。ダウンサンプリング レートはステップ サイズによって制御され、CFF は畳み込みフィードフォワード ネットワークを表します。

入力と出力の幅、高さ、チャネル数が等しいと仮定すると、計算の複雑さを計算できます。

畳み込みカーネルサイズ(K)が21の場合、パラメータ数を最小化するために拡張間隔(d)は3となり、これがデフォルト設定として使用されます。

チームは、この構成がグローバルな特徴とローカルな特徴の両方を抽出するのに理想的であると考えています。

最後に、ImageNet 上のさまざまなスケールの VAN の精度は、さまざまな CNN、ViT、MLP の精度を上回りました。

COCO 2017の物体検出タスクでも、VANをバックボーンとした複数の検出手法がリードしています。

ADE20K セマンティックセグメンテーションタスクでも同様です。

そして、前述の通り、VAN は、入念な磨きをかけなくても、すでに 3 つの主要タスクをクリアしており、今後も改善の余地が残っています。

今後の改善については、チームはより大きな畳み込みカーネルを試したり、Res2Net のマルチスケール構造や Inception のマルチブランチ構造を導入したりする可能性があると述べた。

さらに、画像の自己教師学習や転移学習における VAN の使用、さらには NLP に使用できるかどうかについても、さらに調査が必要です。

著者について

この論文は、清華大学コンピュータサイエンス学部のHu Shimin 氏のチームによるものです。

胡世民教授は、清華大学の JiTu フレームワーク チームの責任者です。JiTu フレームワークは、中国の大学がオープンソース化した最初のディープラーニング フレームワークです。

第一著者である博士課程の学生 Guo Menghao 氏は現在、清華大学のコンピュータサイエンス学部で学んでおり、JiTu チームのメンバーでもあります。

この論文のコードはオープンソース化されており、Pytorch バージョンとグラフ フレームワーク バージョンの 2 つのバージョンが提供されています。

研究チームは以前、視覚的注意に関するレビューを発表しており、arXivでヒットとなった。

付随する GitHub リポジトリ Awesome-Vision-Attentions (視覚的注意に関する論文のコレクション) にも 1.2k 個のスターが付いています。

最後に、ちょっとした噂ですが、チームはさまざまな視覚的注意のメカニズムを研究した後に、この新しいアイデアを思いついたのでしょうか?

それも666です。

論文の宛先:
https://arxiv.org/abs/2202.09741

GitHub アドレス:
https://github.com/Visual-Attention-Network

<<:  Baidu の計算生物学研究が Nature のサブジャーナルに掲載されました!スタンフォード大学やMITを上回る成果、製薬分野に進出

>>:  自動運転開発ツールチェーンの現状と動向を20,000語で解説

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

強化学習のゴッドファーザーによる新しい論文では、意思決定エージェントの普遍的なモデルを探求しています。学際的な共通点を見つける

強化学習と意思決定に関する学際会議 (RLDM) の重要な前提は、複数の分野が長期にわたる目標指向の...

過去20年間、Huilianは政府サービスにおけるグローバルインテリジェンスを実現してきました。

農業、工業、情報、知能、社会は常に進歩しています。長い発展の過程で、生産手段と生産ツールは常に変化し...

GoogleのAIチップのアップグレード:大規模モデルと生成AIをターゲットとし、主流のディープラーニングフレームワークを統合

Google は、AI を使用して最適化された新世代の人工知能とインフラストラクチャの開発をリードす...

NvidiaとFoxconnがAIに特化した新しいデータセンターの開発で提携

ジェンセン・フアンとヤンウェイ・リウが、AIイノベーションに特化した「工場」を建設するという新しいプ...

AutoGluonはオープンソースであり、人間の錬金術師を超えるパフォーマンスを発揮します

自動化された機械学習はどれほど優れたものになるのでしょうか?たとえば、MobileNet1.0 バッ...

人工知能が中国の古典「古いドラマ」と「古い映画」に新たな表情を与える

映画「トンネル戦争」修復前と修復後の比較。画像はインタビュー対象者より提供新華社北京1月1日(記者フ...

Apple の生成 AI ツール Apple GPT: 遅れて登場したが、他の利点もある

Appleは、ChatGPTやGoogleのBardのような大規模言語モデル(LLM)と競合する独自...

医療における AI 導入の 5 つの障壁

人間の想像力を幅広い臨床応用に活用するとなると、医療用人工知能の道のりはまだまだ長い。 [[2761...

...

研究によると、AIシステムは大量のエネルギーを消費する

同研究機関はAIインフラの需要について徹底的な調査を実施し、AIシステムに必要なエネルギーは本格導入...

IBMはGPUを使用して機械学習の効率を10倍向上させる

[[212269]] IBM は、EPFL の研究者と共同で、機械学習アルゴリズムをトレーニングする...

確かな情報です!魅力的なチャットボットを 0 から 1 まで構築する方法を教えますか?

ここ数か月、私はたくさんのロボットに取り組んできました。このプロセスで私が学んだ教訓をいくつか紹介し...

データ構造とアルゴリズムソート - 理解できないなら、私に相談してください

[[194165]]以下では、主にデータ構造の教科書で紹介されている「10 種類のソートアルゴリズム...

...

KMPアルゴリズムを最初から最後まで徹底的に理解できるように指導します

[[121931]]この記事の参考文献: Li Yunqing 他著「データ構造 (C 言語版)」、...