ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する必要があるシーケンスが長くなるにつれて、この大規模 AI モデルの主流のアーキテクチャの制限がますます顕著になってきました。 Mamba の出現は、これらすべてを強力に変えています。その優れたパフォーマンスは、すぐに AI 界を沸かせました。

先週の木曜日、Vision Mamba (Vim) が発表され、ビジョンベース モデルの次世代バックボーンとなる大きな可能性を示しました。わずか 1 日後、中国科学院、Huawei、Pengcheng Laboratory の研究者らが、グローバル受容野と線形複雑性を備えた視覚的な Mamba モデルである VMamba を提案しました。この作品は、Visual Mamba モデルにとって Swin の瞬間を象徴するものです。


  • 論文タイトル: VMamba: 視覚状態空間モデル
  • 論文アドレス: https://arxiv.org/abs/2401.10166
  • コードアドレス: https://github.com/MzeroMiko/VMamba

CNN と Visual Transformer (ViT) は現在、最も主流の 2 つの基本視覚モデルです。 CNN には線形複雑性がありますが、ViT はより強力なデータ フィッティング機能を備えていますが、計算の複雑性が高くなります。研究者たちは、ViT が強力なフィッティング能力を持つ理由は、グローバル受容野と動的重みを備えているためだと考えています。 Mamba モデルにヒントを得て、研究者たちは線形複雑性の下でこれら 2 つの優れた特性を両方とも備えたモデル、つまり Visual State Space Model (VMamba) を設計しました。広範囲にわたる実験により、VMamba がさまざまな視覚タスクで優れたパフォーマンスを発揮することが実証されています。下の図に示すように、VMamba-S は ImageNet-1K で 83.5% の精度を達成しており、これは Vim-S よりも 3.2%、Swin-S よりも 0.5% 高い数値です。

方法の紹介

VMamba の成功の鍵は、選択スキャン空間状態シーケンシャル モデル (S6 モデル) の使用にあります。このモデルはもともと、自然言語処理 (NLP) タスクを解決するために設計されました。 ViT の注意メカニズムとは異なり、S6 は 1D ベクトル (テキスト シーケンスなど) の各要素をその前にスキャンされた情報と相互作用させ、実質的に 2 次複雑度を線形に削減します。

しかし、視覚信号(画像など)はテキストシーケンスのような自然な順序を持たないため、S6 のデータスキャン方法を視覚信号に直接適用することはできません。この目的のために、研究者はクロススキャンスキャン機構を設計しました。クロススキャン モジュール (CSM) は、4 方向スキャン戦略、つまり特徴マップの 4 つのコーナーから同時にスキャンする戦略を採用しています (上図を参照)。この戦略により、フィーチャ内の各要素がさまざまな方向にある他のすべての位置からの情報を統合し、線形計算の複雑さを増大させることなくグローバル受容フィールドを形成することが保証されます。

著者らは CSM に基づいて 2D 選択スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は次の 3 つのステップで構成されます。

  • スキャン拡張は、2D フィーチャを 4 つの異なる方向 (左上、右下、左下、右上) に沿って 1D ベクトルに平坦化します。
  • S6 ブロックは、前のステップで取得した 4 つの 1D ベクトルを個別に S6 操作に入力します。
  • スキャンマージは、取得した 4 つの 1D ベクトルを 2D フィーチャ出力に融合します。

上図は、この記事で提案する VMamba 構造図です。 VMamba の全体的なフレームワークは主流のビジュアル モデルに似ていますが、主な違いは基本モジュール (VSS ブロック) で使用されるさまざまな演算子にあります。 VSS ブロックは、上で紹介した 2D 選択スキャン操作、つまり SS2D を使用します。 SS2D は、線形複雑性を犠牲にして VMamba がグローバル受容野を実現することを保証します。

実験結果

ImageNet分類

実験結果を比較すると、同様のパラメータと FLOP の場合、次のことが容易にわかります。

  • VMamba-T は82.2% のパフォーマンスを達成し、RegNetY-4G を 2.2%、DeiT-S を 2.4%、Swin-T を 0.9% 上回りました。
  • VMamba-S は83.5% のパフォーマンスを達成し、RegNetY-8G を 1.8%、Swin-S を 0.5% 上回りました。
  • VMamba-B は83.2% のパフォーマンスを達成しました (バグがあります。正しい結果はできるだけ早く Github ページに更新されます)。これは RegNetY よりも 0.3% 高い値です。

これらの結果は Vision Mamba (Vim) モデルよりもはるかに高く、VMamba の潜在能力を十分に検証しています。

COCO オブジェクト検出

COOCO データセットでも、VMamba は優れたパフォーマンスを維持しています。12 エポックの微調整後、VMamba-T/S/B はそれぞれ 46.5%/48.2%/48.5% mAP を達成し、Swin-T/S/B を 3.8%/3.6%/1.6% mAP、ConvNeXt-T/S/B を 2.3%/2.8%/1.5% mAP 上回りました。これらの結果は、VMamba が下流の視覚実験で完全に機能し、主流の基本視覚モデルを置き換える可能性を実証していることを証明しています。

ADE20Kセマンティックセグメンテーション

ADE20K でも、VMamba は優れたパフォーマンスを発揮します。 VMamba-T モデルは、512 × 512 解像度で 47.3% mIoU を達成し、ResNet、DeiT、Swin、ConvNeXt を含むすべての競合製品を上回るスコアを達成しました。この利点は、VMamba-S/B モデルでも維持されます。

分析実験

有効受容野

VMamba にはグローバルな有効受容野があり、他のモデルの中では DeiT だけがこの機能を備えています。ただし、DeiT のコストは 2 次複雑度であるのに対し、VMamaba は線形複雑度であることは注目に値します。

入力スケーリング

  • 上図 (a) は、VMamba がさまざまな入力画像サイズで (微調整なしで) 最も安定したパフォーマンスを発揮することを示しています。興味深いことに、入力サイズが 224 × 224 から 384 × 384 に増加すると、VMamba のみがパフォーマンスの明確な上昇傾向を示し (VMamba-S は 83.5% から 84.0% に増加)、入力画像サイズの変化に対する堅牢性が強調されます。
  • 上図(b)は、VMambaシリーズモデルの複雑さは入力が大きくなるにつれて直線的に増加することを示しており、これはCNNモデルと一致しています。

最後に、CNN や ViT と並んで、より多くの Mamba ベースのビジョン モデルが提案され、基本的なビジョン モデルの 3 番目のオプションが提供されることが期待されます。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

古典的な構造から改良された方法まで、ニューラルネットワーク言語モデルのレビュー

自然言語処理 (NLP) システムのコアコンポーネントとして、言語モデルは単語表現と単語シーケンスの...

AIの価値を実現する上での5つの障壁とその克服方法

BCGとガートナーの専門家は、AIの試験はすでに大規模になっているが、導入から価値を引き出すのは依然...

脳卒中の診断と治療を加速させるAIの登場

ディープラーニングは人工知能の一種です。医療分野では、CTスキャン画像を使用して脳の血液供給動脈の閉...

Uber Ludwig は、ローコード機械学習用のオープンソース フレームワークです。

[[330500]] 【51CTO.com クイック翻訳】ディープラーニング モデルのトレーニング...

「アルゴリズム経済」はどのような新しいモデルやトレンドを生み出すのでしょうか?

2000年から10年間の発展を経て、中国のPC時代のインターネットは「交通経済」を生み出しました。...

AIは人間よりもチップ設計をよく理解しているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

消費者のニーズとホテル業界の問題点を洞察し、ShowBaoトラベルフォンはニーズを満たすために生まれました

[51CTO.comからのオリジナル記事] 長年の浮き沈みを経て、今日、スマートホテルは国内外のホテ...

...

...

2023 年の AI セキュリティに関するトップ 10 の話題

生成 AI は 2022 年末までに世界を席巻し、2023 年には AI 分野が脚光を浴びることにな...

今後5年間の15の主要なテクノロジートレンド

私たちの生活、仕事、交流の仕方に革命をもたらす技術の進歩によって、未来は常に形を変えています。今後 ...

Adobeは、より高品質な画像を提供するために、AI生成モデルの新世代であるFirefly Image 2をリリースしました。

アドビは10月11日、先日開催されたAdobe MAXクリエイティブカンファレンスにおいて、同社のA...

AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

[[336650]]驚くべきことに、COVID-19の世界的大流行の中で、フィットネスやエクササイ...

キャッシュに関して最も懸念される問題は何ですか?種類は何ですか?リサイクル戦略とアルゴリズム?

[[342437]]著者は、正確なタイミング タスクと遅延キュー処理機能を備えた、高同時実行シナリ...

マシンビジョンを超えて、ロボット認識完成計画

人工知能の目標の 1 つは、コンピューターが人間の視覚、聴覚、触覚などの知覚能力をシミュレートし、画...