追加データなしで、ImageNetで初めて87.1%の精度を達成した。Yan ShuichengのチームはVOLOをオープンソース化した。

追加データなしで、ImageNetで初めて87.1%の精度を達成した。Yan ShuichengのチームはVOLOをオープンソース化した。

[[407987]]

過去 10 年間、コンピューター ビジョン認識タスクは畳み込みニューラル ネットワーク (CNN) によって支配されてきました。最近人気のビジュアル トランスフォーマーは、自己注意ベースのモデルで大きな可能性を示していますが、ImageNet の分類タスクなど、追加データが提供されない場合は、最新の SOTA CNN よりもパフォーマンスが低下します。現在、追加のデータセットがない場合でも、ImageNet で最高のパフォーマンスを達成しているのは、Google DeepMind が提案した NFNet (Normalizer-Free Network) です。

ImageNet 分類パフォーマンスのリアルタイムランキング (追加データセットなし)、出典: https://paperswithcode.com/

Cityscapes 検証リアルタイムランキング、出典: https://paperswithcode.com/

最近発表された論文では、シンガポールの Sea Group の子会社である Sea AI Lab (SAIL) の Shuicheng Yan 教授が率いるチームが、高性能視覚認識タスク向けの新しいディープラーニング ネットワーク モデル構造である Vision Outlooker (VOLO) を提案しました。これは、追加データを使用せずに、ImageNet の画像分類タスクで 87.1% の精度目標を達成するシンプルで汎用的な構造です。同時に、セグメンテーション データセット CityScapes Validation で 84.3% のパフォーマンスを達成し、ImageNet-1K 分類タスクと CityScapes セグメンテーション タスクの 2 つの新記録を樹立しました。

VOLO モデルと SOTA CNN モデル (NFNet) および Transformer モデル (CaiT) の ImageNet トップ 1 精度の比較。 VOLO-D5 は、パラメータ数が少ないにもかかわらず、CaiT-M48 や NFNet-F6 よりも優れたパフォーマンスを発揮し、追加のトレーニング データを使用せずに初めて 87% を超えるトップ 1 精度を達成しました。

Yan Shuicheng教授は、Transformerに代表される「グラフ表現+注意伝播」は、その柔軟性と普遍性により、さまざまな分野で統一されたフレームワークになる可能性を示していると考えています。VOLOアルゴリズムは、注意メカニズムが視野の分野でもCNNを上回ることができることを示しており、さまざまな分野でのモデル統一の実現可能性を証明しています。

  • 論文アドレス: https://arxiv.org/pdf/2106.13112.pdf
  • GitHub アドレス: https://github.com/sail-sg/volo

方法の概要

この研究の目的は、パフォーマンスのギャップを縮小し、追加データなしで注意ベースのモデルが CNN よりも優れていることを実証することです。

具体的には、画像分類における自己注意モデルのパフォーマンスを制限する主な要因は、細かいレベルの特徴をトークン表現にエンコードする際の非効率性であることがわかりました。

この問題に対処するために、著者らは新しい展望の注目点を提案し、シンプルで汎用的なアーキテクチャである Vision OutLOoker (VOLO) を提案します。

大まかなグローバル依存関係のモデル化に重点を置くセルフアテンションとは異なり、アウトルックアテンションは、認識パフォーマンスに重要であるものの、セルフアテンションではほとんど無視される、より細かい特徴とコンテキストをトークンに効率的にエンコードすることを目的としています。

アウトルックア

VOLO フレームワークは 2 つのステージに分かれており、2 つの大きなブロックで構成されています。

  • 最初のステージは、細かいレベルでデータ表現を生成するように設計された複数の層のアウトルックアで構成されます。
  • 第 2 段階では、一連のトランスフォーマー レイヤーを展開して、グローバル情報を集約します。各ステージの開始時に、パッチ埋め込みモジュールを使用して、入力を対応するサイズのデータ​​表現にマッピングします。

最初のステージは、複数の Outlooker レイヤーで構成されます。Outlooker は、この論文で提案された特別な注意レイヤーです。Outlooker の各レイヤーは、Outlook 注意レイヤーと MLP で構成されます。以下は、Outlooker レイヤーの実装です。

その中でも、コアとなる操作は、次の図に示すように Outlook の注目点です。

具体的には、Outlook Attentionの動作は次のようになります。

一般的に、Outlook Attention には次のような利点があります。

  • 複雑度が低い: 通常の自己注意の時間複雑度は O(H^2xW^2) ですが、Outlook 注意は O(HW x k2 x k2)=O(HW x k4) で、ウィンドウ サイズ k は通常 3 または 5 で、画像サイズ H および W よりもはるかに小さくなります。したがって、より高い解像度(例:28x28トークン)の特徴マップにも使用でき、ViTを改善する効果的な方法です。
  • ローカル詳細のより優れたモデリング: セマンティックセグメンテーションなどの下流のビジョンアプリケーションに適しています。
  • キーとクエリは不要: Outlook の注意にはキーとクエリはありません。注意マップは、MatMul(Query, Key) を削除して線形に直接生成できるため、計算を節約できます。
  • 柔軟性: 自己注意を備えたハイブリッド ネットワークを簡単に構築できます。

著者は、次に示すように、Outlook アテンション実装用の疑似コードも提供しています。

この研究では、提案された Outlooker と従来の Transformer に基づいて、VOLO アーキテクチャを提案しました。これには、小さいものから大きいものまで VOLO-D1 から D5 までの 5 つのサイズのバリエーションも含まれています。アーキテクチャを下の図に示します。

実験

研究者らは、トレーニング段階で追加のトレーニングデータを使用せずに、ImageNet データセットで VOLO を評価し、トークン ラベリングを備えた LV-ViT-S モデルをベースラインとして使用しました。彼らは、デュアルノード マシンでトレーニングする必要がある VOLO-D5 を除き、すべての VOLO モデルを 8 基の NVIDIA V100 または A100 GPU を搭載したシングルノード マシンでトレーニングします。

V0LO-D1~VOLO-D5モデルの設定を以下の表3に示します。

主な結果

以下の表 4 では、研究者が VOLO モデルと SOTA モデルを比較しています。すべての結果は、追加のトレーニング データを使用しない純粋な ImageNet-1k データセットに基づいています。結果は、VOLO モデルが CNN や Transformer などの以前の SOTA モデルよりも優れていることを示しています。

具体的には、本研究では、提案手法の画像分類とセグメンテーションの有効性を検証しました。下図は、ImageNet での VOLO の実験結果を示しています。わずか2700 万個のパラメータで、VOLO-D1 は 85.2% の精度を達成でき、これまでのすべてのモデルをはるかに上回っていることがわかります。同時に、VOLO-D5 は 87.1% の精度を達成しました。これは、追加データセットなしの ImageNet で現在最高の結果であり、以前の SOTA モデル NFNet-F6 よりも 0.5% 以上高い結果です。

Outlooker のパフォーマンス

研究者らは、最新の SOTA ビジュアル トランスフォーマー モデル LV-ViT-S をベースラインとして使用し、VOLO モデルにおける Outlooker の重要性を実証しました。 LV-ViT-SモデルとVOLO-D1モデルの実験設定と対応する結果を表5に示します。

研究者らは Outlooker をローカル自己注意および空間畳み込みと比較し、その結果を以下の表 6 に示します。結果は、Outlooker が同じトレーニング方法とアーキテクチャでローカル自己注意と空間畳み込みよりも優れていることを示しています。

アブレーション実験

研究者らは、VOLO-D1 モデルを VOLO-D2 から VOLO-D5 までの 4 つの異なるモデルに拡張しました。具体的な仕様は上記の表 2 に示されており、対応する結果は下の表 7 に示されています。結果は、VOLO モデルでは、トレーニング モデルのサイズとテスト解像度の両方を増やすとパフォーマンスが向上することを示しています。

研究者らはまた、VOLO モデル内の Outlooker の数が分類のパフォーマンスに影響を与えることも発見しました。以下の表 8 では、研究者は VOLO モデルにおける Outlooker の数の違いによる影響を示しています。

結果は、Outlooker を使用せずに、16 個のトランスフォーマーを備えたベースライン モデルが 83.3% の精度を達成することを示しています。 Outlooker の数を増やすと精度は向上しますが、Outlooker を 4 つ使用するとパフォーマンスが飽和状態になり、数を増やしてもパフォーマンスは向上しません。

下流のセマンティックセグメンテーションタスクのパフォーマンス

同時に、このフレームワークは下流のタスクでも大きな改善を達成しました。たとえば、セマンティックセグメンテーションタスクでは、VOLO-d4 は CityScapes で 84.3 mIoU、ADE20k で 54.3 mIoU を達成しました。

全体として、実験では、VOLO が ImageNet-1K 分類で 87.1% のトップ 1 精度を達成することが示されました。これは、追加のデータセットなしで ImageNet で 87% の精度を超えた最初のモデルです。

同時に、このフレームワークはセマンティックセグメンテーションなどの下流タスクにも使用され、Cityscapes および ADE20k で非常に高いパフォーマンスを達成しています。VOLO-D5 モデルは Cityscapes で 84.3% mIoU を達成し、現在 Cityscapes 検証で 1 位にランクされています。

作品概要

この研究では、新しい視覚モデルを提案し、SOTA の結果を達成しました。初めて、追加のデータセットなしで、注意主導型モデルが CNN 主導型モデルの精度を上回りました。視覚的注意の重要性を示すとともに、研究コミュニティに新しいモデル フレームワークとトレーニング戦略も紹介しています。

<<:  9つの一般的な畳み込みニューラルネットワークの紹介

>>:  人工知能はスポーツや芸術教育における革新的な発展をどのように促進できるのでしょうか?

ブログ    
ブログ    

推薦する

無料の Python 機械学習コース パート 2: 多重線形回帰

Python で任意の数の変数に対する多重線形回帰をゼロから開発する方法を学びます。線形回帰はおそら...

スマート街灯は明るく光るが、スマート街灯柱には隠された秘密があることが判明

[51CTO.comよりオリジナル記事] 近年、都市化の急速な発展に伴い、中国の都市の街灯の数はます...

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

推奨アルゴリズム集(パート1) - 協調フィルタリングアルゴリズム

【51CTO.comオリジナル記事】 1. ロングテール効果?動物の尻尾と関係があるのでしょうか?前...

DeepXplore: 現実世界のディープラーニングシステムを体系的にテストするための初のホワイトボックスフレームワーク

ヨアヴ・ホランダーマシンハートが編集参加者: ウー・パン、ヤン・チー5月に、コロンビア大学とリーハイ...

IT サービス管理における 3 つの主要な NLP 使用例

[[421132]] [51CTO.com クイック翻訳]自然言語処理 (NLP) は、機械学習の専...

...

人工知能の世界における機械学習とディープラーニング

人工知能(AI)はAIと略されます。 AI は、機械に知能を持たせ、人間のように特定の問題を解決する...

清華大学とハルビン工業大学は大規模なモデルを 1 ビットに圧縮し、携帯電話で大規模なモデルを実行するという夢が実現しつつあります。

ビッグモデルが普及して以来、ビッグモデルを圧縮したいという人々の欲求は減ることはありません。大規模モ...

...

Facebookのスマートスピーカー「フィオナ」と「アロハ」が今月下旬に発売される

Facebookは、現在FionaとAlohaというコードネームがつけられている2つのスマートスピー...

人工知能の台頭でIT業界やその他の分野は失業の波に直面するかもしれない

[[237676]]画像ソース @Visual China以前、「AI従業員の最初の一団が解雇された...

442人の著者による100ページの論文! Googleは2年かけて大規模モデル向けの新しいベンチマーク「BIG-Bench」をリリースした。

1 件の AI 論文、442 人の著者。著者の貢献のために特別な章も設けられています。 100ペー...