Yan Shuicheng氏は、Transformerのパワーがそのアーキテクチャから生まれることを証明する「恥ずかしいほどシンプルな」モデルを公開した。

Yan Shuicheng氏は、Transformerのパワーがそのアーキテクチャから生まれることを証明する「恥ずかしいほどシンプルな」モデルを公開した。

[[436637]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

トランスフォーマーはビジョンにおいて大きな成功を収め、その主要な派生型は頻繁にチャートのトップにランクインしています。最も強いのはどれでしょうか?

初期の頃は、注意メカニズムが最も大きな貢献をしたと考えられており、注意モジュールに多くの改良が加えられました。

その後の研究では、注意を空間 MLPに置き換えることもうまく機能し、フーリエ変換モジュールを使用してもパフォーマンスの 97% を維持できることがわかりました。

論争の真っ只中、ヤン・シュイチェン氏のチームによる最新の論文は、異なる見解を示している。

実際、これらの特定のモジュールは重要ではありません。Transformer の成功は、全体的なアーキテクチャによるものです。

彼らは、Transformer の attention モジュールを単純な空間プーリング演算子に置き換え、新しいモデルをPoolFormerと名付けました。

ここでの元の発言は非常に興味深いです。「恥ずかしいほど単純です」...

テスト結果では、PoolFormer は ImageNet-1K で82.1% のトップ 1 精度を達成しました。

(PyTorch バージョンのコードは論文とともに GitHub で公開されており、アドレスはこのツイートの最後で入手できます。)

同じパラメータ サイズの場合、単純なプーリング モデルは、アテンション (DeiT など) または MLP モジュール (ResMLP など) を使用した適切に調整されたモデルよりも優れています。

この結果を見て、見ていた CV ユーザーの中にはびっくりする人もいました。

とても興味があるのですが、モデルが恥ずかしくなるにはどれくらいシンプルである必要があるのでしょうか?

プールフォーマー

全体的な構造は他のモデルと似ていますが、PoolFormer ではトークン ミキサー部分のみが変更されています。

主な目的は視覚タスクの検証であるため、入力データの形式はチャネルファーストであると想定し、プーリング演算子は次のように記述されます。

PyTorch スタイルの疑似コードはおそらく次のようになります。

プーリング演算子の複雑さは、自己注意や空間 MLP よりも小さく、処理されるシーケンスの長さに線形に関係します。

学習可能なパラメータがないため、従来の CNN と同様の段階的なアプローチを使用してパフォーマンスを最大限に活用できます。このモデルは4 つのステージに分かれています。

合計で L 個の PoolFormer ブロックがあると仮定すると、4 つのステージは L/6、L/6、L/2、および L/6 として割り当てられます。

各ステージの具体的なパラメータは次のとおりです。

PoolFormer の基本を紹介したので、他のモデルとパフォーマンスを比較してみましょう。

1 つ目は画像分類タスクです。比較モデルは 3 つのカテゴリに分かれています。

  • CNN モデル ResNet と RegNetY
  • 注意モジュールを使用した ViT、DeiT、PVT
  • MLP-Mixer、ResMLP、Swin-Mixer、および空間MLPを使用したgMLP

ImageNet-1K では、PoolFormer は累積乗算加算演算 (MAC) とパラメータ サイズの両方において、同様のサイズの他のモデルよりも優れています。

COCO データセットは、ターゲット検出インスタンス セグメンテーションのタスクに使用されました。両方のタスクにおいて、PoolFormer はより少ないパラメータで ResNet よりも高いパフォーマンスを達成しました。

△ターゲット検出

△インスタンスセグメンテーション

最後に、ADE20Kセマンティック セグメンテーションタスクでは、PoolFormer は ResNet、ResNeXt、PVT よりも優れたパフォーマンスを発揮しました。

アブレーション実験

上記のように、PoolFormer はいくつかの主要な視覚タスクで競争力のある結果を達成しました。

しかし、これは本論文の冒頭で述べた点を裏付けるには不十分です。

全体的なアーキテクチャは重要ですか?それとも、PoolFormer のプーリング モジュールは、シンプルだが効果的なトークン ミキサーなのでしょうか?

チームの検証方法は、プーリング モジュールをアイデンティティ マッピングに直接置き換えることです。

結果は驚くべきもので、置換後、ImageNet-1K では 74.3% の Top-1 精度が維持されました。

これを踏まえると、プーリングカーネルのサイズ正規化方法、および活性化関数を変更してもほとんど影響はありません。

最も重要なのは、4 つのステージで注意や空間完全接続層などのメカニズムを混合しても、パフォーマンスに大きな影響を与えないことです。

特に、最初の 2 つのステージでのプーリングと最後の 2 つのステージでの注意の組み合わせが優れたパフォーマンスを発揮することが観察されています。

この構成では、スケールをわずかに増やすだけで 81% の精度を達成できます。比較すると、ResMLP-B24 モデルでは、同じパフォーマンスを実現するために、パラメーター スケールを 7 倍、累積乗算と加算を 8.5 倍必要とします。

最後に、アブレーション実験の結果は、Transformer のトークン ミキサー部分に関しては、使用される特定の方法は重要ではないことを示しています。

モデルのサイズを大きくせずにパフォーマンスを向上させるには、ネットワークの全体的な構造が最も重要です。

この全体的な構造はチームによって改良され、 MetaFormerと名付けられました。

NLP でもそれは当てはまるでしょうか?

この研究は、ヤン・シュイチェン氏が率いるSea AI Labとシンガポール国立大学のメンバーによって実施された。

[[436639]]

△ ヤン・シュイチェン

論文の最後で、研究チームは次の研究の方向性として、自己教師学習や転移学習など、より多くのシナリオで検証を続けることを挙げた。

視覚的なタスクに加えて、結論が NLP タスクにも有効かどうかを確認する必要があります。

この論文を発表するもう一つの目的があります。

私たちは、特定のモジュールを磨くことに多くのエネルギーを費やすのではなく、モデルの基本構造を最適化することに研究を集中するよう皆様に呼びかけます。

論文の宛先:
https://arxiv.org/abs/2111.11418

GitHub リポジトリ:
https://github.com/sail-sg/poolformer

<<:  Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる

>>:  AIと拡張現実が職場でどのように進化しているか

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2040枚の画像で訓練されたViTの精度は96.7%で、移行パフォーマンスも驚異的だ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

李開復「2021年を予測」:4つの主要分野が前例のない発展の機会をもたらす

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

新素材の画期的な進歩、AIの医療への参入…2021年はどんな新しい技術トレンドを迎えるのでしょうか?

2020年も終わりに近づいていますが、疫病は科学技術の進歩を止めることはなく、量子コンピューティン...

世界をリセットし、すべてをつなげる5Gは人工知能にどんな機会と課題をもたらすのか

[[274397]] 5G時代は人工知能にどのような新たな機会をもたらすのでしょうか?人工知能と5G...

物流と輸送における人工知能の将来的な役割

大手物流組織はすでに配送に人工知能 (AI) を活用しています。現在、多くの企業がこのデータを収集し...

皇帝の側室選定と推薦アルゴリズムの仕組み

[[393467]]この記事はWeChatの公開アカウント「Shu Shixiong」から転載したも...

AIの受賞作品の著作権申請が却下されました!著者は624のヒントを与えている

初めて受賞した AI 絵画「スペースオペラ」を覚えていますか?最近また注目を浴びているのが――著者の...

庚子の年に流行したAIアプリのレビュー

2020年にはAIがより広く活用されるようになるでしょう。最先端の新興産業を開拓すると同時に、伝統的...

チャットボットについては長い間話されてきましたが、良いチャットボットとはどのように定義されるのでしょうか?

なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...

GoogleのオープンソースビッグモデルGemmaは何をもたらすのか?「Made in China」のチャンスはすでに到来していることが判明

Google の珍しいオープン AI は、オープンソースのビッグモデルに何をもたらすのでしょうか? ...

アルゴリズム | ダブルポインタはリンクリストを破る優れた魔法の武器です

今は少し理解できました。面接の過程で、面接官が私たちにコードを手書きで書くように頼むことがあります。...

データセンターから発電所まで: 人工知能がエネルギー利用に与える影響

人工知能 (AI) は急速に現代生活に欠かせないものとなり、産業を変革し、私たちの生活、仕事、コミュ...

...

インテリジェントオートメーションの台頭:デジタル時代のAI、ロボット工学、製造業

人工知能 (AI)、ロボット工学、自動化の融合により、生産性、効率性、革新の新しい時代が到来していま...