フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

[[398872]]

最近では、多層パーセプトロン (MLP) が CV 分野の重要な研究テーマとなっています。Google、清華大学などの研究者は、MLP と新しい注意メカニズムのみで構築された視覚アーキテクチャを次々と提案しています。これらの研究により、CV 研究の焦点は MLP に向けられました。最近、Facebook は、データ効率の高いトレーニングによる画像分類用の純粋な MLP アーキテクチャである ResMLP を提案しました。最新のトレーニング方法を使用すると、このアーキテクチャは ImageNet データセットで比較的良好なパフォーマンスを実現します。

数日前、Google が提案した MLP-Mixer が CV 界で大騒ぎになりました。畳み込みやアテンション メカニズムは必要なく、MLP のみで CNN や ViT に匹敵するパフォーマンスを実現できます。

同様に、清華大学の Jittor チームは、「外部注意」と呼ばれる新しい注意メカニズムを提案しました。これは、2 つの外部の小さな学習可能な共有メモリに基づいています。これは、既存の一般的な学習アーキテクチャの「自己注意」を、2 つのカスケード線形層と正規化層のみで置き換えることができ、線形層と注意メカニズムの関係をさらに明らかにしました。さらに、清華大学の Ding Guiguang のチームは、MLP を畳み込みネットワークの一般的なコンポーネントとして使用して、複数のタスクのパフォーマンスを向上させました。

MLP->CNN->Transformer->MLP という流れがトレンドになっているようです。

最近、Facebook の研究者は、画像分類用の純粋な多層パーセプトロン (MLP) アーキテクチャである ResMLP (Residual Multi-Layer Perceptron) を提案することで、この傾向をさらに推進しました。

論文リンク: https://arxiv.org/pdf/2105.03404.pdf

アーキテクチャは非常にシンプルです。平坦化された画像パッチを入力として受け取り、それを線形層に投影し、次に 2 つの残差操作 ((i) すべてのチャネルに対して独立した単純な線形パッチ相互作用層、および (ii) すべてのパッチに対して独立した単一の隠し層を持つ MLP) を使用して投影された特徴を更新します。ネットワークの最後では、これらのパッチが平均的にプールされ、線形分類器に送られます。

このアーキテクチャは ViT にヒントを得ていますが、よりシンプルです。いかなる形式の注意メカニズムも使用せず、GELU 非線形アクティベーション関数を備えた線形レイヤーのみが含まれています。このアーキテクチャは、Transformer トレーニングよりも安定しており、特定のバッチまたはクロスチャネル正規化 (Batch-Norm、GroupNorm、LayerNorm など) を必要としません。トレーニング プロセスは基本的に DeiT と CaiT のトレーニング方法を継続します。

ResMLP の線形特性により、モデル内のパッチの相互作用は簡単に視覚化および解釈できます。最初の層で学習された相互作用パターンは小さな畳み込みフィルターと非常に似ていますが、研究者はより深い層のパッチ間のより微妙な相互作用を観察しました。これには、特定の形式の軸フィルターと、ネットワークの初期の長期的な相互作用が含まれます。

建築的アプローチ

ResMLP の具体的なアーキテクチャは、以下の図 1 に示されており、パス平坦化構造を採用しています。

全体的なプロセス

ResMLP は、N×N の重複しないパッチのグリッドを入力として受け取ります。ここで、N は通常 16 です。これらの重複しないパッチは、独立して線形層を通過し、N^2 d 次元埋め込みを形成します。次に、生成された N^2 d 次元埋め込みが残差 MLP レイヤーのシーケンスに入力され、N^2 d 次元出力埋め込みが生成されます。これらの出力埋め込みは、画像を表す d 次元ベクトルに再び平均化され、線形分類器に送られて、画像に関連付けられたラベルを予測します。トレーニングではクロスエントロピー損失が使用されます。

残留マルチセンサー層

ネットワーク シーケンス内のすべてのレイヤーは、線形サブレイヤー + フィードフォワード サブレイヤーという同じ構造を持ちます。 Transformer レイヤーと同様に、各サブレイヤーはスキップ接続で並列化されます。研究者らは、式(1)のアフィン変換を用いると、層の正規化がなくても訓練が安定するため、層の正規化を使用しなかった。

研究者らは、残差ブロックごとに 2 つのアフィン変換を使用しました。事前正規化として、Aff はレイヤー正規化を置き換え、チャネルごとの統計を使用しなくなりました。残差ブロックの後処理として、Affはレイヤースケーリング(LayerScale)を実装しており、後正規化中に[50]と同じ小さな値の初期化を使用することができます。両方の変換は推論時に線形レイヤーに統合されます。

さらに、研究者らはフィードフォワードサブレイヤーにTransformerと同じ構造を採用し、ReLU非線形性の代わりにGELU関数のみを使用しました。

Transformerレイヤーとの主な違いは、研究者が自己注意を次の式(2)で定義される線形相互作用に置き換えた点である。

ViTとの関係

ResMLP は ViT モデルを大幅に簡略化したものですが、次のような違いがあります。

  • ResMLP は自己注意ブロックを使用せず、非線形性を備えた線形パッチ相互作用層を使用します。
  • ResMLP は追加の「クラス」トークンを使用せず、代わりに平均プーリングのみを使用します。
  • ResMLP は位置埋め込みを一切使用しません。これは、パッチ間の線形通信モジュールがパッチの位置を考慮するため必要ありません。
  • ResMLP はプレレイヤー正規化を採用せず、代わりに単純な学習可能なアフィン変換を使用するため、バッチレベルおよびチャネルレベルの統計を一切使用しません。

実験結果

研究者らは、1,000 個のオブジェクト カテゴリに均等に分散された 120 万枚の画像を含む ImageNet-1k データセットでモデルをトレーニングしました。彼らは実験で、教師あり学習と知識蒸留という 2 つのトレーニング パラダイムを採用しました。

まず、研究者らは、教師あり学習フレームワークにおいて ResMLP を Transformer および convnet と比較しました。下の表 1 に示すように、ResMLP は比較的良好な Top-1 精度を達成しました。

次に、知識蒸留を使用してモデルの収束性を改善します。結果を以下の表 2 に示します。 DeiT モデルと同様に、ResMLP は convnet 蒸留から大きなメリットを得ることができます。

実験では、転移学習における ResMLP のパフォーマンスも評価します。以下の表 3 は、さまざまな画像ベンチマークにおけるさまざまなネットワーク アーキテクチャのパフォーマンスを示しています。使用されたデータセットは、CIFAR-10、CIFAR100、Flowers-1022、Stanford Cars、iNaturalist です。

重量スパース性の測定も研究者の関心事の一つです。下の図 2 の ResMLP-24 の線形層の視覚化は、線形通信層がスパースであることを示しており、より詳細な定量分析は下の図 3 に示されています。結果は、3 つのマトリックスすべてがスパースであり、パッチ通信を実装するレイヤーは大幅にスパースであることを示しています。

最後に、研究者らは MLP の過剰適合制御を調査し、下の図 4 の制御実験における一般化の問題を調査しました。

<<:  自動運転競争が熱を帯び、実用化への道が始まろうとしている

>>:  ドローンを使って「国勢調査」を実施?人だけでなく動物も!

ブログ    
ブログ    

推薦する

スマートヘルスケアが業界のトレンドをリード、AI無人薬局の導入が加速

スマート医療産業の急速な発展は、多くの患者に恩恵をもたらしています。伝統的な医療業界をアップグレード...

インテリジェント アシスタントが、設計から運用、保守まで、ソフトウェア開発プロセス全体を処理します。

設計、コーディングからテスト、導入、運用・保守まで、ソフトウェア開発の全プロセスをAIに任せることが...

孔俊:中国は人工知能の軍事応用を規制する措置を講じている

2021年8月29日、カブールの空に大きな爆発音が響き、米軍の無人機が7人の子供を含む10人の罪のな...

...

...

iQIYI機械学習プラットフォーム構築実践

機械学習プラットフォームを構築する以前、iQiyi にはすでに比較的成熟したディープラーニング プラ...

...

初心者に適した機械学習アルゴリズムの選び方

この記事の主な対象読者は、機械学習の愛好家やデータサイエンスの初心者、そして機械学習アルゴリズムを学...

Appleは、インダストリー4.0の発展を加速するために韓国で初の中小企業スマート製造フォーラムを開催した。

Appleの技術と製品は現在、製造業で広く利用されています。同社は最近、アジア太平洋地域の製造チェ...

生成型人工知能とは何かについて話しましょう

ジェネレーティブ AI は、これまでビジネス パーソンに依存していたモデルをアルゴリズム担当者が生成...

機械学習アルゴリズムを使用して「実験室地震」を予測するにはどうすればよいでしょうか?

[[186458]]機械学習アルゴリズムが「実験室の地震」を予測できるという事実は、間違いなく画期...

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか? Redditの男の魂を問う質問が白熱した議論を巻き起こす

シリコンバレーの大企業からのオファーは多くのプログラマーにとって依然として非常に魅力的であり、今年は...

冬季オリンピックのテストマッチ、副審はAIだったことが判明

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

台風を恐れる必要はありません。人工知能はすでに私たち自身と敵を理解するのに役立っています。

以前、河南省鄭州市は「花火」がもたらした大雨により洪水災害に見舞われた。こうした背景から、「花火」の...

AIは50個の三角形を使って、ポストモダンな雰囲気を持つモナリザの抽象版を描きます

[[425382]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...