最近では、多層パーセプトロン (MLP) が CV 分野の重要な研究テーマとなっています。Google、清華大学などの研究者は、MLP と新しい注意メカニズムのみで構築された視覚アーキテクチャを次々と提案しています。これらの研究により、CV 研究の焦点は MLP に向けられました。最近、Facebook は、データ効率の高いトレーニングによる画像分類用の純粋な MLP アーキテクチャである ResMLP を提案しました。最新のトレーニング方法を使用すると、このアーキテクチャは ImageNet データセットで比較的良好なパフォーマンスを実現します。 数日前、Google が提案した MLP-Mixer が CV 界で大騒ぎになりました。畳み込みやアテンション メカニズムは必要なく、MLP のみで CNN や ViT に匹敵するパフォーマンスを実現できます。 同様に、清華大学の Jittor チームは、「外部注意」と呼ばれる新しい注意メカニズムを提案しました。これは、2 つの外部の小さな学習可能な共有メモリに基づいています。これは、既存の一般的な学習アーキテクチャの「自己注意」を、2 つのカスケード線形層と正規化層のみで置き換えることができ、線形層と注意メカニズムの関係をさらに明らかにしました。さらに、清華大学の Ding Guiguang のチームは、MLP を畳み込みネットワークの一般的なコンポーネントとして使用して、複数のタスクのパフォーマンスを向上させました。 MLP->CNN->Transformer->MLP という流れがトレンドになっているようです。 最近、Facebook の研究者は、画像分類用の純粋な多層パーセプトロン (MLP) アーキテクチャである ResMLP (Residual Multi-Layer Perceptron) を提案することで、この傾向をさらに推進しました。 論文リンク: https://arxiv.org/pdf/2105.03404.pdf アーキテクチャは非常にシンプルです。平坦化された画像パッチを入力として受け取り、それを線形層に投影し、次に 2 つの残差操作 ((i) すべてのチャネルに対して独立した単純な線形パッチ相互作用層、および (ii) すべてのパッチに対して独立した単一の隠し層を持つ MLP) を使用して投影された特徴を更新します。ネットワークの最後では、これらのパッチが平均的にプールされ、線形分類器に送られます。 このアーキテクチャは ViT にヒントを得ていますが、よりシンプルです。いかなる形式の注意メカニズムも使用せず、GELU 非線形アクティベーション関数を備えた線形レイヤーのみが含まれています。このアーキテクチャは、Transformer トレーニングよりも安定しており、特定のバッチまたはクロスチャネル正規化 (Batch-Norm、GroupNorm、LayerNorm など) を必要としません。トレーニング プロセスは基本的に DeiT と CaiT のトレーニング方法を継続します。 ResMLP の線形特性により、モデル内のパッチの相互作用は簡単に視覚化および解釈できます。最初の層で学習された相互作用パターンは小さな畳み込みフィルターと非常に似ていますが、研究者はより深い層のパッチ間のより微妙な相互作用を観察しました。これには、特定の形式の軸フィルターと、ネットワークの初期の長期的な相互作用が含まれます。 建築的アプローチResMLP の具体的なアーキテクチャは、以下の図 1 に示されており、パス平坦化構造を採用しています。 全体的なプロセスResMLP は、N×N の重複しないパッチのグリッドを入力として受け取ります。ここで、N は通常 16 です。これらの重複しないパッチは、独立して線形層を通過し、N^2 d 次元埋め込みを形成します。次に、生成された N^2 d 次元埋め込みが残差 MLP レイヤーのシーケンスに入力され、N^2 d 次元出力埋め込みが生成されます。これらの出力埋め込みは、画像を表す d 次元ベクトルに再び平均化され、線形分類器に送られて、画像に関連付けられたラベルを予測します。トレーニングではクロスエントロピー損失が使用されます。 残留マルチセンサー層 ネットワーク シーケンス内のすべてのレイヤーは、線形サブレイヤー + フィードフォワード サブレイヤーという同じ構造を持ちます。 Transformer レイヤーと同様に、各サブレイヤーはスキップ接続で並列化されます。研究者らは、式(1)のアフィン変換を用いると、層の正規化がなくても訓練が安定するため、層の正規化を使用しなかった。 研究者らは、残差ブロックごとに 2 つのアフィン変換を使用しました。事前正規化として、Aff はレイヤー正規化を置き換え、チャネルごとの統計を使用しなくなりました。残差ブロックの後処理として、Affはレイヤースケーリング(LayerScale)を実装しており、後正規化中に[50]と同じ小さな値の初期化を使用することができます。両方の変換は推論時に線形レイヤーに統合されます。 さらに、研究者らはフィードフォワードサブレイヤーにTransformerと同じ構造を採用し、ReLU非線形性の代わりにGELU関数のみを使用しました。 Transformerレイヤーとの主な違いは、研究者が自己注意を次の式(2)で定義される線形相互作用に置き換えた点である。 ViTとの関係ResMLP は ViT モデルを大幅に簡略化したものですが、次のような違いがあります。
実験結果研究者らは、1,000 個のオブジェクト カテゴリに均等に分散された 120 万枚の画像を含む ImageNet-1k データセットでモデルをトレーニングしました。彼らは実験で、教師あり学習と知識蒸留という 2 つのトレーニング パラダイムを採用しました。 まず、研究者らは、教師あり学習フレームワークにおいて ResMLP を Transformer および convnet と比較しました。下の表 1 に示すように、ResMLP は比較的良好な Top-1 精度を達成しました。 次に、知識蒸留を使用してモデルの収束性を改善します。結果を以下の表 2 に示します。 DeiT モデルと同様に、ResMLP は convnet 蒸留から大きなメリットを得ることができます。 実験では、転移学習における ResMLP のパフォーマンスも評価します。以下の表 3 は、さまざまな画像ベンチマークにおけるさまざまなネットワーク アーキテクチャのパフォーマンスを示しています。使用されたデータセットは、CIFAR-10、CIFAR100、Flowers-1022、Stanford Cars、iNaturalist です。 重量スパース性の測定も研究者の関心事の一つです。下の図 2 の ResMLP-24 の線形層の視覚化は、線形通信層がスパースであることを示しており、より詳細な定量分析は下の図 3 に示されています。結果は、3 つのマトリックスすべてがスパースであり、パッチ通信を実装するレイヤーは大幅にスパースであることを示しています。 最後に、研究者らは MLP の過剰適合制御を調査し、下の図 4 の制御実験における一般化の問題を調査しました。 |
<<: 自動運転競争が熱を帯び、実用化への道が始まろうとしている
>>: ドローンを使って「国勢調査」を実施?人だけでなく動物も!
スマート医療産業の急速な発展は、多くの患者に恩恵をもたらしています。伝統的な医療業界をアップグレード...
設計、コーディングからテスト、導入、運用・保守まで、ソフトウェア開発の全プロセスをAIに任せることが...
2021年8月29日、カブールの空に大きな爆発音が響き、米軍の無人機が7人の子供を含む10人の罪のな...
機械学習プラットフォームを構築する以前、iQiyi にはすでに比較的成熟したディープラーニング プラ...
この記事の主な対象読者は、機械学習の愛好家やデータサイエンスの初心者、そして機械学習アルゴリズムを学...
Appleの技術と製品は現在、製造業で広く利用されています。同社は最近、アジア太平洋地域の製造チェ...
ジェネレーティブ AI は、これまでビジネス パーソンに依存していたモデルをアルゴリズム担当者が生成...
[[186458]]機械学習アルゴリズムが「実験室の地震」を予測できるという事実は、間違いなく画期...
シリコンバレーの大企業からのオファーは多くのプログラマーにとって依然として非常に魅力的であり、今年は...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
以前、河南省鄭州市は「花火」がもたらした大雨により洪水災害に見舞われた。こうした背景から、「花火」の...
[[425382]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...