FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

[[411034]]

AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に、モデルがより少ないデータからより一般的なソリューションを学習できるようにするために、帰納的バイアスと呼ばれる特定の一連の仮定を使用することが多いです。過去 10 年間のディープラーニングの大きな成功は、強い帰納的バイアスに一部起因しています。その畳み込みアーキテクチャは、視覚タスクで非常に効果的であることが証明されています。強い帰納的バイアスにより、サンプル効率の高い学習が可能になりますが、パフォーマンスの上限が低くなる可能性が伴います。 Visual Transformer (ViT など) は、より柔軟な自己注意レイヤーに依存しており、最近ではいくつかの画像分類タスクで CNN を上回りましたが、ViT ではサンプルに対する需要がより高くなります。

Facebook の研究者は、広く使用されている 2 つの AI アーキテクチャである畳み込みニューラルネットワーク (CNN) と Transformer を組み合わせた、ConViT と呼ばれる新しいコンピュータービジョンモデルを提案しました。このモデルは、それぞれの長所を活用し、CNN と Transformer 自体のいくつかの制限を克服します。同時に、両方のアーキテクチャの利点を活用することで、このビジュアル Transformer ベースのモデルは、特に小規模データの場合には既存のアーキテクチャよりも優れたパフォーマンスを発揮し、大規模データの場合にも同様の優れたパフォーマンスを実現します。

論文アドレス: https://arxiv.org/pdf/2103.10697.pdf
GitHub アドレス: https://github.com/facebookresearch/convit

視覚タスクで非常に成功している CNN は、アーキテクチャ自体に組み込まれた 2 つの誘導バイアスに依存しています。ローカル相関 (近くのピクセルは相関関係にある) と重み共有 (画像の異なる部分は、その絶対位置に関係なく、同じように扱われる必要がある) です。

対照的に、DeiT や DETR などの自己注意ベースの視覚モデルは、誘導バイアスを最小限に抑えます。大規模なデータセットでトレーニングした場合、これらのモデルは CNN と同等かそれ以上のパフォーマンスを発揮することが示されています。しかし、小さなデータセットでトレーニングすると、意味のある表現を学習するのが困難になることがよくあります。

ここではトレードオフがあります。CNN の強い帰納的バイアスにより、データが非常に少ない場合でも高いパフォーマンスが得られますが、データが多い場合は、これらの帰納的バイアスによってモデルが制限される可能性があります。対照的に、Transformer は誘導バイアスが最も小さく、小規模なデータ設定では制限があることを示していますが、同時にこの柔軟性により、Transformer はビッグデータで CNN を上回るパフォーマンスを発揮します。

このため、Facebook が提案した ConViT モデルはソフト畳み込み誘導バイアスで初期化され、必要に応じてこれらのバイアスを無視するようにモデルが学習できます。

ソフト誘導バイアスは、モデルが制約なしに学習するのに役立ちます。 CNN のアーキテクチャ上の制約などのハードな帰納的バイアスは、学習のサンプル効率を大幅に向上させることができますが、データセットのサイズが不確実な場合は制約になる可能性があります。 ConViT のソフト誘導バイアスは、モデルの制約を避けるために必要ない場合は無視できます。

ConViTの仕組み

ConViT は、ソフト畳み込み誘導バイアスを利用してネットワークが畳み込み演算を実行するように促す Vision Transformer の適応版です。最も重要なのは、ConViT により、畳み込みを保持するかどうかをモデルが自ら決定できるようになることです。このソフトな誘導バイアスを利用するために、研究者らは、ゲーテッド位置自己注意 (GPSA) と呼ばれる位置自己注意の形式を導入しました。このモデルのゲーティングパラメーターラムダは、コンテンツベースの自己注意と畳み込み初期化位置自己注意のバランスを取るために使用されます。

上の図に示すように、ConViT (左) は、ViT に基づいて、一部の自己注意 (SA) レイヤーをゲート位置自己注意レイヤー (GPSA、右) に置き換えます。 GPSA レイヤーには位置情報が含まれるため、クラストークンは最後の GPSA レイヤーの後の非表示表現に関連付けられます。

GPSA レイヤーを追加することで、ConViT は昨年 Facebook が提案した DeiT モデルよりも優れたパフォーマンスを発揮します。たとえば、ConViT-S+ のパフォーマンスは DeiT-B よりもわずかに優れています (82.2% 対 81.8%)。一方、ConViT-S+ は DeiT-B の約半分の数のパラメータしか使用しません (48M 対 86M)。 ConViT の最大の改善点は、ソフト畳み込み誘導バイアスが限られたデータ範囲内で重要な役割を果たすことです。たとえば、トレーニングデータの 5% のみを使用する場合、ConViT は DeiT よりも大幅に優れたパフォーマンスを発揮します (47.8% 対 34.8%)。

さらに、ConViT はサンプル効率とパラメータ効率の両方において DeiT よりも優れています。上図に示すように、左の図は ConViT-S と DeiT-S のサンプル効率比較結果です。これら 2 つのモデルは同じハイパーパラメータを持ち、ImageNet-1k のサブセットでトレーニングされています。図の緑の線は、ConViT が DeiT よりも優れている点です。研究者らは、上図の右側に示すように、ImageNet-1k 上で ConViT モデルのトップ 1 精度を他の ViT および CNN と比較しました。

ConViT のパフォーマンス上の利点に加えて、ゲーティングパラメーターは、モデルのトレーニング後に各レイヤーでの畳み込みの度合いを理解する簡単な方法を提供します。研究者たちは、すべてのレイヤーを調べたところ、ConViT はトレーニング中に畳み込み位置に徐々に注意を払わなくなっていることを発見しました。後の層では、ゲーティングパラメーターは最終的に 0 に近づき、畳み込み誘導バイアスが事実上無視されることを示します。ただし、開始レイヤーでは、多くのアテンションヘッドが高いゲーティング値を維持しており、これは、ネットワークが初期レイヤーの畳み込み誘導バイアスを利用してトレーニングを支援していることを示唆しています。

上の図は、DeiT (b) と ConViT (c) の注意マップのいくつかの例を示しています。 σ(λ)は学習可能なゲーティングパラメータを表します。 1 に近い値は畳み込み初期化が使用されていることを示し、0 に近い値はコンテンツベースの注意のみが使用されていることを示します。初期の ConViT レイヤーは畳み込み初期化を部分的に維持しますが、後続のレイヤーは完全にコンテンツベースであることに注意してください。

テストは知識蒸留なしで ImageNet-1K で実施され、結果は次のとおりです。

AI モデルのパフォーマンスは、トレーニングに使用されるデータの種類とサイズに大きく依存します。学術研究や実際のアプリケーションでは、モデルは利用可能なデータによって制限されることがよくあります。 ConViT が提案するソフトな誘導バイアスは、適切な場合には無視できます。この独創的なアイデアは、より柔軟な人工知能システムの構築に向けた一歩前進です。

<<: GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

>>: ドローンによる食品配達が到来、こうした問題が注目を集めている