FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

[[411034]]

AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に、モデルがより少ないデータからより一般的なソリューションを学習できるようにするために、帰納的バイアスと呼ばれる特定の一連の仮定を使用することが多いです。過去 10 年間のディープラーニングの大きな成功は、強い帰納的バイアスに一部起因しています。その畳み込みアーキテクチャは、視覚タスクで非常に効果的であることが証明されています。強い帰納的バイアスにより、サンプル効率の高い学習が可能になりますが、パフォーマンスの上限が低くなる可能性が伴います。 Visual Transformer (ViT など) は、より柔軟な自己注意レイヤーに依存しており、最近ではいくつかの画像分類タスクで CNN を上回りましたが、ViT ではサンプルに対する需要がより高くなります。

Facebook の研究者は、広く使用されている 2 つの AI アーキテクチャである畳み込みニューラル ネットワーク (CNN) と Transformer を組み合わせた、ConViT と呼ばれる新しいコンピューター ビジョン モデルを提案しました。このモデルは、それぞれの長所を活用し、CNN と Transformer 自体のいくつかの制限を克服します。同時に、両方のアーキテクチャの利点を活用することで、このビジュアル Transformer ベースのモデルは、特に小規模データの場合には既存のアーキテクチャよりも優れたパフォーマンスを発揮し、大規模データの場合にも同様の優れたパフォーマンスを実現します。

  • 論文アドレス: https://arxiv.org/pdf/2103.10697.pdf
  • GitHub アドレス: https://github.com/facebookresearch/convit

視覚タスクで非常に成功している CNN は、アーキテクチャ自体に組み込まれた 2 つの誘導バイアスに依存しています。ローカル相関 (近くのピクセルは相関関係にある) と重み共有 (画像の異なる部分は、その絶対位置に関係なく、同じように扱われる必要がある) です。

対照的に、DeiT や DETR などの自己注意ベースの視覚モデルは、誘導バイアスを最小限に抑えます。大規模なデータセットでトレーニングした場合、これらのモデルは CNN と同等かそれ以上のパフォーマンスを発揮することが示されています。しかし、小さなデータセットでトレーニングすると、意味のある表現を学習するのが困難になることがよくあります。

ここではトレードオフがあります。CNN の強い帰納的バイアスにより、データが非常に少ない場合でも高いパフォーマンスが得られますが、データが多い場合は、これらの帰納的バイアスによってモデルが制限される可能性があります。対照的に、Transformer は誘導バイアスが最も小さく、小規模なデータ設定では制限があることを示していますが、同時にこの柔軟性により、Transformer はビッグデータで CNN を上回るパフォーマンスを発揮します。

このため、Facebook が提案した ConViT モデルはソフト畳み込み誘導バイアスで初期化され、必要に応じてこれらのバイアスを無視するようにモデルが学習できます。

ソフト誘導バイアスは、モデルが制約なしに学習するのに役立ちます。 CNN のアーキテクチャ上の制約などのハードな帰納的バイアスは、学習のサンプル効率を大幅に向上させることができますが、データセットのサイズが不確実な場合は制約になる可能性があります。 ConViT のソフト誘導バイアスは、モデルの制約を避けるために必要ない場合は無視できます。

ConViTの仕組み

ConViT は、ソフト畳み込み誘導バイアスを利用してネットワークが畳み込み演算を実行するように促す Vision Transformer の適応版です。最も重要なのは、ConViT により、畳み込みを保持するかどうかをモデルが自ら決定できるようになることです。このソフトな誘導バイアスを利用するために、研究者らは、ゲーテッド位置自己注意 (GPSA) と呼ばれる位置自己注意の形式を導入しました。このモデルのゲーティング パラメーター ラムダは、コンテンツ ベースの自己注意と畳み込み初期化位置自己注意のバランスを取るために使用されます。

上の図に示すように、ConViT (左) は、ViT に基づいて、一部の自己注意 (SA) レイヤーをゲート位置自己注意レイヤー (GPSA、右) に置き換えます。 GPSA レイヤーには位置情報が含まれるため、クラス トークンは最後の GPSA レイヤーの後の非表示表現に関連付けられます。

GPSA レイヤーを追加することで、ConViT は昨年 Facebook が提案した DeiT モデルよりも優れたパフォーマンスを発揮します。たとえば、ConViT-S+ のパフォーマンスは DeiT-B よりもわずかに優れています (82.2% 対 81.8%)。一方、ConViT-S+ は DeiT-B の約半分の数のパラメータしか使用しません (48M 対 86M)。 ConViT の最大の改善点は、ソフト畳み込み誘導バイアスが限られたデータ範囲内で重要な役割を果たすことです。たとえば、トレーニング データの 5% のみを使用する場合、ConViT は DeiT よりも大幅に優れたパフォーマンスを発揮します (47.8% 対 34.8%)。

さらに、ConViT はサンプル効率とパラメータ効率の両方において DeiT よりも優れています。上図に示すように、左の図は ConViT-S と DeiT-S のサンプル効率比較結果です。これら 2 つのモデルは同じハイパーパラメータを持ち、ImageNet-1k のサブセットでトレーニングされています。図の緑の線は、ConViT が DeiT よりも優れている点です。研究者らは、上図の右側に示すように、ImageNet-1k 上で ConViT モデルのトップ 1 精度を他の ViT および CNN と比較しました。

ConViT のパフォーマンス上の利点に加えて、ゲーティング パラメーターは、モデルのトレーニング後に各レイヤーでの畳み込みの度合いを理解する簡単な方法を提供します。研究者たちは、すべてのレイヤーを調べたところ、ConViT はトレーニング中に畳み込み位置に徐々に注意を払わなくなっていることを発見しました。後の層では、ゲーティング パラメーターは最終的に 0 に近づき、畳み込み誘導バイアスが事実上無視されることを示します。ただし、開始レイヤーでは、多くのアテンション ヘッドが高いゲーティング値を維持しており、これは、ネットワークが初期レイヤーの畳み込み誘導バイアスを利用してトレーニングを支援していることを示唆しています。

上の図は、DeiT (b) と ConViT (c) の注意マップのいくつかの例を示しています。 σ(λ)は学習可能なゲーティングパラメータを表します。 1 に近い値は畳み込み初期化が使用されていることを示し、0 に近い値はコンテンツベースの注意のみが使用されていることを示します。初期の ConViT レイヤーは畳み込み初期化を部分的に維持しますが、後続のレイヤーは完全にコンテンツベースであることに注意してください。

テストは知識蒸留なしで ImageNet-1K で実施され、結果は次のとおりです。

AI モデルのパフォーマンスは、トレーニングに使用されるデータの種類とサイズに大きく依存します。学術研究や実際のアプリケーションでは、モデルは利用可能なデータによって制限されることがよくあります。 ConViT が提案するソフトな誘導バイアスは、適切な場合には無視できます。この独創的なアイデアは、より柔軟な人工知能システムの構築に向けた一歩前進です。

<<:  GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

>>:  ドローンによる食品配達が到来、こうした問題が注目を集めている

ブログ    
ブログ    

推薦する

Appleのスマートホームアプリに新機能「クリーンエネルギークエリ」が追加

AppleのiPhone 15の発表イベントでは、同社のカーボンニュートラル化に向けた取り組みに焦点...

Pytorchの核心部分である自動微分化を突破! !

こんにちは、Xiaozhuangです! PyTorch での自動微分演算に関して、この論文では Py...

ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

米国のパデュー大学が最近発表した「誰の回答が優れているか? ChatGPT と Stack Over...

AIサイバーセキュリティの今後の課題:最初で最後の防衛線となる方法

ニューヨーク・タイムズ紙によると、世界の AI サイバーセキュリティの求人市場では、2021 年まで...

...

Julia言語を使用して「準同型暗号化+機械学習」を実装するには?

[[285696]]最近、「ブロックチェーン」や「フェデレーテッドラーニング」などの概念がかつてな...

IT の現状レポート: IT リーダーの 90% が、生成型 AI がまもなく主流になると考えています

7月25日、海外メディアの報道によると、セールスフォース・ドットコムが発表したIT現状報告によると、...

人工知能がメンタルヘルスの改善に役立つ4つの方法

[51CTO.com クイック翻訳] 私たちはメンタルヘルスの危機を経験しています。世界人口の約 1...

AIのための大規模ストレージインフラストラクチャの要件

大規模な人工知能 (AI) により、容量とパフォーマンスの面でストレージ インフラストラクチャの水準...

GPT-4ではMITでコンピュータサイエンスの学位を取得できない

ある研究者が、MITのコンピューターサイエンスの学位の宿題や試験問題を解くことができると主張するチャ...

...

大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

最適化はあらゆる分野で重要です。一部の最適化は初期化から始まり、その後ソリューションを繰り返し更新し...

何か効率的な「錬金術」アーティファクトをお勧めいただけますか? Fudan fastNLPチームが内部パラメータ調整ツールfitlogをリリース

このパラメータ調整ツールは、実験結果の表形式表示、カスタムメモ、フロントエンド操作の記録の削除/非表...

...

...