FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

[[411034]]

AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に、モデルがより少ないデータからより一般的なソリューションを学習できるようにするために、帰納的バイアスと呼ばれる特定の一連の仮定を使用することが多いです。過去 10 年間のディープラーニングの大きな成功は、強い帰納的バイアスに一部起因しています。その畳み込みアーキテクチャは、視覚タスクで非常に効果的であることが証明されています。強い帰納的バイアスにより、サンプル効率の高い学習が可能になりますが、パフォーマンスの上限が低くなる可能性が伴います。 Visual Transformer (ViT など) は、より柔軟な自己注意レイヤーに依存しており、最近ではいくつかの画像分類タスクで CNN を上回りましたが、ViT ではサンプルに対する需要がより高くなります。

Facebook の研究者は、広く使用されている 2 つの AI アーキテクチャである畳み込みニューラル ネットワーク (CNN) と Transformer を組み合わせた、ConViT と呼ばれる新しいコンピューター ビジョン モデルを提案しました。このモデルは、それぞれの長所を活用し、CNN と Transformer 自体のいくつかの制限を克服します。同時に、両方のアーキテクチャの利点を活用することで、このビジュアル Transformer ベースのモデルは、特に小規模データの場合には既存のアーキテクチャよりも優れたパフォーマンスを発揮し、大規模データの場合にも同様の優れたパフォーマンスを実現します。

  • 論文アドレス: https://arxiv.org/pdf/2103.10697.pdf
  • GitHub アドレス: https://github.com/facebookresearch/convit

視覚タスクで非常に成功している CNN は、アーキテクチャ自体に組み込まれた 2 つの誘導バイアスに依存しています。ローカル相関 (近くのピクセルは相関関係にある) と重み共有 (画像の異なる部分は、その絶対位置に関係なく、同じように扱われる必要がある) です。

対照的に、DeiT や DETR などの自己注意ベースの視覚モデルは、誘導バイアスを最小限に抑えます。大規模なデータセットでトレーニングした場合、これらのモデルは CNN と同等かそれ以上のパフォーマンスを発揮することが示されています。しかし、小さなデータセットでトレーニングすると、意味のある表現を学習するのが困難になることがよくあります。

ここではトレードオフがあります。CNN の強い帰納的バイアスにより、データが非常に少ない場合でも高いパフォーマンスが得られますが、データが多い場合は、これらの帰納的バイアスによってモデルが制限される可能性があります。対照的に、Transformer は誘導バイアスが最も小さく、小規模なデータ設定では制限があることを示していますが、同時にこの柔軟性により、Transformer はビッグデータで CNN を上回るパフォーマンスを発揮します。

このため、Facebook が提案した ConViT モデルはソフト畳み込み誘導バイアスで初期化され、必要に応じてこれらのバイアスを無視するようにモデルが学習できます。

ソフト誘導バイアスは、モデルが制約なしに学習するのに役立ちます。 CNN のアーキテクチャ上の制約などのハードな帰納的バイアスは、学習のサンプル効率を大幅に向上させることができますが、データセットのサイズが不確実な場合は制約になる可能性があります。 ConViT のソフト誘導バイアスは、モデルの制約を避けるために必要ない場合は無視できます。

ConViTの仕組み

ConViT は、ソフト畳み込み誘導バイアスを利用してネットワークが畳み込み演算を実行するように促す Vision Transformer の適応版です。最も重要なのは、ConViT により、畳み込みを保持するかどうかをモデルが自ら決定できるようになることです。このソフトな誘導バイアスを利用するために、研究者らは、ゲーテッド位置自己注意 (GPSA) と呼ばれる位置自己注意の形式を導入しました。このモデルのゲーティング パラメーター ラムダは、コンテンツ ベースの自己注意と畳み込み初期化位置自己注意のバランスを取るために使用されます。

上の図に示すように、ConViT (左) は、ViT に基づいて、一部の自己注意 (SA) レイヤーをゲート位置自己注意レイヤー (GPSA、右) に置き換えます。 GPSA レイヤーには位置情報が含まれるため、クラス トークンは最後の GPSA レイヤーの後の非表示表現に関連付けられます。

GPSA レイヤーを追加することで、ConViT は昨年 Facebook が提案した DeiT モデルよりも優れたパフォーマンスを発揮します。たとえば、ConViT-S+ のパフォーマンスは DeiT-B よりもわずかに優れています (82.2% 対 81.8%)。一方、ConViT-S+ は DeiT-B の約半分の数のパラメータしか使用しません (48M 対 86M)。 ConViT の最大の改善点は、ソフト畳み込み誘導バイアスが限られたデータ範囲内で重要な役割を果たすことです。たとえば、トレーニング データの 5% のみを使用する場合、ConViT は DeiT よりも大幅に優れたパフォーマンスを発揮します (47.8% 対 34.8%)。

さらに、ConViT はサンプル効率とパラメータ効率の両方において DeiT よりも優れています。上図に示すように、左の図は ConViT-S と DeiT-S のサンプル効率比較結果です。これら 2 つのモデルは同じハイパーパラメータを持ち、ImageNet-1k のサブセットでトレーニングされています。図の緑の線は、ConViT が DeiT よりも優れている点です。研究者らは、上図の右側に示すように、ImageNet-1k 上で ConViT モデルのトップ 1 精度を他の ViT および CNN と比較しました。

ConViT のパフォーマンス上の利点に加えて、ゲーティング パラメーターは、モデルのトレーニング後に各レイヤーでの畳み込みの度合いを理解する簡単な方法を提供します。研究者たちは、すべてのレイヤーを調べたところ、ConViT はトレーニング中に畳み込み位置に徐々に注意を払わなくなっていることを発見しました。後の層では、ゲーティング パラメーターは最終的に 0 に近づき、畳み込み誘導バイアスが事実上無視されることを示します。ただし、開始レイヤーでは、多くのアテンション ヘッドが高いゲーティング値を維持しており、これは、ネットワークが初期レイヤーの畳み込み誘導バイアスを利用してトレーニングを支援していることを示唆しています。

上の図は、DeiT (b) と ConViT (c) の注意マップのいくつかの例を示しています。 σ(λ)は学習可能なゲーティングパラメータを表します。 1 に近い値は畳み込み初期化が使用されていることを示し、0 に近い値はコンテンツベースの注意のみが使用されていることを示します。初期の ConViT レイヤーは畳み込み初期化を部分的に維持しますが、後続のレイヤーは完全にコンテンツベースであることに注意してください。

テストは知識蒸留なしで ImageNet-1K で実施され、結果は次のとおりです。

AI モデルのパフォーマンスは、トレーニングに使用されるデータの種類とサイズに大きく依存します。学術研究や実際のアプリケーションでは、モデルは利用可能なデータによって制限されることがよくあります。 ConViT が提案するソフトな誘導バイアスは、適切な場合には無視できます。この独創的なアイデアは、より柔軟な人工知能システムの構築に向けた一歩前進です。

<<:  GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

>>:  ドローンによる食品配達が到来、こうした問題が注目を集めている

ブログ    
ブログ    

推薦する

機械学習アルゴリズムにおける分類知識の要約

この記事では、機械学習アルゴリズムにおける非常に重要な知識である分類、つまり入力データが属するカテゴ...

インターネット業界における顔認識機能の認知に関する調査報告書

[51CTO.comからのオリジナル記事] 高速かつ高性能なコンピュータの登場により、顔画像技術は大...

...

コンパニオン チップ: AI にとって賢い選択でしょうか?

半導体業界では長年にわたり、より多くのコンポーネントを単一のシステムオンチップ (SoC) に緊密に...

AIを活用した自動化が成果を上げる:自動化の破壊的イノベーションにより収益成長が1.5倍に増加

新型コロナウイルス感染症のパンデミックによって引き起こされた市場の混乱は、世界中の企業に引き続き重く...

マイクロソフトはOpenAIの警告を無視し、未熟なBingチャットサービスを開始したと報じられている。

6月14日、マイクロソフトのBing人工知能チャットボットは、最初にリリースされた際に論争と混乱を...

次元削減アルゴリズムについて: PCA主成分分析

機械学習の分野では、生データから特徴を抽出する際に、高次元の特徴ベクトルが得られることが多いです。こ...

ジェネレーティブ AI がサプライ チェーンと調達の役割をどのように変革しているか

実際、生成 AI は近い将来、企業全体の販売、マーケティング、調達、サプライ チェーンにおける人間の...

アメリカ人教授がAI会議での不正行為を暴露:著者は査読者と共謀し、ゴミ論文も査読を通過

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

これらの不気味な「偽人間」は人工知能の新時代の到来を告げる

[51CTO.com クイック翻訳]唇の無精ひげ、額のしわ、皮膚の斑点がはっきりと見えますが、「彼」...

100 以上の自然言語処理データセットが無料で、データの検索に困ることはありません。

[[228774]]ビッグデータ概要編集者: Wanjun、VVN、Zhang Lijun、Yun...

ディープラーニングを使って背景を除去し、切り抜きを実現する方法の詳細な説明

上記のコースで、経験豊富な Web 開発者である Alon Burg と出会い、偶然にも同じような興...

...

機械学習アルゴリズムを使用して配信リンクを最適化する方法

【51CTO.comオリジナル記事】 1. 背景紹介---VODソース配信の問題点オンデマンドビデオ...