特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

過去 10 年間、畳み込みニューラル ネットワークは世界中のコンピューター ビジョン研究の分野で主導的な役割を果たしてきました。しかし研究者たちは、トランスフォーマーの力を活用して画像に深い意味を与える新しいアプローチを提案している。

トランスフォーマーはもともと、ニューラル機械翻訳に重点を置いた自然言語処理タスク用に設計されました。その後、Google Research の Alexey Dosovitskiy、Lucas Beyer らは、「画像は 16x16 文字の価値を持つ: 画像認識のための大規模トランスフォーマー」と題する論文を執筆し、トランスフォーマーを通じて画像データを処理できる Visual Transformer (ViT) と呼ばれるアーキテクチャを提案しました。

[[359923]]

畳み込みニューラルネットワーク (CNN) の問題

Vision Transformer の動作を詳しく説明する前に、畳み込みニューラル ネットワークの欠点と根本的な欠陥を理解することが重要です。まず、畳み込みニューラル ネットワークは相対的な空間情報をエンコードできません。つまり、特定の特徴の検出にのみ焦点を当て、相対的な空間位置は無視されます。

畳み込みニューラル ネットワークは、入力画像に特定の特徴が存在するかどうかにのみ焦点を当て、それらの相対的な位置を無視するため、上記の両方の画像は顔として認識されます。

畳み込みニューラル ネットワークのもう一つの大きな欠点はプーリング層です。プーリング層では、最もアクティブな特徴検出器の正確な位置など、多くの有用な情報が失われます。つまり、特定の特徴を検出することはできますが、画像内での正確な位置を伝えることはできません。

コンバータの紹介

本質的に、Transformer は自己注意の概念を適用します。この概念は、自己と注意の 2 つの部分に分けることができます。注意は、入力文のさまざまな部分の重要性をモデル化するトレーニング可能な重みのみを指します。

文が入力されると、文中の各単語を調べ、その単語の文中の位置を、同じ文中のすべての単語(その単語を含む)の位置と比較します。そこで、トランスフォーマーは自己注意の概念を適用します。トランスフォーマーは、これらの位置の手がかりに基づいてスコアを計算し、これらの手がかりを使用して文のセマンティクス、つまり意味をより適切にエンコードします。

上記の例から、トランスフォーマーのアテンション ユニットが「it」という単語の位置を、文中の「it」を含む他のすべての単語と比較していることがわかります。異なる色は、これらの接続におけるさまざまなパターンを発見することを目的として、独立して同時に動作する複数の注意ユニットを表します。

上記の比較を通じてスコアが計算されると、それらはフィードフォワードニューロンの単純な層に送信され、最終的に正規化されます。トレーニング中に、Transformer はこれらの注意ベクトルを学習します。

モデルアーキテクチャ

通常のトランスフォーマーが単語を通じて文章を学習するのと同様に、ビジュアルトランスフォーマーはピクセルを通じて画像に対して同様の結果を実現します。しかし、ここには問題があります。テキストとは異なり、単一のピクセルだけでは意味を伝えることができません。これが、ピクセルのグループに対して動作する畳み込みフィルターを使用する理由の 1 つです。

画像全体を小さな画像または単語の塊に分割します。すべてのパッチは線形投影マトリックスを使用して平坦化され、画像内の位置とともにトランスフォーマーに送られます (上図を参照)。このプロセスで、研究者は 16 x 16 サイズの小さな画像を選択したため、この研究タイトルは詩的なものとなりました。

次に、これらの埋め込まれたパッチは、通常のトランスフォーマーと同様の、多面的な自己注意、多層パーセプトロン (フィードフォワード ニューロンの単純な層)、および正規化層の交互の層を通過します。分類ヘッドは、最終的な分類を予測するために、トランスフォーマー エンコーダーの最後にインストールされます。他の畳み込みモデルと同様に、事前トレーニング済みのエンコーダーのライブラリとカスタム MLP レイヤーを使用して、分類タスクに合わせてモデルを微調整できます。

要点

著者らは、ImageNet、CIFAR-10/100、JFT-300M(高解像度画像3億枚を含むGoogleの非公開データセット)など、さまざまな注釈付きデータセットでモデルをトレーニングしました。精度の点では、彼らのモデルは他の最先端の畳み込みモデルとほぼ同等の精度(多くの場合、さらに精度が高い)ですが、トレーニングにかかる​​時間が大幅に短縮(約 75% 短縮)され、使用するハードウェア リソースも少なくなります。

Visual Transformer のもう 1 つの利点は、ローカル アテンションではなくグローバル アテンションを使用するため、より高レベルの関係を非常に早い段階で学習できることです。最初は、畳み込みニューラル ネットワークから遠く離れたものにも気づくことができます。 Visual Transformers は、トレーニング中に効率的であるだけでなく、トレーニング データが増えるほど性能も向上します。

画像ソース: unsplash

これは、畳み込みニューラル ネットワークが時代遅れになり、ビジュアル トランスフォーマーが新たな標準になったことを意味するのでしょうか?

もちろん違います! 畳み込みニューラル ネットワークには欠点もありますが、それでも物体検出や画像分類などのタスクでは非常に効果的です。最も先進的な畳み込みアーキテクチャである ResNet と EfficientNet は、依然としてこのようなタスクの処理を支配しています。しかし、トランスフォーマーは言語翻訳などの自然言語処理タスクにおいて画期的な進歩を遂げており、コンピュータービジョンの分野で大きな可能性を示しています。

この進化する研究分野の将来はどうなるのでしょうか? それは時が経てばわかるでしょう。

<<:  RSA という高度な暗号化アルゴリズムをご存知ですか?

>>:  【人工知能】人間と機械の対決知能技術の総合レビュー

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

ザッカーバーグはオープンソース AGI に全力を注ぐ: Llama 3 をトレーニング、35 万台の H100 を年末までに提供開始

ザッカーバーグ氏は新たな目標「すべてをオープンソースの AGI に」を発表しました。そう、ザッカーバ...

...

AIが医薬品開発において適切な医薬品成分の特定にどのように役立つか

[[378110]]デジタル技術の導入に関しては、製薬業界では導入が遅れる傾向にあります。これまで、...

IoTが発展するために機械学習が必要な理由

ビッグデータや人工知能などのテクノロジーがもたらす機会と脅威、そしてその将来に対する懸念については、...

脳コンピューターインターフェースと仮想世界: 頭の後ろにチューブを挿入することは、必ずしもマトリックスのようになるわけではない

人間の脳にチップを埋め込み、脳とコンピューターの統合によってそれを制御するという話は、SFの世界から...

ペット経済に乗って、ロボットアプリケーションが新しい市場を開拓

[[391010]]昨今、都市化の加速と生活水準の向上に伴い、ペットを飼うことがますます多くの人々の...

2021年5月のAI資金調達活動の概要

科学技術の継続的な進歩により、インテリジェント製品は徐々に日常生活に統合され、人工知能は現代の発展の...

...

大型モデルでも「ドリフト」現象は発生しますか? AIアプリケーション開発者は注意が必要

データセンターでの機械学習プロジェクトの開発に精通している読者は、データドリフトとコンセプトドリフト...

...

人工知能とデータサイエンスに基づく実用的な分析システムの構築におけるシティバンクの実践経験

シティバンクは、人工知能とデータサイエンスに基づいた実用的な分析システムをどのように構築したのでしょ...

大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 Dri...