特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

過去 10 年間、畳み込みニューラル ネットワークは世界中のコンピューター ビジョン研究の分野で主導的な役割を果たしてきました。しかし研究者たちは、トランスフォーマーの力を活用して画像に深い意味を与える新しいアプローチを提案している。

トランスフォーマーはもともと、ニューラル機械翻訳に重点を置いた自然言語処理タスク用に設計されました。その後、Google Research の Alexey Dosovitskiy、Lucas Beyer らは、「画像は 16x16 文字の価値を持つ: 画像認識のための大規模トランスフォーマー」と題する論文を執筆し、トランスフォーマーを通じて画像データを処理できる Visual Transformer (ViT) と呼ばれるアーキテクチャを提案しました。

[[359923]]

畳み込みニューラルネットワーク (CNN) の問題

Vision Transformer の動作を詳しく説明する前に、畳み込みニューラル ネットワークの欠点と根本的な欠陥を理解することが重要です。まず、畳み込みニューラル ネットワークは相対的な空間情報をエンコードできません。つまり、特定の特徴の検出にのみ焦点を当て、相対的な空間位置は無視されます。

畳み込みニューラル ネットワークは、入力画像に特定の特徴が存在するかどうかにのみ焦点を当て、それらの相対的な位置を無視するため、上記の両方の画像は顔として認識されます。

畳み込みニューラル ネットワークのもう一つの大きな欠点はプーリング層です。プーリング層では、最もアクティブな特徴検出器の正確な位置など、多くの有用な情報が失われます。つまり、特定の特徴を検出することはできますが、画像内での正確な位置を伝えることはできません。

コンバータの紹介

本質的に、Transformer は自己注意の概念を適用します。この概念は、自己と注意の 2 つの部分に分けることができます。注意は、入力文のさまざまな部分の重要性をモデル化するトレーニング可能な重みのみを指します。

文が入力されると、文中の各単語を調べ、その単語の文中の位置を、同じ文中のすべての単語(その単語を含む)の位置と比較します。そこで、トランスフォーマーは自己注意の概念を適用します。トランスフォーマーは、これらの位置の手がかりに基づいてスコアを計算し、これらの手がかりを使用して文のセマンティクス、つまり意味をより適切にエンコードします。

上記の例から、トランスフォーマーのアテンション ユニットが「it」という単語の位置を、文中の「it」を含む他のすべての単語と比較していることがわかります。異なる色は、これらの接続におけるさまざまなパターンを発見することを目的として、独立して同時に動作する複数の注意ユニットを表します。

上記の比較を通じてスコアが計算されると、それらはフィードフォワードニューロンの単純な層に送信され、最終的に正規化されます。トレーニング中に、Transformer はこれらの注意ベクトルを学習します。

モデルアーキテクチャ

通常のトランスフォーマーが単語を通じて文章を学習するのと同様に、ビジュアルトランスフォーマーはピクセルを通じて画像に対して同様の結果を実現します。しかし、ここには問題があります。テキストとは異なり、単一のピクセルだけでは意味を伝えることができません。これが、ピクセルのグループに対して動作する畳み込みフィルターを使用する理由の 1 つです。

画像全体を小さな画像または単語の塊に分割します。すべてのパッチは線形投影マトリックスを使用して平坦化され、画像内の位置とともにトランスフォーマーに送られます (上図を参照)。このプロセスで、研究者は 16 x 16 サイズの小さな画像を選択したため、この研究タイトルは詩的なものとなりました。

次に、これらの埋め込まれたパッチは、通常のトランスフォーマーと同様の、多面的な自己注意、多層パーセプトロン (フィードフォワード ニューロンの単純な層)、および正規化層の交互の層を通過します。分類ヘッドは、最終的な分類を予測するために、トランスフォーマー エンコーダーの最後にインストールされます。他の畳み込みモデルと同様に、事前トレーニング済みのエンコーダーのライブラリとカスタム MLP レイヤーを使用して、分類タスクに合わせてモデルを微調整できます。

要点

著者らは、ImageNet、CIFAR-10/100、JFT-300M(高解像度画像3億枚を含むGoogleの非公開データセット)など、さまざまな注釈付きデータセットでモデルをトレーニングしました。精度の点では、彼らのモデルは他の最先端の畳み込みモデルとほぼ同等の精度(多くの場合、さらに精度が高い)ですが、トレーニングにかかる​​時間が大幅に短縮(約 75% 短縮)され、使用するハードウェア リソースも少なくなります。

Visual Transformer のもう 1 つの利点は、ローカル アテンションではなくグローバル アテンションを使用するため、より高レベルの関係を非常に早い段階で学習できることです。最初は、畳み込みニューラル ネットワークから遠く離れたものにも気づくことができます。 Visual Transformers は、トレーニング中に効率的であるだけでなく、トレーニング データが増えるほど性能も向上します。

画像ソース: unsplash

これは、畳み込みニューラル ネットワークが時代遅れになり、ビジュアル トランスフォーマーが新たな標準になったことを意味するのでしょうか?

もちろん違います! 畳み込みニューラル ネットワークには欠点もありますが、それでも物体検出や画像分類などのタスクでは非常に効果的です。最も先進的な畳み込みアーキテクチャである ResNet と EfficientNet は、依然としてこのようなタスクの処理を支配しています。しかし、トランスフォーマーは言語翻訳などの自然言語処理タスクにおいて画期的な進歩を遂げており、コンピュータービジョンの分野で大きな可能性を示しています。

この進化する研究分野の将来はどうなるのでしょうか? それは時が経てばわかるでしょう。

<<:  RSA という高度な暗号化アルゴリズムをご存知ですか?

>>:  【人工知能】人間と機械の対決知能技術の総合レビュー

ブログ    
ブログ    
ブログ    

推薦する

テクノロジー市場: エッジデバイスで利用可能なエッジAIソリューション

エッジコンピューティングと人工知能の組み合わせにより、エッジ AI は現在のテクノロジー市場における...

人間がロボットや AI より得意とする 7 つの仕事

ロボットや AI は人間が行う多くの作業を実行できますが、人間がロボットよりも上手にできる仕事もまだ...

ついに、私は物語を作るのをやめました! AIが「グーグル」を学習、Q&Aの精度は90%

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習: Python による予測

機械学習は基本的に、既存のデータを使用して新しいデータについて予測を行う人工知能のサブセットです。も...

ディープラーニングは、データが不足している場合、無力なのでしょうか?ここにいくつかの良いアイデアがあります!

ディープラーニングは、データが大量にある場合、どんなに複雑な問題でも問題ありません。しかし、データが...

...

軍用殺人ロボットは人類の救世主か悪魔か?

[[230142]] 「リトルビー」殺人ロボットの背後にあるブラックテクノロジー学生たちが席に座っ...

AIの海のサイレンソング:テンセントAIラボの大規模モデルの幻覚問題の概要

大規模言語モデルは、多くの下流タスクで驚くべき能力を発揮してきましたが、使用時にはまだいくつかの問題...

ディープラーニングにおける次の大きな進歩は機械読み取りでしょうか?

機械読み取りはディープラーニングの次の大きな進歩となるだろう[[184205]] 2016 年を振り...

AIが「エッジ」に必要である理由

インテリジェンスは急速に増加しており、今日では、新しい生成型人工知能 (gen-AI) と機械学習 ...

AIがデータセンターの設計をどう変えるか

AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...

...

人工知能の時代に教育はどのように変化するのでしょうか?

「教育は人材を育成する長期的な取り組みなので、将来を見据えたものであるべきだ。」先日開催された人工...

人工知能搭載の携帯電話は私たちの生活をどのように変えるのでしょうか? 携帯電話メーカーが何をしてきたか見てみましょう。

チャットができる「インテリジェント音声アシスタント」から、さまざまな家電を操作できるスマートスピーカ...