コンピュータ ビジョン (CV) 研究における長年の課題として、視覚認識 (画像分類、オブジェクト検出、セマンティック セグメンテーションなど) は、自動運転やリモート センシングなどの多くのコンピュータ ビジョン アプリケーションの基礎となっています。ディープラーニングの登場により、視覚認識は大きな成功を収めました。しかし、既存の視覚認識研究のほとんどは、ディープニューラルネットワークのトレーニングに高価な注釈付きデータに依存しており、通常はタスクごとに個別のネットワークをトレーニングする必要があり、認識パターンの取得に時間と労力がかかります。 これらの課題に対処するために、大規模な視覚言語モデルが広く注目を集め、集中的に研究されてきました。インターネット上の多数の画像とテキストのペア間の豊富な視覚言語対応を学習することにより、視覚言語モデル (CLIP、ALIGN など) を使用して、さまざまな視覚認識タスクでゼロショット予測を実行できるようになりました。 このレビューでは、シンガポールの南洋理工大学の研究者数名が、視覚認識タスクのための大規模な視覚言語モデルを包括的に研究し、最近の進展をまとめています。 まず、視覚認識の発展背景を振り返りました。次に、広く採用されているディープ ネットワーク アーキテクチャ、事前トレーニングの目的、下流タスク、視覚言語モデルを評価するための共通データセットなど、視覚言語モデルの基礎について説明します。これに基づいて、視覚言語モデルの事前トレーニング方法を要約し、分類します。さらに、視覚言語モデルに基づく転移学習と知識蒸留手法の体系的な分析も行われます。最後に、レビューされた手法をベンチマークし、分析し、議論し、視覚認識におけるいくつかの研究課題と将来の研究方向を提案します。このレビューでは、視覚認識タスクのための視覚言語モデルに関連する最新の研究に引き続き焦点を当てます。 写真
レビューの動機1.視覚言語モデル(CLIP など)の出現により、視覚認識タスクのトレーニング モードが大幅に簡素化され、高価で細かくラベル付けされたデータへの依存が減少しました。近年、多数の関連論文が、研究者の視覚言語モデルに対する強い関心を示しています。 2.現在、視覚言語モデルに基づく視覚認識研究、および直面している課題と将来の研究の方向性を整理するための包括的なレビューが不足しています。 そのため、研究者たちは、このギャップを埋めるためには、さまざまな視覚認識タスクにおける視覚言語モデルに関する研究を体系的にまとめる必要があると考えています。 概要 機能1. 体系性: この論文では、背景、基盤、データセット、方法、ベンチマーク、将来の研究方向など、さまざまな観点から視覚言語モデルに基づく視覚認識を体系的にまとめています。 2. 包括性: この論文では、視覚言語モデルの事前トレーニング方法、視覚言語モデルの転移学習および知識蒸留方法など、関連する研究を包括的にまとめています。 3. 詳細な分類: 各方法カテゴリについて、この論文では詳細な分類を提供し、類似の方法の作業を要約し、比較分析を行います。例えば、視覚言語モデルの事前学習方法については、本稿では対照学習ベース、生成目標ベース、アライメント目標ベースの 3 つのカテゴリに分類し、さらに各カテゴリを細分化しています (図 1)。 図 1. レビューのカテゴリーの概要。 図 2. 一般的に使用される視覚言語モデルの事前トレーニング データセットの概要。 視覚言語モデルの事前トレーニング方法の概要と比較本論文ではまず、対照学習を目的とした方法、生成タスクを目的とした方法、アライメントを目的とした方法など、視覚言語モデルの事前トレーニング方法を要約し、比較します。 1. 対照学習(対照的な目標による事前トレーニング)に基づく方法。対照的な目的は、特徴空間内でペアのサンプルを近づけ、他のサンプルを遠ざけることで、視覚言語モデルが識別機能を学習するようにトレーニングします。この章では、対照学習の入力に応じて、画像対照学習に基づく方法、画像テキスト対照学習に基づく方法、画像テキストラベル対照学習に基づく方法にさらに細分化します。 2. 生成タスクに基づく方法(生成目標による事前トレーニング) 。生成タスクに基づく方法は、画像生成、言語生成、またはクロスモーダル生成のネットワークをトレーニングすることにより、意味的特徴を学習します。これらはさらに、マスクされた画像モデリングに基づく方法、マスクされた言語モデリングに基づく方法、マスクされたクロスモーダルモデリングに基づく方法、および画像からテキストへの生成に基づく方法に分類できます。 3. アライメント目標に基づく方法(アライメント目標によるVLM事前トレーニング) 。アライメント タスクの目的は、画像とテキストの特徴を一致させることであり、通常、グローバルな画像とテキストの一致と、ローカルな画像領域と単語の一致に分けられます。 視覚言語モデル転送方法の概要と比較事前学習済みの視覚言語モデルを下流タスクのゼロショット予測に直接適用することに加えて、視覚言語モデルの転移学習も大きな注目を集めています。転移学習の目的は、事前にトレーニングされた視覚言語モデルを下流のタスクにより適切に適応させることです。 この論文では、視覚言語モデルの移行方法を、プロンプト調整法、特徴アダプタ法、その他の方法の 3 つのカテゴリに分類します。 1. プロンプトチューニング。自然言語処理における「プロンプト学習」にヒントを得て、プロンプト学習法も研究され、下流のタスクに適応するために視覚言語モデル全体のパラメータを微調整することなく最適なプロンプトを見つけることで、視覚言語モデルの移行に使用されています。現在のプロンプト調整方法は、テキストプロンプト調整、ビジュアルプロンプト調整、テキストビジュアルプロンプト調整の 3 つの方法にさらに分けられます。 2. フィーチャーアダプタ方式。機能適応は、追加の軽量機能アダプターを通じてビジョン言語モデルを微調整し、下流のタスクの画像またはテキスト機能に適応します。 3. その他の方法プロンプト調整法と特徴アダプタ法に加えて、視覚言語モデルを直接微調整したり、視覚言語モデルのアーキテクチャを変更したりするなど、他の方法で視覚言語モデルを移行する研究もあります。 視覚言語モデルのための知識蒸留手法の概要と比較視覚言語モデルは、視覚的およびテキスト的概念に関する一般的な知識を抽出できるため、いくつかの研究では、オブジェクト検出やセマンティックセグメンテーションなどの複雑で集中的な予測タスクを処理するために、一般的な視覚言語知識をどのように洗練するかを検討してきました。 視覚言語モデルの転送方法とは異なり、視覚言語モデルの知識蒸留方法は通常、視覚言語モデルのアーキテクチャによって制限されず、ほとんどの研究では、現在の最先端の検出またはセグメンテーションアーキテクチャを活用して、より優れたパフォーマンスを実現します。 本稿では、異なるタスクに応じて、知識蒸留手法を、オープン語彙オブジェクト検出のための知識蒸留とオープン語彙セマンティックセグメンテーションのための知識蒸留に分類します。 実験結果の比較本稿では、視覚言語モデルの事前学習法、転送法、知識蒸留法をそれぞれの評価タスクで比較し、その結果を分析します(図3~5)。 図3. 画像分類タスクにおけるゼロショット予測のための視覚言語モデル事前トレーニング法のパフォーマンス 今後の方向性最後に、本論文では、将来の視覚言語モデル研究で検討できるいくつかの研究課題と潜在的な研究方向についても説明します。 視覚言語モデルの事前トレーニングの場合:
視覚言語モデルの移行の場合:
視覚言語モデルの知識蒸留は、2 つの側面からさらに探求することができます。まず、知識蒸留は複数の視覚言語モデルに対して同時に実行でき、複数の視覚言語モデルの知識蒸留を調整することでより良い結果が得られます。第二に、知識蒸留は、インスタンスセグメンテーション、パノプティックセグメンテーション、人物再識別などの他の視覚認識タスクにも適用でき、知識蒸留の応用領域をさらに拡大することができます。 |
<<: Google 創設者が正式に LLM 戦争に復帰!ジェミニの開発を導く、OpenAIとMetaとの戦いが迫る
>>: Huggingfaceの機械学習科学者が、ホットなラマ2を特集する分析記事を執筆
[[186234]] 3月22日、百度のトップ科学者アンドリュー・ン氏は、英語のセルフメディアプラッ...
海外メディアの報道によると、研究者らは、マスクはCOVID-19などの空気感染する病気の拡散を効果的...
人工知能に代表される新技術は、知識記憶を主眼とする中国の教育モデルの優位性を覆すことになるのだろうか...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
NeurIPS 2023の受賞論文が発表され、10年前の単語埋め込み技術word2vecが当然の「T...
ああ、2020年!世界的なヘルスケア問題から、テクノロジーの採用と再利用の方法の革命まで、今年はこれ...
人工知能とデータサイエンスは、2023 年に最もエキサイティングで影響力のある 2 つのテクノロジー...
人工知能は現在最も注目されている産業であり、将来的にはロボット、スマートセンサー、ウェアラブルデバイ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
インテリジェント トランスフォーメーションの本質: インテリジェント トランスフォーメーションは、テ...