南洋理工大学の最新の視覚言語モデルの概要：事前トレーニング、転移学習、知識蒸留

コンピュータビジョン (CV) 研究における長年の課題として、視覚認識 (画像分類、オブジェクト検出、セマンティックセグメンテーションなど) は、自動運転やリモートセンシングなどの多くのコンピュータビジョンアプリケーションの基礎となっています。ディープラーニングの登場により、視覚認識は大きな成功を収めました。しかし、既存の視覚認識研究のほとんどは、ディープニューラルネットワークのトレーニングに高価な注釈付きデータに依存しており、通常はタスクごとに個別のネットワークをトレーニングする必要があり、認識パターンの取得に時間と労力がかかります。

これらの課題に対処するために、大規模な視覚言語モデルが広く注目を集め、集中的に研究されてきました。インターネット上の多数の画像とテキストのペア間の豊富な視覚言語対応を学習することにより、視覚言語モデル (CLIP、ALIGN など) を使用して、さまざまな視覚認識タスクでゼロショット予測を実行できるようになりました。

このレビューでは、シンガポールの南洋理工大学の研究者数名が、視覚認識タスクのための大規模な視覚言語モデルを包括的に研究し、最近の進展をまとめています。

まず、視覚認識の発展背景を振り返りました。次に、広く採用されているディープネットワークアーキテクチャ、事前トレーニングの目的、下流タスク、視覚言語モデルを評価するための共通データセットなど、視覚言語モデルの基礎について説明します。これに基づいて、視覚言語モデルの事前トレーニング方法を要約し、分類します。さらに、視覚言語モデルに基づく転移学習と知識蒸留手法の体系的な分析も行われます。最後に、レビューされた手法をベンチマークし、分析し、議論し、視覚認識におけるいくつかの研究課題と将来の研究方向を提案します。このレビューでは、視覚認識タスクのための視覚言語モデルに関連する最新の研究に引き続き焦点を当てます。

写真

論文アドレス: https://arxiv.org/pdf/2304.00685.pdf
プロジェクトアドレス: https://github.com/jingyi0000/VLM_survey

レビューの動機

1.視覚言語モデル（CLIP など）の出現により、視覚認識タスクのトレーニングモードが大幅に簡素化され、高価で細かくラベル付けされたデータへの依存が減少しました。近年、多数の関連論文が、研究者の視覚言語モデルに対する強い関心を示しています。

2.現在、視覚言語モデルに基づく視覚認識研究、および直面している課題と将来の研究の方向性を整理するための包括的なレビューが不足しています。

そのため、研究者たちは、このギャップを埋めるためには、さまざまな視覚認識タスクにおける視覚言語モデルに関する研究を体系的にまとめる必要があると考えています。

概要機能

1. 体系性: この論文では、背景、基盤、データセット、方法、ベンチマーク、将来の研究方向など、さまざまな観点から視覚言語モデルに基づく視覚認識を体系的にまとめています。

2. 包括性: この論文では、視覚言語モデルの事前トレーニング方法、視覚言語モデルの転移学習および知識蒸留方法など、関連する研究を包括的にまとめています。

3. 詳細な分類: 各方法カテゴリについて、この論文では詳細な分類を提供し、類似の方法の作業を要約し、比較分析を行います。例えば、視覚言語モデルの事前学習方法については、本稿では対照学習ベース、生成目標ベース、アライメント目標ベースの 3 つのカテゴリに分類し、さらに各カテゴリを細分化しています (図 1)。

図 1. レビューのカテゴリーの概要。

図 2. 一般的に使用される視覚言語モデルの事前トレーニングデータセットの概要。

視覚言語モデルの事前トレーニング方法の概要と比較

本論文ではまず、対照学習を目的とした方法、生成タスクを目的とした方法、アライメントを目的とした方法など、視覚言語モデルの事前トレーニング方法を要約し、比較します。

1. 対照学習（対照的な目標による事前トレーニング）に基づく方法。対照的な目的は、特徴空間内でペアのサンプルを近づけ、他のサンプルを遠ざけることで、視覚言語モデルが識別機能を学習するようにトレーニングします。この章では、対照学習の入力に応じて、画像対照学習に基づく方法、画像テキスト対照学習に基づく方法、画像テキストラベル対照学習に基づく方法にさらに細分化します。

2. 生成タスクに基づく方法（生成目標による事前トレーニング） 。生成タスクに基づく方法は、画像生成、言語生成、またはクロスモーダル生成のネットワークをトレーニングすることにより、意味的特徴を学習します。これらはさらに、マスクされた画像モデリングに基づく方法、マスクされた言語モデリングに基づく方法、マスクされたクロスモーダルモデリングに基づく方法、および画像からテキストへの生成に基づく方法に分類できます。

3. アライメント目標に基づく方法（アライメント目標によるVLM事前トレーニング） 。アライメントタスクの目的は、画像とテキストの特徴を一致させることであり、通常、グローバルな画像とテキストの一致と、ローカルな画像領域と単語の一致に分けられます。

視覚言語モデル転送方法の概要と比較

事前学習済みの視覚言語モデルを下流タスクのゼロショット予測に直接適用することに加えて、視覚言語モデルの転移学習も大きな注目を集めています。転移学習の目的は、事前にトレーニングされた視覚言語モデルを下流のタスクにより適切に適応させることです。

この論文では、視覚言語モデルの移行方法を、プロンプト調整法、特徴アダプタ法、その他の方法の 3 つのカテゴリに分類します。

1. プロンプトチューニング。自然言語処理における「プロンプト学習」にヒントを得て、プロンプト学習法も研究され、下流のタスクに適応するために視覚言語モデル全体のパラメータを微調整することなく最適なプロンプトを見つけることで、視覚言語モデルの移行に使用されています。現在のプロンプト調整方法は、テキストプロンプト調整、ビジュアルプロンプト調整、テキストビジュアルプロンプト調整の 3 つの方法にさらに分けられます。

2. フィーチャーアダプタ方式。機能適応は、追加の軽量機能アダプターを通じてビジョン言語モデルを微調整し、下流のタスクの画像またはテキスト機能に適応します。

3. その他の方法プロンプト調整法と特徴アダプタ法に加えて、視覚言語モデルを直接微調整したり、視覚言語モデルのアーキテクチャを変更したりするなど、他の方法で視覚言語モデルを移行する研究もあります。

視覚言語モデルのための知識蒸留手法の概要と比較

視覚言語モデルは、視覚的およびテキスト的概念に関する一般的な知識を抽出できるため、いくつかの研究では、オブジェクト検出やセマンティックセグメンテーションなどの複雑で集中的な予測タスクを処理するために、一般的な視覚言語知識をどのように洗練するかを検討してきました。

視覚言語モデルの転送方法とは異なり、視覚言語モデルの知識蒸留方法は通常、視覚言語モデルのアーキテクチャによって制限されず、ほとんどの研究では、現在の最先端の検出またはセグメンテーションアーキテクチャを活用して、より優れたパフォーマンスを実現します。

本稿では、異なるタスクに応じて、知識蒸留手法を、オープン語彙オブジェクト検出のための知識蒸留とオープン語彙セマンティックセグメンテーションのための知識蒸留に分類します。

実験結果の比較

本稿では、視覚言語モデルの事前学習法、転送法、知識蒸留法をそれぞれの評価タスクで比較し、その結果を分析します（図3～5）。

図3. 画像分類タスクにおけるゼロショット予測のための視覚言語モデル事前トレーニング法のパフォーマンス

今後の方向性

最後に、本論文では、将来の視覚言語モデル研究で検討できるいくつかの研究課題と潜在的な研究方向についても説明します。

視覚言語モデルの事前トレーニングの場合:

きめ細かな視覚言語関係モデリング: 視覚言語モデルは、局所的な視覚言語相関知識を考慮することで、画像領域とピクセルをより適切に識別できます。特に、オブジェクト検出やセマンティックセグメンテーションなどの高密度予測タスクでは、視覚言語モデルはさまざまな視覚認識タスクで重要な役割を果たします。
視覚と言語の学習のための統一されたアーキテクチャ: Transformer の登場により、画像とテキストを同じ方法で学習できるようになり、統一された Transformer アーキテクチャを使用して画像とテキストを処理できるようになりました。 2 つの独立したネットワークを使用する既存の視覚言語モデルと比較して、統合された視覚と言語の学習により、効果的なクロスモーダルコミュニケーションが実現し、事前トレーニングの効率が効果的に向上します。
多言語適応型視覚言語モデルの事前トレーニング: 現在、ほとんどの視覚言語モデルは単一の言語 (英語など) でのみ事前トレーニングされているため、英語以外の地域での適用が制限されています。複数の言語のテキストを事前トレーニングに使用することで、異なる言語での同じ単語の文化的な視覚的特徴を学習でき、視覚言語モデルが異なる言語環境で効率的かつ効果的に機能できるようになります。

視覚言語モデルの移行の場合:

教師なし視覚言語モデルの転送: 現在の転送研究のほとんどは、ラベル付きデータを必要とする教師あり学習または少数ショットの教師あり学習を使用していますが、後者は少数のサンプルに過剰適合する傾向があります。教師なし転送では、大量のラベルなしデータを探索し、過剰適合のリスクを軽減できます。
視覚的な手がかり/アダプターを使用した転移: 現在の転移研究は、主にテキストの手がかりを使った学習に焦点を当てています。視覚的な手がかりの学習または視覚的なアダプターは、テキストの手がかりを補完してピクセルレベルの適応を実現し、さまざまな高密度予測タスクでより良い結果を達成できます。

視覚言語モデルの知識蒸留は、2 つの側面からさらに探求することができます。まず、知識蒸留は複数の視覚言語モデルに対して同時に実行でき、複数の視覚言語モデルの知識蒸留を調整することでより良い結果が得られます。第二に、知識蒸留は、インスタンスセグメンテーション、パノプティックセグメンテーション、人物再識別などの他の視覚認識タスクにも適用でき、知識蒸留の応用領域をさらに拡大することができます。

<<: Google 創設者が正式に LLM 戦争に復帰!ジェミニの開発を導く、OpenAIとMetaとの戦いが迫る

>>: Huggingfaceの機械学習科学者が、ホットなラマ2を特集する分析記事を執筆