NTUと上海AIラボが300以上の論文をまとめました：Transformerベースの視覚セグメンテーションの最新レビューが公開されました

SAM (Segment Anything) は、基本的な視覚セグメンテーションモデルとして、わずか 3 か月で多くの研究者の注目と追跡を集めました。 SAM の背後にあるテクノロジーを体系的に理解し、進化のペースについていき、独自の SAM モデルを作成したい場合は、このトランスフォーマーベースのセグメンテーション調査を見逃さないでください。最近、南洋理工大学と上海人工知能研究所の研究者数名がトランスフォーマーベースのセグメンテーションに関するレビューを書き、近年のトランスフォーマーベースのセグメンテーションと検出モデルを体系的にレビューしました。調査された最新モデルは今年6月時点のものです。同時に、このレビューには関連分野の最新の論文や多数の実験分析と比較も含まれており、幅広い展望を持ついくつかの将来の研究方向を明らかにしています。

視覚的セグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメントまたはグループに分割することを目的としています。この技術は、自動運転、画像編集、ロボット認識、医療分析など、現実世界で多くの用途に使用されています。過去 10 年間で、ディープラーニングベースの手法はこの分野で目覚ましい進歩を遂げました。最近では、もともと自然言語処理用に設計された自己注意ベースのニューラルネットワークである Transformer が、さまざまな視覚処理タスクにおいて、従来の畳み込みアプローチや再帰アプローチを大幅に上回るパフォーマンスを発揮しています。具体的には、Visual Transformer は、さまざまなセグメンテーションタスクに対して強力で統合された、さらにシンプルなソリューションを提供します。このレビューでは、Transformer ベースの視覚セグメンテーションの包括的な概要を示し、最近の進歩をまとめています。まず、問題の定義、データセット、以前の畳み込み手法などの背景を確認します。次に、本論文では、最近の Transformer ベースの方法をすべて統合するメタアーキテクチャについてまとめます。この論文では、このメタアーキテクチャに基づいて、このメタアーキテクチャの変更や関連するアプリケーションを含むさまざまな方法設計を検討します。さらに、本稿では、3D ポイントクラウドセグメンテーション、基本モデルチューニング、ドメイン適応セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、いくつかの関連設定についても紹介します。さらに、本論文では、広く認知されているいくつかのデータセットでこれらの手法をまとめ、再評価します。最後に、この論文では、この分野における未解決の課題を特定し、将来の研究の方向性を提案しています。この記事では、Transformer ベースの最新のセグメンテーションおよび検出方法を引き続き追跡します。

写真

プロジェクトアドレス: https://github.com/lxtGH/Awesome-Segmentation-With-Transformer

論文アドレス: https://arxiv.org/pdf/2304.09854.pdf

研究の動機

ViT と DETR の登場により、セグメンテーションと検出の分野で大きな進歩が遂げられました。現在、ほぼすべてのデータセットベンチマークでトップランクの手法は、Transformer に基づいています。そのためには、この方向の方法と技術的特徴を体系的に要約し、比較する必要があります。
最近の大規模モデルアーキテクチャはすべて、マルチモーダルモデルやセグメンテーションベースモデル (SAM) などの Transformer 構造に基づいており、さまざまな視覚タスクが統一されたモデルモデリングへと移行しています。
セグメンテーションと検出によって、関連する下流タスクが多数発生し、これらのタスクを解決するための多くの方法も、Transformer 構造を使用しています。

概要機能

体系的で読みやすい。この論文では、セグメンテーションのさまざまなタスク定義、および関連するタスク定義と評価メトリックを体系的にレビューします。さらに、本論文では畳み込み法から始めて、ViT と DETR に基づくメタアーキテクチャをまとめています。このレビューでは、このメタフレームワークに基づいて、関連する方法を要約して一般化し、最近の方法を体系的にレビューします。具体的な技術レビューのルートを図1に示します。
技術的な観点からの詳細な分類。これまでの Transformer のレビューと比較して、この記事ではメソッドをより慎重に分類します。この記事では、同様のアイデアを持つ論文を集め、それらの類似点と相違点を比較します。例えば、この記事では、メタアーキテクチャを同時に変更するデコーダー側の手法を、画像ベースの Cross Attention とビデオベースの時空間 Cross Attention モデリングに分類します。
研究上の質問の包括性。この論文では、画像、ビデオ、ポイントクラウドのセグメンテーションタスクを含むセグメンテーションのさまざまな側面を体系的にレビューします。同時に、本稿では、オープンセットセグメンテーションと検出モデル、教師なしセグメンテーション、弱教師セグメンテーションなどの関連する方向性についてもレビューします。

写真

図1. 調査内容のロードマップ

図2. よく使われるデータセットとセグメンテーションタスクの概要

Transformerベースのセグメンテーションと検出方法の概要と比較

図3. 一般的なメタアーキテクチャフレームワーク

この論文ではまず、DETR と MaskFormer のフレームワークに基づくメタアーキテクチャについて概説します。このモデルは、次の異なるモジュールで構成されています。

バックボーン:画像の特徴を抽出するために使用される特徴抽出器。
ネック:マルチスケールオブジェクトを処理するためにマルチスケール機能を構築します。
オブジェクトクエリ:前景オブジェクトや背景オブジェクトなど、シーン内の各エンティティを表すために使用されるクエリオブジェクト。
デコーダー:オブジェクトクエリと対応する機能を段階的に最適化するために使用されるデコーダー。
エンドツーエンドのトレーニング:オブジェクトクエリに基づく設計により、エンドツーエンドの最適化を実現できます。

このメタアーキテクチャに基づいて、既存の方法は、タスクに応じて最適化と調整を行うために、次の 5 つの異なる方向に分けることができます。図 4 に示すように、各方向にはいくつかの異なるサブ方向が含まれています。

図4. Transformerベースのセグメンテーション手法の概要と比較

より優れた特徴表現学習、表現学習。強力な視覚的特徴表現は、常により優れたセグメンテーション結果につながります。この論文では、関連する作業を、より優れた視覚的な Transformer 設計、ハイブリッド CNN/Transformer/MLP、自己教師あり学習の 3 つの側面に分類しています。
デコーダー側のメソッド設計、デコーダーでのインタラクション設計。このセクションでは、新しい Transformer デコーダーの設計について説明します。本稿では、デコーダー設計を 2 つのグループに分けます。1 つは画像セグメンテーションにおける交差注意設計を改善するためのグループ、もう 1 つはビデオセグメンテーションにおける時空間交差注意設計を改善するためのグループです。前者は、元の DETR のデコーダーを改善するための、より優れたデコーダーの設計に重点を置いています。後者は、クエリオブジェクトベースのオブジェクト検出器とセグメンテーションをビデオドメインに拡張し、ビデオオブジェクト検出 (VOD)、ビデオインスタンスセグメンテーション (VIS)、ビデオピクセルセグメンテーション (VPS) を実現し、時間的な一貫性と相関関係のモデリングに重点を置いています。
オブジェクトクエリの最適化の観点から、クエリオブジェクトを最適化してみます。 Faster-RCNN と比較すると、DETR の収束スケジュールは長くなります。クエリオブジェクトの役割が重要であるため、トレーニングを高速化し、パフォーマンスを向上させるために、いくつかの既存の方法が研究されてきました。この論文では、オブジェクトクエリアプローチに基づいて、以下の文献を、位置情報の追加と追加の監視の採用という 2 つの側面に分類します。位置情報は、クエリ機能の高速トレーニングサンプリングの手がかりとなります。追加の監督は、DETR のデフォルトの損失関数以外の特定の損失関数の設計に重点を置いています。
クエリオブジェクトを使用して、フィーチャをインスタンスに関連付けます (関連付けのためのクエリの使用)。クエリオブジェクトのシンプルさを活かして、最近のいくつかの研究では、下流のタスクを解決するための関連ツールとしてクエリオブジェクトを使用しています。主な使用法は 2 つあります。1 つはインスタンスレベルの関連付け、もう 1 つはタスクレベルの関連付けです。前者は、インスタンス識別の考え方を採用し、ビデオのセグメンテーションや追跡など、ビデオ内のインスタンスレベルのマッチング問題を解決します。後者は、クエリオブジェクトを使用してさまざまなサブタスクを橋渡しし、効率的なマルチタスク学習を実現します。
マルチモーダル条件付きクエリオブジェクト生成、条件付きクエリ生成。この章では、マルチモーダルセグメンテーションタスクに焦点を当てます。条件付きクエリオブジェクトは、主にクロスモーダルおよびクロスイメージの特徴マッチングタスクを処理するために使用されます。タスクの入力条件に応じて、デコーダーヘッドは異なるクエリを使用して、対応するセグメンテーションマスクを取得します。本論文では、さまざまな入力のソースに応じて、これらの作品を言語的特徴と画像的特徴という 2 つの側面に分類します。これらの方法は、クエリオブジェクトをさまざまなモデルの機能と融合する戦略に基づいており、複数のマルチモーダルセグメンテーションタスクと少数ショットセグメンテーションで優れた結果を達成しています。

図 5 は、これら 5 つの異なる方向におけるいくつかの代表的な作品の比較を示しています。より具体的な方法の詳細と比較については、論文の内容を参照してください。

写真

図5. Transformerベースのセグメンテーションと検出の代表的な手法の概要と比較

異なる方法による実験結果の比較

図7. セマンティックセグメンテーションデータセットのベンチマーク実験

図8. パノプティックセグメンテーションデータセットのベンチマーク実験

この論文では、同じ実験設計条件を一貫して使用して、パノラマセグメンテーションとセマンティックセグメンテーションの複数のデータセットに関するいくつかの代表的な研究の結果を比較します。結果は、同じトレーニング戦略とエンコーダーを使用すると、方法間のパフォーマンスのギャップが狭まることを示しています。

さらに、この記事では、複数の異なるデータセットとタスクにおける最近の Transformer ベースのセグメンテーション手法の結果も比較します。（セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーション、および対応するビデオセグメンテーションタスク）

今後の方向性

さらに、本論文では、将来の研究の方向性に関する分析もいくつか提供しています。ここでは例として 3 つの異なる方向を示します。

より一般的で統一されたセグメンテーションモデル。さまざまなセグメンテーションタスクを統合するために Transformer 構造を使用するのがトレンドです。最近の研究では、クエリオブジェクトベースのトランスフォーマーを使用して、単一のアーキテクチャ内でさまざまなセグメンテーションタスクを実行しています。考えられる研究の方向性としては、さまざまなセグメンテーションデータセットで 1 つのモデルを通じて画像とビデオのセグメンテーションタスクを統合することです。これらの一般的なモデルは、さまざまなシナリオで普遍的で堅牢なセグメンテーションを実現できます。たとえば、さまざまなシナリオでまれなカテゴリを検出してセグメント化することで、ロボットはより適切な判断を下すことができます。
視覚的推論と組み合わせたセグメンテーションモデル。視覚的推論では、ロボットがシーン内のオブジェクト間のつながりを理解する必要があり、この理解は動作計画において重要な役割を果たします。これまでの研究では、オブジェクト追跡やシーン理解などのさまざまなアプリケーションで、セグメンテーション結果を視覚推論モデルへの入力として使用することが検討されてきました。セグメンテーションと視覚的推論の統合は、セグメンテーションと関係分類の両方に相互に有益な可能性を秘めており、有望な方向性となる可能性があります。視覚的推論をセグメンテーションプロセスに組み込むことで、研究者は推論の力を活用してセグメンテーションの精度を向上させることができ、セグメンテーションの結果は視覚的推論のためのより優れた入力を提供することもできます。
継続学習のためのセグメンテーションモデルの研究。既存のセグメンテーション手法は通常、事前に定義されたカテゴリのセットを持つ閉世界のデータセットでベンチマークされます。つまり、トレーニングサンプルとテストサンプルには、事前にわかっている同じカテゴリと特徴空間があると想定されます。ただし、実際のシナリオは通常、オープンワールドで非定常であり、新しいカテゴリのデータが継続的に出現する可能性があります。例えば、自動運転車や医療診断では、予期せぬ状況が突然発生する可能性があります。現実世界と閉ざされた世界のシナリオにおける既存の方法のパフォーマンスと機能の間には明らかなギャップがあります。したがって、セグメンテーションモデルの既存の知識ベースに新しい概念を徐々に継続的に組み込み、モデルが生涯学習を実行できるようにすることが望ましいです。

詳しい研究の方向性については、原著論文を参照してください。

<<: 私をプログラマーと呼ばないで、私は「AIエンジニア」です、マスク氏：自然言語プログラミングを始めましょう

>>: