小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5%だけです

小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5%だけです

2023年のコンピュータービジョンの分野では、「 Segment Anything Model」が大きな注目を集めている研究開発です。

Metaが4月にリリースしたSegmentation Everything Model(SAM)は、画像内のすべてのコンテンツを自動的にセグメント化できます。

Segment Anything の主な機能は、ヒントベースの Visual Transformer (ViT) モデルです。このモデルは、1,100 万枚の画像から 10 億を超えるマスクを含むビジョン データセットである SA-1B でトレーニングされており、特定の画像内の任意のオブジェクトをセグメント化できます。この機能により、SAM は視覚分野における基本モデルとなり、視覚以外の分野でもアプリケーション価値を生み出すことができます。

上記の利点にもかかわらず、SAM の ViT-H 画像エンコーダーには 632M のパラメーターがあるため (ヒントベースのデコーダーには 387M のパラメーターのみが必要です)、実際に SAM を使用してセグメンテーション タスクを実行する場合の計算コストとメモリ コストが高く、リアルタイム アプリケーションには困難が生じます。その後、研究者らは、デフォルトの ViT-H 画像エンコーダーの知識を小さな ViT 画像エンコーダーに精製したり、CNN ベースのリアルタイム アーキテクチャを使用して Segment Anything タスクの計算コストを削減したりするなど、いくつかの改善戦略も提案しました。

最近の研究では、Meta の研究者は、SAM のマスク画像事前トレーニング (SAMI) を使用するという別の改善案を提案しました。これは、MAE 事前トレーニング方法と SAM モデルを活用して、高品質の事前トレーニング済み ViT エンコーダーを取得することで実現されます。


  • 論文リンク: https://arxiv.org/pdf/2312.00863.pdf
  • 論文ホームページ: https://yformer.github.io/efficient-sam/

このアプローチにより、優れたパフォーマンスを維持しながら SAM の複雑さが軽減されます。具体的には、SAMI は SAM エンコーダー ViT-H を使用して特徴埋め込みを生成し、軽量エンコーダーを使用してマスク画像モデルをトレーニングして、画像パッチではなく SAM の ViT-H から特徴を再構築します。結果として得られるユニバーサル ViT バックボーンは、画像分類、オブジェクト検出、セグメンテーションなどの下流タスクに使用できます。次に研究者らは、SAM デコーダーを使用して事前トレーニング済みの軽量エンコーダーを微調整し、セグメンテーション タスクを完了します。

この方法を評価するため、研究者らはマスク画像の事前トレーニングによる転移学習設定を採用しました。つまり、モデルは最初に再構成損失を使用して 224 × 224 の画像解像度で ImageNet で事前トレーニングされ、次に教師ありデータを使用してターゲット タスクでモデルが微調整されました。

SAMI 事前トレーニングにより、ViT-Tiny/-Small/-Base などのモデルを ImageNet-1K でトレーニングし、一般化パフォーマンスを向上させることができます。 ViT-Small モデルの場合、ImageNet-1K で 100 回の微調整を行った後、研究者は 82.7% のトップ 1 精度を達成し、他の最先端の画像事前トレーニング ベースラインを上回りました。

研究者らは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに関して事前トレーニング済みモデルを微調整しました。これらすべてのタスクにおいて、私たちの方法は他の事前トレーニング済みのベースラインよりも優れた結果を達成し、さらに重要なことに、小さなモデルで大きな利益を獲得します。

論文の著者である Yunyang Xiong 氏は、次のように述べています。「この論文で提案されている EfficientSAM は、パラメータが 20 分の 1 少ないですが、実行時間は 20 倍高速で、元の SAM モデルとの差はわずか 2 パーセントポイント以内であり、MobileSAM/FastSAM よりもはるかに優れています。」

デモでは、写真内の動物をクリックすると、EfficientSAM がオブジェクトを素早くセグメント化します。

EfficientSAM は画像内の人物を正確に識別することもできます。

トライアルアドレス: https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM は、1) ImageNet での SAMI の事前トレーニング (上)、2) SA-1B での SAM の微調整 (下) の 2 つの段階で構成されています。

EfficientSAM は主に次のコンポーネントで構成されています。

クロスアテンションデコーダー: SAM 機能の監視下では、デコーダーによって再構築する必要があるのはマスクトークンのみであり、エンコーダー出力は再構築プロセスでアンカーとして機能できることがわかります。クリスクロス アテンション デコーダーでは、クエリはマスクされたトークンから取得され、キーと値はエン​​コーダーのマスクされていない機能とマスクされた機能から取得されます。交差アテンションデコーダーからのマスクされたトークンの出力特徴とエンコーダーからのマスクされていないトークンの出力特徴をマージして、MAE 出力埋め込みを作成します。これらの結合された特徴は、最終的な MAE 出力で入力画像トークンの元の位置に並べ替えられます。

リニア投影ヘッド。研究者らは、エンコーダーと交差アテンションデコーダーを通じて画像出力を取得し、これらの特徴を小さなプロジェクトヘッドに入力して、SAM 画像エンコーダー内の特徴を揃えました。簡単にするために、この論文では線形投影ヘッドのみを使用して、SAM 画像エンコーダーと MAE 出力間の特徴次元の不一致の問題に対処します。

復興損失。各トレーニング反復において、SAMI には SAM 画像エンコーダーからの順方向特徴抽出と、MAE の順方向および逆方向伝播プロセスが含まれます。 SAM 画像エンコーダーと MAE 線形投影ヘッドからの出力を比較して、再構成損失を計算します。

事前トレーニング後、エンコーダーはさまざまな視覚タスクの特徴表現を抽出でき、デコーダーは破棄されます。特に、あらゆるタスクのセグメンテーションに効率的な SAM モデルを構築するために、図 2 (下) に示すように、EfficientSAM の画像エンコーダーと SAM のデフォルトのマスク デコーダーとして、SAMI 事前トレーニング済みの軽量エンコーダー (ViT-Tiny や ViT-Small など) を採用しています。この論文では、SA-1B データセットで EfficientSAM モデルを微調整し、あらゆるタスクのセグメンテーションを実現します。

実験

画像分類。画像分類タスクにおけるこの方法の有効性を評価するために、研究者らは SAMI の考え方を ViT モデルに適用し、ImageNet-1K でのパフォーマンスを比較しました。

表 1 に示すように、SAMI は MAE、iBOT、CAE、BEiT などの事前トレーニング方法、および DeiT や SSTA などの蒸留方法と比較されます。

SAMI-B のトップ 1 精度は 84.8% に達し、これは事前トレーニング済みのベースライン、MAE、DMAE、iBOT、CAE、BEiT よりも高い値です。 SAMI は、DeiT や SSTA などの蒸留方法と比較しても大きな改善が見られます。 ViT-Tiny や ViT-Small などの軽量モデルの場合、SAMI の結果は DeiT、SSTA、DMAE、MAE と比較して大幅な向上を示しています。

オブジェクトの検出とインスタンスのセグメンテーション。また、SAMI 事前トレーニング済み ViT バックボーンを下流のオブジェクト検出およびインスタンス セグメンテーション タスクに拡張し、COCO データセットで事前トレーニングされたベースラインと比較します。表 2 に示すように、SAMI は一貫して他のベースラインよりも優れています。

これらの実験結果は、SAMI が提供する事前トレーニング済みの検出器バックボーンが、オブジェクト検出およびインスタンス分割タスクに非常に効果的であることを示しています。

セマンティックセグメンテーション。この論文では、事前トレーニング済みのバックボーンをセマンティックセグメンテーションタスクにさらに拡張し、その有効性を評価します。結果を表 3 に示します。SAMI 事前トレーニング済みバックボーンを使用する Mask2former は、MAE 事前トレーニング済みバックボーンよりも ImageNet-1K で優れた mIoU を実現します。これらの実験結果は、本論文で提案された手法がさまざまな下流タスクにうまく一般化できることを証明しています。

表 4 は、EfficientSAM と SAM、MobileSAM、SAM-MAE-Ti を比較したものです。 COCO では、EfficientSAM-Ti は MobileSAM よりも優れたパフォーマンスを発揮します。 SAMI 事前トレーニング済み重みを使用した EfficientSAM-Ti も、MAE 事前トレーニング済み重みよりも優れたパフォーマンスを発揮します。

さらに、EfficientSAM-S は、パラメータが 20 分の 1 少ないにもかかわらず、COCO ボックス上の SAM より 1.5 mIoU 低く、LVIS ボックス上の SAM より 3.5 mIoU 低いだけです。また、EfficientSAM は、MobileSAM や SAM-MAE-Ti と比較して、複数回のクリックでも優れたパフォーマンスを発揮することがわかりました。

表 5 は、ゼロショットインスタンスセグメンテーションの AP、APS、APM、および APL を示しています。研究者らは、EfficientSAM を MobileSAM および FastSAM と比較し、EfficientSAM-S は FastSAM と比較して COCO で 6.5 AP 以上、LVIS で 7.8 AP を達成したことを発見しました。 EffidientSAM-Ti に関しては、COCO で 4.1 AP、LVIS で 5.3 AP と、FastSAM よりもはるかに優れています。一方、MobileSAM は COCO で 3.6 AP、LVIS で 5.5 AP です。

さらに、EfficientSAM は FastSAM よりもはるかに軽量で、efficientSAM-Ti のパラメータは 9.8M、FastSAM のパラメータは 68M です。

図 3、4、および 5 には、読者が EfficientSAM のインスタンスのセグメンテーション機能について補足的に理解できるように、いくつかの定性的な結果が示されています。

研究の詳細については原著論文を参照してください。

<<:  GPT-175Bを例にとった大規模言語モデルの分散トレーニングの定量分析とベストプラクティス

>>:  国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開!合計30件の口頭発表と60件のスポットライト記事

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

新しい展開のアイデア | Minuet: GPU での 3D スパース畳み込みの高速化

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

物体検出のためのディープラーニングアルゴリズムの技術的な詳細を詳しく見てみましょう

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

90%が赤字、中国の人工知能企業は破産の波に直面する可能性

2017年に人工知能が国家戦略目標となって以来、関連産業は急速な発展の機会を迎え、世界で最も収益性の...

サービスロボット市場の最前線に立つセキュリティは注目に値する

現在、サービスロボットは中国のロボットが他のロボットを追い抜く重要なチャンスとみなされており、あらゆ...

...

人工知能が病理画像から癌遺伝子変異を予測できる!

過去2年間、人工知能(AI)はあらゆる分野の注目を集めるようになりました。囲碁や自動運転車でその威力...

...

超人気のミニGPT-4は視覚機能が急増し、GitHubでは2万個のスターを獲得し、中国のチームによって制作されています

ターゲット検出用のGPT-4V?ネットユーザーの実地テスト:まだ準備ができていません。検出されたカテ...

2021 年に最も人気のある協働ロボット アプリケーションは何でしょうか?

ロボットが人間の仕事を奪うかどうかという進行中の議論は、世界中のメディアの注目を集めている。勤勉な従...

...

...

マイクロソフトの新しい AI テクノロジー: プロフィール写真を動かして感情を「伝える」

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIコンテンツゼロ!純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究

画像や動画の生成には AI に頼らなければならないと誰が言ったのでしょうか?プリンストン大学の新しい...

ディープラーニングを自分の仕事にどのように統合しますか?

[[200786]]序文人工知能は現在、あらゆる分野で最もホットな技術です。最初の2年間が「インタ...

...