小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5%だけです

小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5%だけです

2023年のコンピュータービジョンの分野では、「 Segment Anything Model」が大きな注目を集めている研究開発です。

Metaが4月にリリースしたSegmentation Everything Model(SAM)は、画像内のすべてのコンテンツを自動的にセグメント化できます。

Segment Anything の主な機能は、ヒントベースの Visual Transformer (ViT) モデルです。このモデルは、1,100 万枚の画像から 10 億を超えるマスクを含むビジョン データセットである SA-1B でトレーニングされており、特定の画像内の任意のオブジェクトをセグメント化できます。この機能により、SAM は視覚分野における基本モデルとなり、視覚以外の分野でもアプリケーション価値を生み出すことができます。

上記の利点にもかかわらず、SAM の ViT-H 画像エンコーダーには 632M のパラメーターがあるため (ヒントベースのデコーダーには 387M のパラメーターのみが必要です)、実際に SAM を使用してセグメンテーション タスクを実行する場合の計算コストとメモリ コストが高く、リアルタイム アプリケーションには困難が生じます。その後、研究者らは、デフォルトの ViT-H 画像エンコーダーの知識を小さな ViT 画像エンコーダーに精製したり、CNN ベースのリアルタイム アーキテクチャを使用して Segment Anything タスクの計算コストを削減したりするなど、いくつかの改善戦略も提案しました。

最近の研究では、Meta の研究者は、SAM のマスク画像事前トレーニング (SAMI) を使用するという別の改善案を提案しました。これは、MAE 事前トレーニング方法と SAM モデルを活用して、高品質の事前トレーニング済み ViT エンコーダーを取得することで実現されます。


  • 論文リンク: https://arxiv.org/pdf/2312.00863.pdf
  • 論文ホームページ: https://yformer.github.io/efficient-sam/

このアプローチにより、優れたパフォーマンスを維持しながら SAM の複雑さが軽減されます。具体的には、SAMI は SAM エンコーダー ViT-H を使用して特徴埋め込みを生成し、軽量エンコーダーを使用してマスク画像モデルをトレーニングして、画像パッチではなく SAM の ViT-H から特徴を再構築します。結果として得られるユニバーサル ViT バックボーンは、画像分類、オブジェクト検出、セグメンテーションなどの下流タスクに使用できます。次に研究者らは、SAM デコーダーを使用して事前トレーニング済みの軽量エンコーダーを微調整し、セグメンテーション タスクを完了します。

この方法を評価するため、研究者らはマスク画像の事前トレーニングによる転移学習設定を採用しました。つまり、モデルは最初に再構成損失を使用して 224 × 224 の画像解像度で ImageNet で事前トレーニングされ、次に教師ありデータを使用してターゲット タスクでモデルが微調整されました。

SAMI 事前トレーニングにより、ViT-Tiny/-Small/-Base などのモデルを ImageNet-1K でトレーニングし、一般化パフォーマンスを向上させることができます。 ViT-Small モデルの場合、ImageNet-1K で 100 回の微調整を行った後、研究者は 82.7% のトップ 1 精度を達成し、他の最先端の画像事前トレーニング ベースラインを上回りました。

研究者らは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに関して事前トレーニング済みモデルを微調整しました。これらすべてのタスクにおいて、私たちの方法は他の事前トレーニング済みのベースラインよりも優れた結果を達成し、さらに重要なことに、小さなモデルで大きな利益を獲得します。

論文の著者である Yunyang Xiong 氏は、次のように述べています。「この論文で提案されている EfficientSAM は、パラメータが 20 分の 1 少ないですが、実行時間は 20 倍高速で、元の SAM モデルとの差はわずか 2 パーセントポイント以内であり、MobileSAM/FastSAM よりもはるかに優れています。」

デモでは、写真内の動物をクリックすると、EfficientSAM がオブジェクトを素早くセグメント化します。

EfficientSAM は画像内の人物を正確に識別することもできます。

トライアルアドレス: https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM は、1) ImageNet での SAMI の事前トレーニング (上)、2) SA-1B での SAM の微調整 (下) の 2 つの段階で構成されています。

EfficientSAM は主に次のコンポーネントで構成されています。

クロスアテンションデコーダー: SAM 機能の監視下では、デコーダーによって再構築する必要があるのはマスクトークンのみであり、エンコーダー出力は再構築プロセスでアンカーとして機能できることがわかります。クリスクロス アテンション デコーダーでは、クエリはマスクされたトークンから取得され、キーと値はエン​​コーダーのマスクされていない機能とマスクされた機能から取得されます。交差アテンションデコーダーからのマスクされたトークンの出力特徴とエンコーダーからのマスクされていないトークンの出力特徴をマージして、MAE 出力埋め込みを作成します。これらの結合された特徴は、最終的な MAE 出力で入力画像トークンの元の位置に並べ替えられます。

リニア投影ヘッド。研究者らは、エンコーダーと交差アテンションデコーダーを通じて画像出力を取得し、これらの特徴を小さなプロジェクトヘッドに入力して、SAM 画像エンコーダー内の特徴を揃えました。簡単にするために、この論文では線形投影ヘッドのみを使用して、SAM 画像エンコーダーと MAE 出力間の特徴次元の不一致の問題に対処します。

復興損失。各トレーニング反復において、SAMI には SAM 画像エンコーダーからの順方向特徴抽出と、MAE の順方向および逆方向伝播プロセスが含まれます。 SAM 画像エンコーダーと MAE 線形投影ヘッドからの出力を比較して、再構成損失を計算します。

事前トレーニング後、エンコーダーはさまざまな視覚タスクの特徴表現を抽出でき、デコーダーは破棄されます。特に、あらゆるタスクのセグメンテーションに効率的な SAM モデルを構築するために、図 2 (下) に示すように、EfficientSAM の画像エンコーダーと SAM のデフォルトのマスク デコーダーとして、SAMI 事前トレーニング済みの軽量エンコーダー (ViT-Tiny や ViT-Small など) を採用しています。この論文では、SA-1B データセットで EfficientSAM モデルを微調整し、あらゆるタスクのセグメンテーションを実現します。

実験

画像分類。画像分類タスクにおけるこの方法の有効性を評価するために、研究者らは SAMI の考え方を ViT モデルに適用し、ImageNet-1K でのパフォーマンスを比較しました。

表 1 に示すように、SAMI は MAE、iBOT、CAE、BEiT などの事前トレーニング方法、および DeiT や SSTA などの蒸留方法と比較されます。

SAMI-B のトップ 1 精度は 84.8% に達し、これは事前トレーニング済みのベースライン、MAE、DMAE、iBOT、CAE、BEiT よりも高い値です。 SAMI は、DeiT や SSTA などの蒸留方法と比較しても大きな改善が見られます。 ViT-Tiny や ViT-Small などの軽量モデルの場合、SAMI の結果は DeiT、SSTA、DMAE、MAE と比較して大幅な向上を示しています。

オブジェクトの検出とインスタンスのセグメンテーション。また、SAMI 事前トレーニング済み ViT バックボーンを下流のオブジェクト検出およびインスタンス セグメンテーション タスクに拡張し、COCO データセットで事前トレーニングされたベースラインと比較します。表 2 に示すように、SAMI は一貫して他のベースラインよりも優れています。

これらの実験結果は、SAMI が提供する事前トレーニング済みの検出器バックボーンが、オブジェクト検出およびインスタンス分割タスクに非常に効果的であることを示しています。

セマンティックセグメンテーション。この論文では、事前トレーニング済みのバックボーンをセマンティックセグメンテーションタスクにさらに拡張し、その有効性を評価します。結果を表 3 に示します。SAMI 事前トレーニング済みバックボーンを使用する Mask2former は、MAE 事前トレーニング済みバックボーンよりも ImageNet-1K で優れた mIoU を実現します。これらの実験結果は、本論文で提案された手法がさまざまな下流タスクにうまく一般化できることを証明しています。

表 4 は、EfficientSAM と SAM、MobileSAM、SAM-MAE-Ti を比較したものです。 COCO では、EfficientSAM-Ti は MobileSAM よりも優れたパフォーマンスを発揮します。 SAMI 事前トレーニング済み重みを使用した EfficientSAM-Ti も、MAE 事前トレーニング済み重みよりも優れたパフォーマンスを発揮します。

さらに、EfficientSAM-S は、パラメータが 20 分の 1 少ないにもかかわらず、COCO ボックス上の SAM より 1.5 mIoU 低く、LVIS ボックス上の SAM より 3.5 mIoU 低いだけです。また、EfficientSAM は、MobileSAM や SAM-MAE-Ti と比較して、複数回のクリックでも優れたパフォーマンスを発揮することがわかりました。

表 5 は、ゼロショットインスタンスセグメンテーションの AP、APS、APM、および APL を示しています。研究者らは、EfficientSAM を MobileSAM および FastSAM と比較し、EfficientSAM-S は FastSAM と比較して COCO で 6.5 AP 以上、LVIS で 7.8 AP を達成したことを発見しました。 EffidientSAM-Ti に関しては、COCO で 4.1 AP、LVIS で 5.3 AP と、FastSAM よりもはるかに優れています。一方、MobileSAM は COCO で 3.6 AP、LVIS で 5.5 AP です。

さらに、EfficientSAM は FastSAM よりもはるかに軽量で、efficientSAM-Ti のパラメータは 9.8M、FastSAM のパラメータは 68M です。

図 3、4、および 5 には、読者が EfficientSAM のインスタンスのセグメンテーション機能について補足的に理解できるように、いくつかの定性的な結果が示されています。

研究の詳細については原著論文を参照してください。

<<:  GPT-175Bを例にとった大規模言語モデルの分散トレーニングの定量分析とベストプラクティス

>>:  国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開!合計30件の口頭発表と60件のスポットライト記事

ブログ    

推薦する

SQL クエリ エンジンの自然言語として GPT を使用する方法

翻訳者 |李睿レビュー | Chonglou 今日では、 ChatGPTのような生成AI技術のおかげ...

Google は、ユーザーにパーソナライズされたヘルプを提供するために、Bard を搭載したアシスタントをリリースしました。

海外メディアの報道によると、グーグルは10月7日、先日開催された「Made by Google 20...

「自然言語処理」とは何ですか? 具体的に何を「処理」するのですか?

[51CTO.com からのオリジナル記事] 「自然言語処理」(NLP) は、近年テクノロジー コ...

...

...

2021年の中国AI音声認識産業の市場現状と発展見通しの分析

2020年、中国のスマート音声市場規模は113.96億元に達し、前年比19.2%増加した。中国のスマ...

人工知能とデータサイエンスに基づく実用的な分析システムの構築におけるシティバンクの実践経験

シティバンクは、人工知能とデータサイエンスに基づいた実用的な分析システムをどのように構築したのでしょ...

...

...

産業用ロボット市場は変化しており、今後は国産品の台頭が期待されます!

皆さんご存知のとおり、2013年以来、我が国は世界最大の産業用ロボットの需要と応用市場となっています...

「顔認証」は大人気だけど、知らないことも多い

[[185752]] CeBITカンファレンスでのジャック・マー氏の「顔スキャン」支払いから、マイク...

...

「AI Perspective Eyes」では、マー賞を3度受賞したアンドリューが、任意のオブジェクトの遮蔽補完の問題を解決するチームを率いた。

オクルージョンは、コンピューター ビジョンにおける最も基本的な問題ですが、未だに解決されていない問題...

...

...