中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

Meta の「Segment Everything Model」(SAM) よりも高速な画像セグメンテーション ツールが登場しました。

最近、中国科学院のチームがFastSAMモデルをオープンソース化しました。このモデルは、元のSAMと同じ効果を50倍の速度で達成し、25FPSでリアルタイム推論を実現できます。

この成果は Github で 2.4K 以上のスターを獲得し、Twitter や PaperswithCode などのプラットフォームでも大きな注目を集めました。

関連論文のプレプリントが公開されました。

以下のコンテンツは寄稿者によって提供されています

Visual Foundations Model(SAM)[1]は、多くのコンピュータービジョンタスクに大きな影響を与えてきました。これは、画像の分割、画像の説明、画像編集などのタスクの基盤となっています。

しかし、計算コストが膨大であるため、実際のシナリオでは広範囲に適用できません。

最近、中国科学院自動化研究所は、高速化された代替ソリューションである FastSAM を提案し、オープンソース化しました。

すべてをセグメント化するタスクを、完全なインスタンスのセグメント化とプロンプトによる選択という 2 つのサブタスクに再分割することで、インスタンスのセグメント化ブランチを備えた従来の CNN 検出器は、SAM 方式に匹敵するパフォーマンスを 50 倍の実行速度で実現します。これは、すべてをリアルタイムでセグメント化する最初の基本モデルです。

意味と動機

SAM の出現により、「Segment Anything」タスクが開発されました。このタスクは、その一般化とスケーラビリティにより、将来的には幅広い視覚タスクの基礎となる可能性があります。

FastSAM は、このタスクにリアルタイム ソリューションを提供し、セグメンテーション モデルの実用的なアプリケーションと開発をさらに促進します。

この論文では、「すべてをセグメント化する」タスクを、完全なインスタンスのセグメント化とプロンプトによる選択の 2 つの段階に分離しています。人工的な事前構造を導入することで、SAM と同様のパフォーマンスを実現しながら、50 倍の速度向上を実現しています。

FastSAM の優れたパフォーマンスは、視覚タスクのアーキテクチャの選択に新たな視点を提供します。特定のタスクでは、専用のモデル構造が計算効率と精度の点で依然として有利である可能性があります。

モデル圧縮の観点から見ると、FastSAM は、大規模なモデルに基づいて高品質のデータを生成し、人工的な事前構造を導入することで計算の複雑さを大幅に削減する実現可能性も証明しています。

ウェブデモ

HuggingFaceのスペースでは、FastSAMのセグメンテーション効果をすぐに体験できます。

カスタム画像をアップロードし、モードを選択してパラメータを設定し、分割ボタンをクリックすると、満足のいくセグメンテーション結果を得ることができます。

現在、すべてのモードとポイント モード間の相互作用がサポートされており、将来的には他のモードもサポートされる予定です。 Replicate では、オンライン エクスペリエンスのすべてのモードがサポートされています。

複数のインタラクション方法

FastSAM は現在、3 つの対話モードをサポートしています。

マルチポイントインタラクションモード

FastSAM は、前景/背景ラベルを使用した複数のポイント インタラクション モードをサポートしており、さまざまなシナリオのアプリケーション要件に適切に適応できます。

欠陥検出のシナリオを例にとると、物体の欠陥を正確に検出するには、欠陥部分に前景ポイントを追加し、正常な錠剤部分に背景ポイントを追加するだけで済みます。

フレームインタラクションモード

FastSAM はボックス インタラクション モードもサポートしています。欠陥検出を例にとると、物体の欠陥を正確に検出するには、欠陥のおおよその位置を選択するだけで済みます。

テキストインタラクションモード

FastSAM はテキストインタラクションモードもサポートし、オープンソース化しています。さまざまなテキストプロンプトを通じて、FastSAM はさまざまな色の犬を正確に分類できます。

仕組み

下の図に示すように、FastSAM のネットワーク アーキテクチャは、フルインスタンス セグメンテーションとヒント ガイド選択の 2 つの段階に分けられます。

完全なインスタンスのセグメンテーション段階では、FastSAM は畳み込みニューラル ネットワークを使用して、画像内のすべてのオブジェクトまたは領域をセグメント化します。

プロンプトガイドによる選択フェーズでは、ポイントプロンプト、ボックスプロンプト、テキストプロンプトなどのさまざまなプロンプトを使用して、注目の対象を選択します。

Transformer ベースの方法とは異なり、FastSAM は、ローカル接続やオブジェクト割り当て戦略など、視覚セグメンテーション タスクに密接に関連する事前知識を組み込んでいます。これにより、パラメータ数と計算量を減らしながら、より速く収束できるようになります。

定性的および定量的分析

テスト結果によると、FastSAM のパフォーマンスはあらゆる面で Meta のオリジナル バージョンに劣っていません。

スピード

表からわかるように、FastSAM は SAM をはるかに上回る速度性能を実現します。「すべてを分割」モードでは、SAM の速度は均一なポイント プロンプトの数によって影響を受けますが、その構造の特性により、ポイント プロンプトの数が増えても FastSAM の実行時間は増加しないため、「すべてを分割」モードに適しています。

同時に、FastSAM は構造設計において人間の事前知識を活用するため、リアルタイム推論を実行する際に SAM と同等のパフォーマンスも実現します。

エッジ検出

次の図は代表的なエッジ検出結果を示しています。定性的な観察によれば、FastSAM のパラメータは大幅に少ない (68M のみ) にもかかわらず、非常に高品質のエッジ検出結果を生成できることが示されています。

下の表からわかるように、FastSAM は SAM と同様のパフォーマンスを実現します。 Ground Truth と比較すると、FastSAM と SAM はどちらもより多くのエッジを予測する傾向があり、この偏差は表に定量的に反映されています。

オブジェクト候補

下の表からわかるように、FastSAMはbbox AR@1000の点で最も計算集約的なSAMモデル(SAM-H E64)よりも優れており、LVISデータセットでトレーニングされたViTDet-H[2]に次ぐ性能です。

結果を視覚化する

SA-1B セグメンテーション結果: 次の図は、SA-1B データセット上のさまざまなシーンとマスクの数に対する FastSAM のセグメンテーション結果を示しています。

ダウンストリーム アプリケーションの比較: 次の 3 つの図は、異常検出、顕著なオブジェクトのセグメンテーション、建物の抽出という 3 つのダウンストリーム タスクにおける FastSAM と SAM のパフォーマンスを比較したものです。FastSAM は、さまざまなモードで SAM と同等のパフォーマンスを達成しています。

参考文献
[1] Kirillov A、Mintun E、Ravi N、et al。Segment anything[J]。arXivプレプリントarXiv:2304.02643、2023。
[2] Li J、Yang T、Ji W、他「弱教師付き時間的動作局在化のためのノイズ除去クロスビデオコントラストの検討[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.

論文アドレス: https://arxiv.org/abs/2306.12156

GitHub プロジェクト ページ: https://github.com/CASIA-IVA-Lab/FastSAM

HuggingFace デモ: https://huggingface.co/spaces/An-619/FastSAM

デモを複製する: https://replicate.com/casia-iva-lab/fastsam

<<:  SFから現実へ:人間のデジタルツインの旅

>>:  AIがネットワークゴミを生み出す:古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる

ブログ    
ブログ    

推薦する

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されていま...

アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

最近、CVPR2022の各競技の結果が次々と発表されました。ByteDanceの知能創造AIプラット...

...

...

今後5年間であなたの人生はどのように変わるでしょうか?人工知能は水力発電のようなさまざまな産業に参入する可能性がある

中国は最近、第14次5カ年計画の草案と2035年までの長期目標を発表し、各界から激しい議論を巻き起こ...

データガバナンスとビッグモデル統合の実践

コスト削減と効率向上の観点から、機械学習チームの構成を例に挙げ、Dipu TechnologyのDe...

2023 年のテクノロジー業界の最高、最悪、そして最も醜い出来事

翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年はテクノロジー業界にとってエキサイ...

「バーチャル老黄」はあなたを騙しましたが、夏玉氷の手に触れることができますか?

昨年のNVIDIAのGTCで「Virtual Huang」はどのようにして作られたのでしょうか? ブ...

RSAは過去2世紀で最も重要なアルゴリズムの1つです

Diffie-Hellman暗号化アルゴリズムの欠点[[225219]]前回の記事では、Diffie...

モノのインターネット、人工知能、ブロックチェーン、どれがあなたにぴったりでしょうか?

今はお金を稼ぐのが難しく、ビジネスも簡単ではないと言う人もいますが、今こそ最高の時代だと言う人もいま...

調達における AI の夜明け: 効率性と洞察力の新時代

McKinsey & Company の画期的なレポートでは、AI を含むデジタル調達ソリュ...

Google CEO ピチャイ: 新しい AI 製品のサブスクリプション モデルを検討中

10月26日、2023年第3四半期の決算発表で、グーグルとその親会社アルファベットのCEOであるサン...

...

科学者らがドローンを使って南極のペンギンの「国勢調査」を実施

最近、南極で初めて金色のペンギンが発見されました。このペンギンは「黄色いダイヤモンドを帯びている」と...

...