Meta の「Segment Everything Model」(SAM) よりも高速な画像セグメンテーション ツールが登場しました。 最近、中国科学院のチームがFastSAMモデルをオープンソース化しました。このモデルは、元のSAMと同じ効果を50倍の速度で達成し、25FPSでリアルタイム推論を実現できます。 この成果は Github で 2.4K 以上のスターを獲得し、Twitter や PaperswithCode などのプラットフォームでも大きな注目を集めました。 関連論文のプレプリントが公開されました。 以下のコンテンツは寄稿者によって提供されています Visual Foundations Model(SAM)[1]は、多くのコンピュータービジョンタスクに大きな影響を与えてきました。これは、画像の分割、画像の説明、画像編集などのタスクの基盤となっています。 しかし、計算コストが膨大であるため、実際のシナリオでは広範囲に適用できません。 最近、中国科学院自動化研究所は、高速化された代替ソリューションである FastSAM を提案し、オープンソース化しました。 すべてをセグメント化するタスクを、完全なインスタンスのセグメント化とプロンプトによる選択という 2 つのサブタスクに再分割することで、インスタンスのセグメント化ブランチを備えた従来の CNN 検出器は、SAM 方式に匹敵するパフォーマンスを 50 倍の実行速度で実現します。これは、すべてをリアルタイムでセグメント化する最初の基本モデルです。 意味と動機SAM の出現により、「Segment Anything」タスクが開発されました。このタスクは、その一般化とスケーラビリティにより、将来的には幅広い視覚タスクの基礎となる可能性があります。 FastSAM は、このタスクにリアルタイム ソリューションを提供し、セグメンテーション モデルの実用的なアプリケーションと開発をさらに促進します。 この論文では、「すべてをセグメント化する」タスクを、完全なインスタンスのセグメント化とプロンプトによる選択の 2 つの段階に分離しています。人工的な事前構造を導入することで、SAM と同様のパフォーマンスを実現しながら、50 倍の速度向上を実現しています。 FastSAM の優れたパフォーマンスは、視覚タスクのアーキテクチャの選択に新たな視点を提供します。特定のタスクでは、専用のモデル構造が計算効率と精度の点で依然として有利である可能性があります。 モデル圧縮の観点から見ると、FastSAM は、大規模なモデルに基づいて高品質のデータを生成し、人工的な事前構造を導入することで計算の複雑さを大幅に削減する実現可能性も証明しています。 例ウェブデモHuggingFaceのスペースでは、FastSAMのセグメンテーション効果をすぐに体験できます。 カスタム画像をアップロードし、モードを選択してパラメータを設定し、分割ボタンをクリックすると、満足のいくセグメンテーション結果を得ることができます。 現在、すべてのモードとポイント モード間の相互作用がサポートされており、将来的には他のモードもサポートされる予定です。 Replicate では、オンライン エクスペリエンスのすべてのモードがサポートされています。 複数のインタラクション方法FastSAM は現在、3 つの対話モードをサポートしています。 マルチポイントインタラクションモードFastSAM は、前景/背景ラベルを使用した複数のポイント インタラクション モードをサポートしており、さまざまなシナリオのアプリケーション要件に適切に適応できます。 欠陥検出のシナリオを例にとると、物体の欠陥を正確に検出するには、欠陥部分に前景ポイントを追加し、正常な錠剤部分に背景ポイントを追加するだけで済みます。 フレームインタラクションモードFastSAM はボックス インタラクション モードもサポートしています。欠陥検出を例にとると、物体の欠陥を正確に検出するには、欠陥のおおよその位置を選択するだけで済みます。 テキストインタラクションモードFastSAM はテキストインタラクションモードもサポートし、オープンソース化しています。さまざまなテキストプロンプトを通じて、FastSAM はさまざまな色の犬を正確に分類できます。 仕組み下の図に示すように、FastSAM のネットワーク アーキテクチャは、フルインスタンス セグメンテーションとヒント ガイド選択の 2 つの段階に分けられます。 完全なインスタンスのセグメンテーション段階では、FastSAM は畳み込みニューラル ネットワークを使用して、画像内のすべてのオブジェクトまたは領域をセグメント化します。 プロンプトガイドによる選択フェーズでは、ポイントプロンプト、ボックスプロンプト、テキストプロンプトなどのさまざまなプロンプトを使用して、注目の対象を選択します。 Transformer ベースの方法とは異なり、FastSAM は、ローカル接続やオブジェクト割り当て戦略など、視覚セグメンテーション タスクに密接に関連する事前知識を組み込んでいます。これにより、パラメータ数と計算量を減らしながら、より速く収束できるようになります。 定性的および定量的分析テスト結果によると、FastSAM のパフォーマンスはあらゆる面で Meta のオリジナル バージョンに劣っていません。 スピード表からわかるように、FastSAM は SAM をはるかに上回る速度性能を実現します。「すべてを分割」モードでは、SAM の速度は均一なポイント プロンプトの数によって影響を受けますが、その構造の特性により、ポイント プロンプトの数が増えても FastSAM の実行時間は増加しないため、「すべてを分割」モードに適しています。 同時に、FastSAM は構造設計において人間の事前知識を活用するため、リアルタイム推論を実行する際に SAM と同等のパフォーマンスも実現します。 エッジ検出次の図は代表的なエッジ検出結果を示しています。定性的な観察によれば、FastSAM のパラメータは大幅に少ない (68M のみ) にもかかわらず、非常に高品質のエッジ検出結果を生成できることが示されています。 下の表からわかるように、FastSAM は SAM と同様のパフォーマンスを実現します。 Ground Truth と比較すると、FastSAM と SAM はどちらもより多くのエッジを予測する傾向があり、この偏差は表に定量的に反映されています。 オブジェクト候補下の表からわかるように、FastSAMはbbox AR@1000の点で最も計算集約的なSAMモデル(SAM-H E64)よりも優れており、LVISデータセットでトレーニングされたViTDet-H[2]に次ぐ性能です。 結果を視覚化するSA-1B セグメンテーション結果: 次の図は、SA-1B データセット上のさまざまなシーンとマスクの数に対する FastSAM のセグメンテーション結果を示しています。 ダウンストリーム アプリケーションの比較: 次の 3 つの図は、異常検出、顕著なオブジェクトのセグメンテーション、建物の抽出という 3 つのダウンストリーム タスクにおける FastSAM と SAM のパフォーマンスを比較したものです。FastSAM は、さまざまなモードで SAM と同等のパフォーマンスを達成しています。 参考文献 論文アドレス: https://arxiv.org/abs/2306.12156 GitHub プロジェクト ページ: https://github.com/CASIA-IVA-Lab/FastSAM HuggingFace デモ: https://huggingface.co/spaces/An-619/FastSAM デモを複製する: https://replicate.com/casia-iva-lab/fastsam |
>>: AIがネットワークゴミを生み出す:古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる
何ですか? Microsoft の Bing は画像を認識できるんですか?それとも ChatGPT ...
AI は真面目な仕事しかできないなんて誰が言ったのでしょうか? Google は最近、顔を見ながら生...
10月23日、中国医学では2000年以上もの間、人の舌の色や形を観察して病気を診断してきたと報じら...
[[356945]]人工知能技術の急速な発展により、SF映画のシーンが現実のものとなった。メディアの...
21世紀以降、技術の発展のスピードは加速しています。10年前はインターネットが最もホットなトレンド...
農産物における人工知能の応用人工知能は、次のような農産物のあらゆる段階と側面に適用できます。農業: ...
[[196940]]多くの学生は、フードデリバリーはオンラインで注文し、オフラインで配達するビジネス...
[[260485]] [51CTO.com からのオリジナル記事] 哲学にさまざまな流派があるように...
従来、高性能コンピューティング (HPC) は、数値解析を利用して物理方程式を解き、素粒子から銀河に...
囲碁界の無敵の「アルファ碁」から、どこにでもある「顔認識」まで、機械学習は人々の生活に驚異的な変化を...
[問題の説明]昨日、コインランドリーで靴下の山を整理していたのですが、自分が使っていた方法がとても...
百人一首コンテストの最注目出場者がついに正式デビュー!これは、李開復博士が設立した AI 2.0 企...
著者 | 崔昊レビュー | Chonglouまとめこの記事の著者は、海外のブロガーに触発され、大規模...