正解率が7.8%アップしました！最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

現在のオープンワールドオブジェクト検出モデルのほとんどは、テキストクエリモデル、つまりカテゴリテキスト記述を使用してターゲット画像内の潜在的なターゲットをクエリするモデルに従っていますが、このアプローチでは、「範囲は広いが正確ではない」という問題に直面することがよくあります。

論文リンク: https://arxiv.org/abs/2305.18980

コードアドレス: https://github.com/YifanXu74/MQ-Det

この目的のために、中国科学院自動化研究所などの研究者らは、マルチモーダルクエリベースのターゲット検出モデルであるMQ-Detと、テキスト記述と視覚的なサンプルクエリの両方をサポートする初のオープンワールド検出大規模モデルを提案した。

MQ-Det は、テキストクエリに基づく既存の大規模検出モデルに視覚的な例のクエリ機能を追加します。プラグアンドプレイのゲート認識構造と視覚条件付きマスク言語予測トレーニングメカニズムを導入することで、検出器は高い一般化を維持しながらきめ細かいマルチモーダルクエリをサポートし、さまざまなシナリオに適応するためのより柔軟なオプションをユーザーに提供します。

シンプルで効果的な設計は、既存の主流の検出モデルと互換性があり、幅広い用途に使用できます。

実験では、マルチモーダルクエリにより、主流の検出大規模モデルのオープンワールドオブジェクト検出機能が大幅に向上することが示されています。たとえば、ベンチマーク検出データセット LVIS では、下流タスクモデルの微調整を必要とせずに、主流の検出大規模モデルの GLIP 精度が約 7.8% AP 向上し、13 のベンチマーク小サンプル下流タスクでは平均 6.3% AP 向上します。

テキストクエリからマルチモーダルクエリへ

一枚の写真は千の言葉に値する

画像とテキストの事前トレーニングの増加に伴い、テキストのオープンセマンティクスの助けを借りて、オブジェクト検出は徐々にオープンワールド認識の段階に入りました。

このため、多くの大規模な検出モデルは、カテゴリのテキスト記述を使用して対象画像内の潜在的なオブジェクトを照会するテキストクエリのパターンに従います。

しかし、このアプローチは「範囲は広いが正確ではない」という問題にしばしば直面します。

図1 MQ-Det法のアーキテクチャ

たとえば、図 1 の細粒度オブジェクト (魚種) の検出では、限られたテキストを使用してさまざまな細粒度の魚種を説明することが困難な場合が多く、bat がコウモリとコウモリの両方を指す可能性があるため、カテゴリの曖昧さがあります。

しかし、上記の問題はすべて画像の例を通じて解決できます。テキストと比較して、画像は対象オブジェクトの特徴の手がかりをより豊富に提供できますが、同時に、テキストには強力な一般化能力があります。

したがって、2 つのクエリ方法を有機的に組み合わせる方法は非常に自然なアイデアになります。

マルチモーダルクエリ機能の取得における難しさ: マルチモーダルクエリ機能を備えたモデルを取得するには、次の 3 つの課題があります。

1. 限られた画像例による直接的な微調整は、簡単に壊滅的な忘却につながる可能性があります。

2. 大規模な検出モデルをゼロからトレーニングすると、一般化のパフォーマンスは向上しますが、非常に時間がかかります。たとえば、1枚のカードでGLIP[1]をトレーニングするには、3,000万のデータセットを使用して480日間のトレーニングが必要です。

マルチモーダルクエリオブジェクト検出：上記の考慮に基づいて、著者はシンプルで効果的なモデル設計とトレーニング戦略を提案しました - MQ-Det

MQ-Det は、既存の固定テキストクエリ検出モデルに基づいて、少数のゲート知覚モジュール (GCP) を挿入し、視覚的な例の入力を受け取ります。同時に、視覚条件付きマスク言語予測トレーニング戦略を設計し、高性能なマルチモーダルクエリ検出器を効率的に取得します。

MQ-Det: プラグアンドプレイのマルチモーダルクエリモデルアーキテクチャ

ゲート式センシングモジュール

図 1 に示すように、著者は、凍結テキストクエリ検出モデルのテキストエンコーダーにゲート知覚モジュール (GCP) をレイヤーごとに挿入しました。GCP の動作モードは、次の式で簡潔に表現できます。

i番目のカテゴリについては、まず入力視覚例v_iをターゲット画像とのクロスアテンション（X-MHA）によって取得して表現能力を高め、次に各カテゴリテキストt_iを対応するカテゴリの視覚例とのクロスアテンションによって取得し、次に元のテキストt_iと視覚的に拡張されたテキストをゲートモジュールゲートを介して融合して現在のレイヤーの出力を取得します。

このシンプルな設計は、(1) カテゴリのスケーラビリティ、(2) 意味の完全性、(3) 忘却防止という 3 つの原則に従います。詳細な議論については、元の論文を参照してください。

MQ-Det 効率的なトレーニング戦略

固定言語クエリ検出器に基づく変調トレーニング

テキストクエリ用の現在の事前トレーニング済み検出モデル自体は優れた一般化機能を備えているため、元のテキスト機能に基づいて視覚的な詳細をわずかに調整するだけでよいと著者は考えています。

この記事には、元の事前トレーニング済みモデルのパラメータを開いて微調整すると、簡単に壊滅的な忘却につながり、オープンワールドでの検出能力を失う可能性があるという具体的な実験的証拠も示されています。

したがって、MQ-Det は、事前にトレーニングされた固定テキストクエリの検出器に基づいて、挿入をトレーニングするための GCP モジュールを調整するだけで、既存のテキストクエリの検出器に視覚情報を効率的に挿入できます。

本論文では、著者らはMQ-Detの構造設計とトレーニング手法を現在のSOTAモデルGLIP[1]とGroundingDINO[2]に適用し、この方法の汎用性を検証した。

マスク言語予測のための視覚条件付けトレーニング戦略

著者らはまた、事前トレーニング済みモデルをフリーズすることで生じる学習慣性の問題を解決するために、視覚条件付けマスク言語予測トレーニング戦略を提案した。

いわゆる学習慣性とは、検出器がトレーニング中に元のテキストクエリの特徴を保持する傾向があり、新しく追加された視覚的なクエリの特徴を無視することを意味します。

このため、MQ-Det はトレーニング中にテキストトークンを [MASK] トークンにランダムに置き換え、モデルに視覚クエリ機能側から学習させます。

この戦略はシンプルですが、非常に効果的です。実験結果では、この戦略によってパフォーマンスが大幅に向上することが示されています。

実験結果

微調整不要

テストにカテゴリテキストのみを使用する従来のゼロショット評価と比較して、MQ-Detはより実用的な評価戦略を提案しています。

定義: 下流の微調整なしで、ユーザーはカテゴリテキスト、画像の例、またはその両方の組み合わせを使用してオブジェクトを検出できます。

微調整なしの設定では、MQ-Det は各カテゴリに対して 5 つの視覚的な例を選択し、カテゴリテキストを組み合わせてターゲットを検出します。他の既存のモデルは視覚的なクエリをサポートしておらず、ターゲットの検出にはプレーンテキストの説明のみを使用できます。

次の表は、LVIS MiniVal と LVIS v1.0 のテスト結果を示しています。マルチモーダルクエリの導入により、オープンワールドオブジェクトの検出機能が大幅に向上したことがわかります。

表1 LVISベンチマークデータセットにおけるさまざまな検出モデルの微調整なしのパフォーマンス

表 1 からわかるように、MQ-GLIP-L は GLIP-L と比較して AP を 7% 以上向上させており、これは非常に顕著な効果です。

少数ショットの評価

表2 35の検出タスクにおける各モデルのパフォーマンス ODinW-35とその13のサブセット ODinW-13

著者らはさらに、35 の下流検出タスク ODinW-35 で包括的な実験を実施しました。表 2 からわかるように、MQ-Det は、強力な微調整不要のパフォーマンスに加えて、優れた小規模サンプル検出機能も備えており、マルチモーダルクエリの可能性をさらに裏付けています。図 2 は、MQ-Det が GLIP よりも大幅に改善されたことも示しています。

図2 データ利用効率の比較。横軸：トレーニングサンプル数、縦軸：OdinW-13の平均AP

マルチモーダルクエリオブジェクト検出の将来性

ターゲット検出は実用的応用に基づく研究分野であるため、アルゴリズムの実装に大きな注意が払われます。

これまでの純粋なテキストクエリオブジェクト検出モデルは優れた一般化を示していましたが、実際のオープンワールド検出ではテキストで細かい情報をカバーすることは難しく、画像内の豊富な情報粒度はこのリンクを完全に補完します。

これまでのところ、テキストは一般的だが正確ではない、一方、画像は正確だが一般的ではないことがわかっています。この 2 つを効果的に組み合わせることができれば、つまりマルチモーダルクエリであれば、オープンワールドオブジェクト検出がさらに前進するでしょう。

MQ-Det はマルチモーダルクエリの第一歩を踏み出しており、その大幅なパフォーマンスの向上は、マルチモーダルクエリのターゲット検出の大きな可能性を示しています。

同時に、テキストによる説明や視覚的な例の導入により、ユーザーにはより多くの選択肢が提供され、オブジェクトの検出がより柔軟で使いやすくなります。

<<: LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

>>:

ブログ

正解率が7.8%アップしました！最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

テキストクエリからマルチモーダルクエリへ

MQ-Det: プラグアンドプレイのマルチモーダルクエリモデルアーキテクチャ

MQ-Det 効率的なトレーニング戦略

実験結果

マルチモーダルクエリオブジェクト検出の将来性

最先端の洞察 | ドローン配達が紛失しない理由はここにあります!

強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

純粋な乾物 | ディープラーニング研究の概要

ピュー研究所の報告：2025年までにAIのせいで7500万人が解雇される

Java ソートアルゴリズムの概要 (パート 3): バブルソート

韓国が世界初の常温超伝導体を開発？ 127度での超伝導、再現できればノーベル賞確実

5G+自動運転車の時代において、Car OSの主導権を握るのは誰でしょうか?

推薦する

普通のプログラマーはどうやって AI を活用するのでしょうか?

AIと5Gの登場：モノのインターネットの発展は鈍化しているのか？

電荷ベースの原子シミュレーションのための事前学習済み汎用ニューラルネットワーク CHGNet

大規模機械学習の台頭と「ゼロトラスト」アーキテクチャの出現、2021年の9つの主要な技術トレンド

自己教師学習の効率限界を突破！ Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

上海交通大学卒業生によるソロ作品！ 50年間のゼロ進歩アルゴリズム問題が解決された

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

GenAI が CIO にとって悪夢である理由とその解決方法

Zhihuで高く評価されました：985コンピュータービジョンプログラムを卒業しても仕事が見つからない場合はどうすればいいですか？ LeetCode を必死に勉強するべきでしょうか、それとも別の方法を探すべきでしょうか?

360スマートブレインモデルが一般公開されました

高所から物が投げ出される悲劇が多発。AI監視システム「私があなたを守ります」

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない