正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

現在のオープンワールド オブジェクト検出モデルのほとんどは、テキスト クエリ モデル、つまりカテゴリ テキスト記述を使用してターゲット画像内の潜在的なターゲットをクエリするモデルに従っていますが、このアプローチでは、「範囲は広いが正確ではない」という問題に直面することがよくあります。

論文リンク: https://arxiv.org/abs/2305.18980

コードアドレス: https://github.com/YifanXu74/MQ-Det

この目的のために、中国科学院自動化研究所などの研究者らは、マルチモーダルクエリベースのターゲット検出モデルであるMQ-Detと、テキスト記述と視覚的なサンプルクエリの両方をサポートする初のオープンワールド検出大規模モデルを提案した。

MQ-Det は、テキスト クエリに基づく既存の大規模検出モデルに視覚的な例のクエリ機能を追加します。プラグアンドプレイのゲート認識構造と視覚条件付きマスク言語予測トレーニング メカニズムを導入することで、検出器は高い一般化を維持しながらきめ細かいマルチモーダル クエリをサポートし、さまざまなシナリオに適応するためのより柔軟なオプションをユーザーに提供します。

シンプルで効果的な設計は、既存の主流の検出モデルと互換性があり、幅広い用途に使用できます。

実験では、マルチモーダルクエリにより、主流の検出大規模モデルのオープンワールドオブジェクト検出機能が大幅に向上することが示されています。たとえば、ベンチマーク検出データセット LVIS では、下流タスクモデルの微調整を必要とせずに、主流の検出大規模モデルの GLIP 精度が約 7.8% AP 向上し、13 のベンチマーク小サンプル下流タスクでは平均 6.3% AP 向上します。

テキストクエリからマルチモーダルクエリへ

一枚の写真は千の言葉に値する

画像とテキストの事前トレーニングの増加に伴い、テキストのオープンセマンティクスの助けを借りて、オブジェクト検出は徐々にオープンワールド認識の段階に入りました。

このため、多くの大規模な検出モデルは、カテゴリのテキスト記述を使用して対象画像内の潜在的なオブジェクトを照会するテキスト クエリのパターンに従います。

しかし、このアプローチは「範囲は広いが正確ではない」という問題にしばしば直面します。

図1 MQ-Det法のアーキテクチャ

たとえば、図 1 の細粒度オブジェクト (魚種) の検出では、限られたテキストを使用してさまざまな細粒度の魚種を説明することが困難な場合が多く、bat がコウモリとコウモリの両方を指す可能性があるため、カテゴリの曖昧さがあります。

しかし、上記の問題はすべて画像の例を通じて解決できます。テキストと比較して、画像は対象オブジェクトの特徴の手がかりをより豊富に提供できますが、同時に、テキストには強力な一般化能力があります。

したがって、2 つのクエリ方法を有機的に組み合わせる方法は非常に自然なアイデアになります。

マルチモーダル クエリ機能の取得における難しさ: マルチモーダル クエリ機能を備えたモデルを取得するには、次の 3 つの課題があります。

1. 限られた画像例による直接的な微調整は、簡単に壊滅的な忘却につながる可能性があります。

2. 大規模な検出モデルをゼロからトレーニングすると、一般化のパフォーマンスは向上しますが、非常に時間がかかります。たとえば、1枚のカードでGLIP[1]をトレーニングするには、3,000万のデータセットを使用して480日間のトレーニングが必要です。

マルチモーダルクエリオブジェクト検出:上記の考慮に基づいて、著者はシンプルで効果的なモデル設計とトレーニング戦略を提案しました - MQ-Det

MQ-Det は、既存の固定テキストクエリ検出モデルに基づいて、少数のゲート知覚モジュール (GCP) を挿入し、視覚的な例の入力を受け取ります。同時に、視覚条件付きマスク言語予測トレーニング戦略を設計し、高性能なマルチモーダルクエリ検出器を効率的に取得します。

MQ-Det: プラグアンドプレイのマルチモーダルクエリモデルアーキテクチャ

ゲート式センシングモジュール

図 1 に示すように、著者は、凍結テキストクエリ検出モデルのテキストエンコーダーにゲート知覚モジュール (GCP) をレイヤーごとに挿入しました。GCP の動作モードは、次の式で簡潔に表現できます。

i番目のカテゴリについては、まず入力視覚例v_iをターゲット画像とのクロスアテンション(X-MHA)によって取得して表現能力を高め、次に各カテゴリテキストt_iを対応するカテゴリの視覚例とのクロスアテンションによって取得し、次に元のテキストt_iと視覚的に拡張されたテキストをゲートモジュールゲートを介して融合して現在のレイヤーの出力を取得します。

このシンプルな設計は、(1) カテゴリのスケーラビリティ、(2) 意味の完全性、(3) 忘却防止という 3 つの原則に従います。詳細な議論については、元の論文を参照してください。

MQ-Det 効率的なトレーニング戦略

固定言語クエリ検出器に基づく変調トレーニング

テキストクエリ用の現在の事前トレーニング済み検出モデル自体は優れた一般化機能を備えているため、元のテキスト機能に基づいて視覚的な詳細をわずかに調整するだけでよいと著者は考えています。

この記事には、元の事前トレーニング済みモデルのパラメータを開いて微調整すると、簡単に壊滅的な忘却につながり、オープンワールドでの検出能力を失う可能性があるという具体的な実験的証拠も示されています。

したがって、MQ-Det は、事前にトレーニングされた固定テキスト クエリの検出器に基づいて、挿入をトレーニングするための GCP モジュールを調整するだけで、既存のテキスト クエリの検出器に視覚情報を効率的に挿入できます。

本論文では、著者らはMQ-Detの構造設計とトレーニング手法を現在のSOTAモデルGLIP[1]とGroundingDINO[2]に適用し、この方法の汎用性を検証した。

マスク言語予測のための視覚条件付けトレーニング戦略

著者らはまた、事前トレーニング済みモデルをフリーズすることで生じる学習慣性の問題を解決するために、視覚条件付けマスク言語予測トレーニング戦略を提案した。

いわゆる学習慣性とは、検出器がトレーニング中に元のテキスト クエリの特徴を保持する傾向があり、新しく追加された視覚的なクエリの特徴を無視することを意味します。

このため、MQ-Det はトレーニング中にテキスト トークンを [MASK] トークンにランダムに置き換え、モデルに視覚クエリ機能側から学習させます。

この戦略はシンプルですが、非常に効果的です。実験結果では、この戦略によってパフォーマンスが大幅に向上することが示されています。

実験結果

微調整不要

テストにカテゴリテキストのみを使用する従来のゼロショット評価と比較して、MQ-Detはより実用的な評価戦略を提案しています。

定義: 下流の微調整なしで、ユーザーはカテゴリ テキスト、画像の例、またはその両方の組み合わせを使用してオブジェクトを検出できます。

微調整なしの設定では、MQ-Det は各カテゴリに対して 5 つの視覚的な例を選択し、カテゴリ テキストを組み合わせてターゲットを検出します。他の既存のモデルは視覚的なクエリをサポートしておらず、ターゲットの検出にはプレーン テキストの説明のみを使用できます。

次の表は、LVIS MiniVal と LVIS v1.0 のテスト結果を示しています。マルチモーダルクエリの導入により、オープンワールドオブジェクトの検出機能が大幅に向上したことがわかります。

表1 LVISベンチマークデータセットにおけるさまざまな検出モデルの微調整なしのパフォーマンス

表 1 からわかるように、MQ-GLIP-L は GLIP-L と比較して AP を 7% 以上向上させており、これは非常に顕著な効果です。

少数ショットの評価

表2 35の検出タスクにおける各モデルのパフォーマンス ODinW-35とその13のサブセット ODinW-13

著者らはさらに、35 の下流検出タスク ODinW-35 で包括的な実験を実施しました。表 2 からわかるように、MQ-Det は、強力な微調整不要のパフォーマンスに加えて、優れた小規模サンプル検出機能も備えており、マルチモーダル クエリの可能性をさらに裏付けています。図 2 は、MQ-Det が GLIP よりも大幅に改善されたことも示しています。

図2 データ利用効率の比較。横軸:トレーニングサンプル数、縦軸:OdinW-13の平均AP

マルチモーダルクエリオブジェクト検出の将来性

ターゲット検出は実用的応用に基づく研究分野であるため、アルゴリズムの実装に大きな注意が払われます。

これまでの純粋なテキストクエリオブジェクト検出モデルは優れた一般化を示していましたが、実際のオープンワールド検出ではテキストで細かい情報をカバーすることは難しく、画像内の豊富な情報粒度はこのリンクを完全に補完します。

これまでのところ、テキストは一般的だが正確ではない、一方、画像は正確だが一般的ではないことがわかっています。この 2 つを効果的に組み合わせることができれば、つまりマルチモーダル クエリであれば、オープン ワールド オブジェクト検出がさらに前進するでしょう。

MQ-Det はマルチモーダル クエリの第一歩を踏み出しており、その大幅なパフォーマンスの向上は、マルチモーダル クエリのターゲット検出の大きな可能性を示しています。

同時に、テキストによる説明や視覚的な例の導入により、ユーザーにはより多くの選択肢が提供され、オブジェクトの検出がより柔軟で使いやすくなります。

<<:  LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

>>: 

ブログ    

推薦する

MarketsandMarkets: AI ロボット市場は 2026 年までに 353 億ドルに達する

MarketsandMarketsが発表した最新の市場調査レポートによると、人工知能ロボット市場は2...

午後を費やしてラベルのない画像10万枚にラベルを付け、上司の費用を3万ドル節約しました

[51CTO.com オリジナル記事] 上司がラベルのない写真 10 万枚を渡して、サンダル、パンツ...

...

お気に入りのランダムフォレストは? TensorFlow オープンソース決定森ライブラリ TF-DF

[[402276]]人工知能の発展の歴史の中で、さまざまなアルゴリズムが際限なく登場してきました。...

論文の90%はモデル中心です。AIの分野では、データとモデルのどちらが重要ですか?

モデルとデータは AI システムの基盤であり、これら 2 つのコンポーネントはモデルの開発において重...

CIO 向けガイド: ジェネレーティブ AI の「ハイライト モーメント」を実現する 5 つの方法

あらゆる誇大宣伝と主流の採用率の高さにもかかわらず、生成 AI は生産性のピークに到達する前に、幻滅...

多様な用途に焦点を当て、ドローンマッピングはますます熱を帯びている

農作物の保護から電力検査、映画やテレビの撮影から消防救助、緊急通信から交通検査まで、ドローンの活用が...

解釈可能な機械学習のための Python ライブラリ

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Pythonの神のようなアルゴリズム

今日は、非常に有名な Python の簡潔で効率的かつ便利なコードを見てみましょう。そのスタイルを見...

...

大規模言語モデルと知識グラフに関する共同研究のレビュー:2つの相補的な技術的利点

大規模言語モデル (LLM) はすでに強力ですが、さらに強力になる可能性があります。 LLM は、ナ...

市長や市議会議員に立候補する際、ロボットは公務員として適しているでしょうか?

知名度という点では、サウジアラビアのパスポートを持つソフィアは、間違いなくロボット工学界のトップスタ...

Linux SNMP アルゴリズムと機能モジュール

Linux SNMP を十分に学習したい場合は、いくつかのモジュールに精通している必要があります。そ...

製造業における AI 活用事例 10 選

製造企業は、ビジネスのやり方を合理化し、効率を高めるために人工知能に注目しています。一般的な使用例を...

いくつかの最短経路アルゴリズムの比較

最短経路問題は、グラフ理論研究における古典的なアルゴリズム問題であり、グラフ(ノードとパスで構成され...