視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

最近、大規模言語モデル (LLM) において大きな進歩が見られました。特に、Generative Pre-Trained Transformer (GPT) のリリースは、産業界と学術界でいくつかのブレークスルーをもたらしました。 GPT-4 のリリース以来、大規模マルチモーダルモデル (LMM) は研究コミュニティでますます注目を集めており、マルチモーダル GPT-4 の構築に多くの研究が行われています。

最近、GPT-4V (ision) は、その優れたマルチモーダル知覚および推論機能により、特別な注目を集めています。しかし、GPT-4V は前例のない視覚言語理解機能を備えているものの、きめ細かい視覚グラウンディング (入力は画像とそれに対応するオブジェクトの説明、出力はオブジェクトを説明するボックス) 機能は比較的弱いか、まだ十分に活用されていません。

たとえば、ユーザーが「下の写真の右側にあるラップトップの左側にある物体は何ですか?」と質問すると、GPT-4V はマグカップという誤った答えを返します。ユーザーが「窓側の席を探したいのですが、どこに座れますか?」と質問したところ、GPT-4V も間違った答えを返しました。

上記の問題を認識した後、マイクロソフト、香港科技大学などの研究者は、細粒度の視覚タスクにおける GPT-4V の問題を解決するために、新しい視覚プロンプト方式 Set-of-Mark (SoM) を提案しました。


  • 論文アドレス: https://arxiv.org/pdf/2310.11441.pdf
  • 論文ホームページ: https://som-gpt4v.github.io/

図 1 (右) に示すように、SoM はインタラクティブなセグメンテーション モデル (SAM など) を使用して、画像をさまざまな粒度レベルの領域に分割し、これらの領域に文字、数字、マスク、ボックスなどのマークのセットを追加します。上記の問題を解決するには、ラベル付き画像を入力として使用します。

まずは結果を見てみましょう。左がGPT-4V、右がGPT-4V+SoMです。後者の分類の方が詳細かつ正確であることがわかります。

以下の例も同じですが、GPT-4V + SoM の効果はより明白です。

さらに、この研究では、「SoM は手動 (人間の入力) ですか、それとも自動ですか?」という質問がありました。

論文の筆頭著者であるJianwei Yang氏は、SoMは自動的または半自動的であると述べた。彼らは、SEEM、Semantic-SAM、SAM など、独自に構築した多数のセグメンテーション ツールをコンパイルし、ユーザーが画像を自動的にセグメント化できるようにしました。同時に、ユーザー自身が地域を選択することもできます。

視覚に関するSoMプロンプト

SoM プロンプト GPT-4V を使用する独自の利点は、テキスト以外の出力を生成できることです。各トークンはマスクによって表される画像領域に具体的に関連付けられているため、テキスト出力内のトークンの言及のマスクを遡ることができます。

テキストとマスクのペアを生成する機能により、SoM は GPT-4V に視覚的に関連のあるテキストを生成するよう促すことができ、さらに重要なことに、通常の GPT-4V モデルでは課題となるさまざまなきめ細かい視覚タスクをサポートできます。

SoM は、シンプルなプロンプト エンジニアリングを通じて、GPT-4V を次のようなさまざまな視覚タスクで広く使用できるようにします。

  • オープン語彙画像セグメンテーション: この研究では、GPT-4V に、ラベル付けされたすべての領域のカテゴリを網羅的に提供し、事前に決定されたプールからカテゴリを選択するように要求します。
  • 参照セグメンテーション: 参照式が与えられた場合、GPT-4V のタスクは、Image Partition Toolbox によって生成された候補領域から最も一致する領域を選択することです。
  • フレーズ グラウンディング: 参照セグメンテーションとは少し異なり、フレーズ グラウンディングでは複数の名詞句で構成される完全な文を使用します。この研究では、GPT-4V に、ラベル付けされたすべてのフレーズに対応する領域を割り当てるように依頼しました。
  • ビデオ オブジェクトのセグメンテーション: 2 つの画像を入力として受け取ります。最初の画像はクエリ画像であり、2 番目の画像で認識される必要があるオブジェクトの一部が含まれています。 GPT-4V は入力として複数の画像をサポートしているため、SoM を適用して、ビデオ内のフレーム間で視覚オブジェクトを相関させることもできます。

実験と結果

研究者たちは分割統治戦略を用いて実験と評価を実行した。評価中にコンテキストの漏洩が発生しないように、インスタンスごとに新しいチャット ウィンドウを使用しました。

具体的には、研究者は各データセットから検証データの小さなサブセットを選択しました。データセット内の各画像について、画像セグメンテーション ツールボックスを使用して抽出された領域に一連のマーカーを重ね合わせました。同時に、研究者は特定のタスクに基づいてさまざまなセグメンテーション ツールを使用して領域を提案します。

以下の表 1 に、各タスクのセットアップの詳細を示します。

研究者たちは自らのアプローチを以下のモデルと比較した。

  • 座標を予測するためのGPT-4Vベースラインモデル
  • SOTA専用モデル
  • オープンソース LMM

定量的な結果

詳細な実験結果を以下の表2に示します。

1 つ目は画像セグメンテーションタスクです。研究者らは、COCO Panoptic セグメンテーション データセット上の強力なセグメンテーション モデル MaskDINO と、ADE20K Panoptic セグメンテーション データセット上のモデル OpenSeeD と、GPT-4V + SoM を比較しました。

結果は、GPT-4V + SoM のゼロショット パフォーマンスが微調整された MaskDINO のそれに近く、OpenSeeD を大幅に上回っていることを示しています。 GPT-4V の COCO と ADE20K での同様のパフォーマンスは、広範囲の視覚およびセマンティック領域のタスクに対する強力な一般化能力を示しています。

次に参照タスクが行われ、研究者はRefCOCOgデータセットでRESモデルとRECモデルを評価しました。彼らはMaskDINOを使用してマスクを提案し、画像にマスクと数字を重ね合わせます。また、評価指標として mIoU を使用し、SOTA 固有のモデルである PolyFormer および SEEM と比較します。

結果は、GPT-4V + SoM が Grounding DINO、Polyformer などの専用モデルや、Shikra、LLaVA-1.5、MiniGPT-v2、Ferret などの最近のオープンソース LMM よりも優れていることを示しています。

次は、Flickr30K でのフレーズ連想タスクです。研究者は Grounding DINO を使用して、各画像のボックス提案を生成します。 GPT-4V + SoM は、GLIPv2 や Grounding DINO よりも強力なゼロショット性能を実現します。

最後に、研究者らはDAVIS2017データセットでビデオセグメンテーションタスクを評価しました。 GPT-4V+SoM は、他の専用ビジョン モデルを上回る最高の追跡パフォーマンス (78.8 J&F) を実現します。

アブレーション研究

タグの種類が Flickr30k データセットのフレーズ連想タスクの最終的なパフォーマンスにどのように影響するかを調査し、2 種類のタグを比較しました。 1 つ目は数字とマスク、2 つ目は数字、マスク、ボックスです。

結果は下の表 3 に示されています。ボックスを追加すると、パフォーマンスが大幅に向上します。

さらに、研究者らは、グラウンドトゥルース注釈付きのトークンを生成する際に GPT-4V がどのように機能するかを調査しました。彼らは、予測されたセグメンテーション マスクを RefCOCOg 検証セット内のグラウンド トゥルース マスクに置き換えることを選択しました。つまり、GPT-4V は注釈フレーズ領域から 1 つを選択するだけで済みます。予想どおり、特にセグメンテーション モデルに欠落領域がある場合、参照セグメンテーションのパフォーマンスをさらに向上できます。

結果を下の表 4 に示します。SoM でグラウンド トゥルース マスクを使用すると、RefCOCOg のパフォーマンスが 14.5% (mIoU) 向上します。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<:  新しい5文字描画言語が人気で、ChatGPTはそれを学習しました

>>:  あなたの GPU は Llama 2 のような大規模なモデルを実行できますか?このオープンソースプロジェクトを試してみてください

ブログ    
ブログ    

推薦する

...

科学サブ出版物:人間の脳は加速学習メカニズムを備えており、その計算能力は最新のAIアルゴリズムを上回っている

[[323595]]機械学習とディープラーニングのアルゴリズムは、脳内のニューロンを結びつけるシナプ...

冬季オリンピックで使用されたロボット配送車両を振り返ると、自律走行機能が核となる

本稿では、冬季オリンピックで使用されたロボット配送車両を概観し、より多くの消費者層に便利で高品質なサ...

能力と信頼性の両方を備えることはできますか? GPT-4やGeminiなどのマルチモーダルモデルの評価レポートはこちら

2023 年には、マルチモーダル大規模モデルの飛躍的な発展が見られるでしょう。マルチモーダル大規模言...

工業情報化部:電話ネットワークアクセスの物理チャネルに肖像マッチング技術を導入

今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...

「顔認識」時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

合理性への回帰とアプリケーションとの統合 - AI時代のモバイル技術革新カンファレンス

人工知能の出現により、ますます多くの企業がそれを業務や生産に応用しています。新しいモバイル開発技術が...

機械学習と感度分析を組み合わせてビジネス戦略を策定するにはどうすればよいでしょうか?

数え切れないほど多くの企業が、意思決定を支援するために機械学習 (ML) を日常的に使用しています。...

新たなAI詐欺事件が発覚! 「人工知能」は「インテリジェントな人工知能」ほど優れていないのでしょうか?

AIが「コーダー」に取って代わるという現実はまだ実現していないが、その逆を行い、コーダーを使ってA...

Microsoft の 6 ページの論文が話題に: Ternary LLM、とてもクール!

これはマイクロソフトと中国科学院大学による新たな研究の結論です。すべての LLM は 1.58 ビッ...

人工知能がサイバーセキュリティを変える5つの方法

人工知能は、ネットワーク セキュリティの攻撃側と防御側の両方で重要な役割を果たす中立的なテクノロジで...

2023年振り返り、大型模型産業の急速な発展の365日

4兆度(345MeV)は、2010年に米国ニューヨークのブルックヘブン国立研究所が相対論的重イオン衝...

Googleの上級研究員が解雇される:論文論争の裏側

[51CTO.com クイック翻訳] 12月初旬、Googleは著名なAI倫理研究者のティムニット・...

デアデビルが来た!バットセンスAIは、スマートフォンが音を聞いて3D画像を生成できるようにする

英国の科学者たちは、スマートフォンやノートパソコンなどの日常的な物に、デアデビルと同じくらい強力なコ...

...