大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡単になります。

自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。

これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。

GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。

研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。

NExT-Chat の最大の特徴は、マルチモーダル モデルに位置の入力と出力を導入できることです。

位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。

複雑な位置決めの問題も簡単に解決できます。

NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。


NExT-Chat は画像の内容を分析した後、取得した情報を使用して推論を行うことができます。

NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データセットでテストを実施しました。

複数のデータセットでSOTAを達成する

著者らはまず、参照表現セグメンテーション(RES)タスクにおけるNExT-Chatの実験結果を発表した。

使用されたセグメンテーション データはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーション マスク注釈を使用した LISA 方式よりも優れた結果を示しました。

RESタスクに関するNExT-Chatの結果

次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。

下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。

興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックス トレーニング データを使用する Shikra よりもわずかに劣るということです。

著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。

△RECタスクにおけるNExT-Chatの結果

表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。

△ POPEデータセットにおけるNExT-Chatの結果

エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショット ケースで Kosmos-2 を上回ることができました。

△RefCOCOgデータセットにおけるNExT-Chatの結果

では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか?

画像コーディングの新しい方法を提案する

従来の方法の欠点

従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。

たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクト ボックスの座標をプレーン テキストに変換して、LLM が座標を理解できるようにします。

ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより密度の高い位置表現形式に一般化することは困難です。

この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。

pix2emb メソッド

pix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。

△ pix2emb方式の簡単な例

上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。

これには 2 つの利点があります。

  • モデルの出力形式は、セグメンテーション マスクなどのより複雑な形式に簡単に拡張できます。
  • モデルは、タスク内の既存のプラクティスを簡単に見つけることができます。たとえば、この記事の検出損失では L1 損失と GIoU 損失が使用され (pix2seq ではテキスト生成損失のみを使用できます)、この記事のマスク デコーダーでは初期化に既存の SAM が使用されます。

pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。

NExT-Chatモデル

△NExT-Chatモデルアーキテクチャ

NExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージ エンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックス エンコーダーとデコーダーが追加されます。

LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークン タイプを導入します。

モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。

さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。

△ポジション入力と出力の制約

上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。

著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。

NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。

  • フェーズ 1: モデルの基本的なボックス入力および出力機能をトレーニングします。 NExT-Chat は、事前トレーニング用に、Flickr-30K、RefCOCO、VisualGenome などのボックス入力と出力を含むデータセットを使用します。トレーニング プロセス中に、すべての LLM パラメータがトレーニングされます。
  • フェーズ2: LLMの指示追従能力を調整する。 Shikra-RD や LLaVA-instruct などのいくつかの命令を通じてデータを微調整すると、モデルは人間の要件により適切に応答し、より人間的な結果を出力できるようになります。
  • フェーズ 3: NExT-Chat モデルにセグメンテーション機能を付与します。上記の 2 段階のトレーニングを通じて、モデルはすでに優れた位置モデリング機能を備えています。著者らはこの機能をさらに拡張して出力をマスクします。実験では、非常に少量のマスク注釈データとトレーニング時間 (約 3 時間) を使用することで、NExT-Chat は優れたセグメンテーション機能を迅速に獲得できることが示されています。

このようなトレーニング プロセスの利点は、検出ボックス データが豊富で、トレーニング コストが小さくなることです。

NExT-Chat は、豊富な検出ボックス データに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーション タスクに迅速に拡張できます。

<<: 

>>:  2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

ブログ    
ブログ    
ブログ    

推薦する

...

...

青春が戻ってきた! AIが『スラムダンク』の登場人物を実在の人物に変身させたら、一番イケメンは流川楓じゃないのか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

魔法は魔法に勝る、AIデータにはAIソリューションが必要

Kompprise が委託した「非構造化データ管理の現状」調査によると、人工知能は IT およびビジ...

機械学習の第一人者マイケル・ジョーダンが人工知能について語る8つの質問:マスクはAIを理解していない

写真ビッグデータダイジェスト制作Michael I. Jordan は、機械学習、確率、統計、グラフ...

多くの場所でAI顔認識の使用が制限されており、監視は技術開発のペースに追いついています

最近、南京、江蘇省、天津などではAI顔認識技術の使用を禁止し始めている。 11月末、南京市のある男性...

ショック!自動運転車が人をはねたが、救助活動は失敗し、死亡が確認された。

太平洋標準時3月18日午後10時、米国アリゾナ州で、ウーバーが路上試験中に自転車に乗った女性と衝突し...

ディープラーニング(CNN RNN Attention)を使用して大規模なテキスト分類問題を解決する - 概要と実践

[[188373]]著者は最近、深層学習を応用してタオバオ商品のカテゴリー予測問題を解決するプロジェ...

...

純粋な乾物 | ディープラーニング研究の概要

[[195952]] 1. ディープラーニングディープラーニングといえば、一度でも触れたことがある人...

ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上

自動運転における多くのタスクは、トップダウン、マップ、または鳥瞰図 (BEV) の観点から見ると、よ...

AIと機械学習プロジェクトのセキュリティを確保する方法

人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この記事では、いくつかの企...

...

2019年の中国人工知能産業の競争環境の分析

近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...

NLPの年間進捗状況は年に1回まとめられています。2021年の研究のホットスポットは何でしょうか?

2021 年には、ML と NLP の分野で多くのエキサイティングな進展がありました。 Sebas...