大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡単になります。

自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。

これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。

GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。

研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。

NExT-Chat の最大の特徴は、マルチモーダル モデルに位置の入力と出力を導入できることです。

位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。

複雑な位置決めの問題も簡単に解決できます。

NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。


NExT-Chat は画像の内容を分析した後、取得した情報を使用して推論を行うことができます。

NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データセットでテストを実施しました。

複数のデータセットでSOTAを達成する

著者らはまず、参照表現セグメンテーション(RES)タスクにおけるNExT-Chatの実験結果を発表した。

使用されたセグメンテーション データはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーション マスク注釈を使用した LISA 方式よりも優れた結果を示しました。

RESタスクに関するNExT-Chatの結果

次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。

下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。

興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックス トレーニング データを使用する Shikra よりもわずかに劣るということです。

著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。

△RECタスクにおけるNExT-Chatの結果

表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。

△ POPEデータセットにおけるNExT-Chatの結果

エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショット ケースで Kosmos-2 を上回ることができました。

△RefCOCOgデータセットにおけるNExT-Chatの結果

では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか?

画像コーディングの新しい方法を提案する

従来の方法の欠点

従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。

たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクト ボックスの座標をプレーン テキストに変換して、LLM が座標を理解できるようにします。

ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより密度の高い位置表現形式に一般化することは困難です。

この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。

pix2emb メソッド

pix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。

△ pix2emb方式の簡単な例

上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。

これには 2 つの利点があります。

  • モデルの出力形式は、セグメンテーション マスクなどのより複雑な形式に簡単に拡張できます。
  • モデルは、タスク内の既存のプラクティスを簡単に見つけることができます。たとえば、この記事の検出損失では L1 損失と GIoU 損失が使用され (pix2seq ではテキスト生成損失のみを使用できます)、この記事のマスク デコーダーでは初期化に既存の SAM が使用されます。

pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。

NExT-Chatモデル

△NExT-Chatモデルアーキテクチャ

NExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージ エンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックス エンコーダーとデコーダーが追加されます。

LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークン タイプを導入します。

モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。

さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。

△ポジション入力と出力の制約

上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。

著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。

NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。

  • フェーズ 1: モデルの基本的なボックス入力および出力機能をトレーニングします。 NExT-Chat は、事前トレーニング用に、Flickr-30K、RefCOCO、VisualGenome などのボックス入力と出力を含むデータセットを使用します。トレーニング プロセス中に、すべての LLM パラメータがトレーニングされます。
  • フェーズ2: LLMの指示追従能力を調整する。 Shikra-RD や LLaVA-instruct などのいくつかの命令を通じてデータを微調整すると、モデルは人間の要件により適切に応答し、より人間的な結果を出力できるようになります。
  • フェーズ 3: NExT-Chat モデルにセグメンテーション機能を付与します。上記の 2 段階のトレーニングを通じて、モデルはすでに優れた位置モデリング機能を備えています。著者らはこの機能をさらに拡張して出力をマスクします。実験では、非常に少量のマスク注釈データとトレーニング時間 (約 3 時間) を使用することで、NExT-Chat は優れたセグメンテーション機能を迅速に獲得できることが示されています。

このようなトレーニング プロセスの利点は、検出ボックス データが豊富で、トレーニング コストが小さくなることです。

NExT-Chat は、豊富な検出ボックス データに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーション タスクに迅速に拡張できます。

<<: 

>>:  2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

ブログ    

推薦する

自動運転車は生後7か月の赤ちゃんよりも賢いのでしょうか?

生後 7 か月までに、ほとんどの子供は、物体は見えなくても存在するということを学びます。おもちゃを毛...

Python はとても使いやすいです! AI初心者でもすぐに顔検出を体験

[[423040]] Pythonを使用してAI認識テストを実行します。具体的な方法は、リアルタイム...

AI | 人工知能プロジェクトを成功させるための 8 つの重要な役割

企業が AI プロジェクトをさらに展開するにつれて、特定の役割がビジネスの成功に不可欠であることがわ...

2018年末のAI分野におけるオープンソースフレームワークのまとめ

[[253605]] [やや活発な***四半期] 2018.3.04——OpenAIはオープンソース...

手書きの最も単純なLRUアルゴリズム

1 LRUとは何かLRU (Least Recently Used) は、最も最近使用されていないデ...

インターネットの価値観を修正するガバナンスアルゴリズム

最近、中国サイバースペース管理局は「インターネット情報サービスアルゴリズム推奨管理規則(草案)」(以...

...

室温超伝導の続編はあるのでしょうか?中国チームはLK-99がマイスナー効果を持つ可能性があることを再び証明し、論文がアップロードされたばかりである。

室温超伝導に関する論文が、再びインターネット上でちょっとした騒動を引き起こした。最近の論文で、著者ら...

ワールドカップで物議を醸したVARテクノロジーはどのようにして生まれたのでしょうか?

Wiredウェブサイトは、FIFAの話題のVAR(ビデオ・アシスタント・レフェリー)の誕生過程を明...

...

YouTube 動画推奨アルゴリズムを破る方法

[[176814]]映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワー...

待望のAI実装はどこで行き詰まっているのでしょうか?

AIはこれまで3つの発展の波を経験してきました。最初の2つの波は当時の技術環境やその他の理由により...

人工知能がデジタル変革の課題に対処できる 5 つの分野

[[378652]]調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能...

...