マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡単になります。 自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。 これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。 GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。 研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。 NExT-Chat の最大の特徴は、マルチモーダル モデルに位置の入力と出力を導入できることです。 位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。 複雑な位置決めの問題も簡単に解決できます。 NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。
NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データセットでテストを実施しました。 複数のデータセットでSOTAを達成する著者らはまず、参照表現セグメンテーション(RES)タスクにおけるNExT-Chatの実験結果を発表した。 使用されたセグメンテーション データはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーション マスク注釈を使用した LISA 方式よりも優れた結果を示しました。 RESタスクに関するNExT-Chatの結果次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。 下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。 興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックス トレーニング データを使用する Shikra よりもわずかに劣るということです。 著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。 △RECタスクにおけるNExT-Chatの結果表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。 △ POPEデータセットにおけるNExT-Chatの結果エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショット ケースで Kosmos-2 を上回ることができました。 △RefCOCOgデータセットにおけるNExT-Chatの結果では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか? 画像コーディングの新しい方法を提案する従来の方法の欠点従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。 たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクト ボックスの座標をプレーン テキストに変換して、LLM が座標を理解できるようにします。 ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより密度の高い位置表現形式に一般化することは困難です。 この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。 pix2emb メソッドpix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。 △ pix2emb方式の簡単な例上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。 これには 2 つの利点があります。
pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。 NExT-Chatモデル△NExT-ChatモデルアーキテクチャNExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージ エンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックス エンコーダーとデコーダーが追加されます。 LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークン タイプを導入します。 モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。 さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。 △ポジション入力と出力の制約上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。 著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。 NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。
このようなトレーニング プロセスの利点は、検出ボックス データが豊富で、トレーニング コストが小さくなることです。 NExT-Chat は、豊富な検出ボックス データに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーション タスクに迅速に拡張できます。 |
>>: 2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Kompprise が委託した「非構造化データ管理の現状」調査によると、人工知能は IT およびビジ...
写真ビッグデータダイジェスト制作Michael I. Jordan は、機械学習、確率、統計、グラフ...
最近、南京、江蘇省、天津などではAI顔認識技術の使用を禁止し始めている。 11月末、南京市のある男性...
太平洋標準時3月18日午後10時、米国アリゾナ州で、ウーバーが路上試験中に自転車に乗った女性と衝突し...
[[188373]]著者は最近、深層学習を応用してタオバオ商品のカテゴリー予測問題を解決するプロジェ...
[[195952]] 1. ディープラーニングディープラーニングといえば、一度でも触れたことがある人...
自動運転における多くのタスクは、トップダウン、マップ、または鳥瞰図 (BEV) の観点から見ると、よ...
人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この記事では、いくつかの企...
近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...
2021 年には、ML と NLP の分野で多くのエキサイティングな進展がありました。 Sebas...