画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、複雑なテキストコンテンツを理解して生成することができます。しかし、大規模な言語モデルの強力な理解および生成機能をマルチモーダルデータに転送できれば、大量の画像やビデオを簡単に理解し、写真とテキストの両方を含むコンテンツの作成を支援できると考えたことがありますか。最近、快手と北京大学の共同研究による最新のマルチモーダル大型モデルであるLaVITが、このアイデアを徐々に現実のものにしつつあります。

論文タイトル: 動的離散視覚トークン化による LLM における統合言語視覚事前トレーニング
論文アドレス: https://arxiv.org/abs/2309.04669
コードモデルアドレス: https://github.com/jy0205/LaVIT

モデルの概要

新しいタイプの汎用マルチモーダルベースモデルとして、LaVIT は言語モデルのように視覚コンテンツを理解および生成できます。 LaVIT は、自己回帰方式で次の画像またはテキストトークンを予測するという、大規模言語モデルの成功したトレーニングパラダイムを継承しています。トレーニング後は、マルチモーダル汎用インターフェースとして機能し、さらに微調整することなく、マルチモーダル理解および生成タスクを実行できます。たとえば、LaVIT には次の機能があります。

高品質なテキストから画像への変換を実現: LaVIT は、指定されたテキストプロンプトに基づいて、高品質でマルチアスペクト比の美しい画像を生成できます。その画像生成能力は、Parti、SDXL、DALLE-3 などの最先端の画像生成モデルに匹敵します。

マルチモーダルプロンプトに基づく画像生成: LaVIT では画像とテキストの両方が離散化されたトークンとして均一に表現されるため、複数のモーダルの組み合わせ (テキスト、画像 + テキスト、画像 + 画像など) をプロンプトとして受け入れ、微調整なしで対応する画像を生成できます。

画像の内容を理解して質問に答える: 入力画像が与えられると、LaVIT は画像の内容を読み取り、その意味を理解することができます。たとえば、モデルは入力画像のキャプションを提供し、対応する質問に答えることができます。

方法の概要

LaVIT のモデル構造を下図に示します。最適化プロセス全体は 2 つの段階から構成されます。

図: LaVIT モデルの全体的なアーキテクチャ

ステージ 1: 動的ビジュアルトークナイザー

自然言語のような視覚コンテンツを理解し、生成できるようにするために、LaVIT は、LLM が理解できる外国語と同じように、視覚コンテンツ (連続信号) をテキストのようなトークンシーケンスに変換する、適切に設計されたビジュアルトークナイザーを導入しています。著者は、統一された視覚と言語モデリングを実現するために、ビジュアルトークナイザーは次の 2 つの特性を持つ必要があると考えています。

離散化: 視覚トークンは、テキストのような離散化された形式で表現する必要があります。この 2 つのモダリティの統一された表現は、LaVIT が統一された自己回帰生成トレーニングフレームワークの下でマルチモーダルモデリングの最適化に同じ分類損失を使用するのに役立ちます。
動的:テキストトークンとは異なり、イメージパッチには重要な相互依存性があるため、あるイメージパッチを他のイメージパッチから推測するのは比較的簡単です。したがって、この依存関係により、元の LLM の次のトークン予測最適化目標の有効性が低下します。 LaVIT は、さまざまな画像のさまざまな意味的複雑さに応じて動的な数の視覚トークンをエンコードするトークンマージを使用して、視覚パッチ間の冗長性を削減することを提案しています。このように、複雑度の異なる画像の場合、動的トークンエンコーディングを使用すると、事前トレーニングの効率がさらに向上し、冗長なトークン計算が回避されます。

次の図は、LaVIT が提案したビジュアルワードセグメンターの構造を示しています。

図: (a) 動的ビジュアルトークンジェネレータ (b) トークンのマージ

動的ビジュアルトークナイザーには、トークンセレクターとトークンマージャーが含まれています。図に示すように、トークンセレクターは最も情報量の多い画像ブロックを選択するために使用され、トークンマージャーは情報量の少ない視覚ブロックの情報を保持トークンに圧縮して、冗長トークンのマージを実現します。動的ビジュアル単語セグメンター全体は、入力画像の意味を最大限に再構築することによってトレーニングされます。

トークンセレクター

トークンセレクターは、N 個の画像ブロックレベルの機能を入力として受け取り、各画像ブロックの重要度を評価し、画像全体のセマンティクスを完全に表現するために最も情報量の多いブロックを選択することを目的としています。この目標を達成するために、分布 π を予測するために複数の MLP レイヤーで構成される軽量モジュールが採用されています。分布 π からサンプリングすることにより、対応する画像パッチを保持するかどうかを示すバイナリ決定マスクが生成されます。

トークンの合併

トークンマージャーは、生成された決定マスクに従って、N 個の画像ブロックを 2 つのグループ (X_r と X_d) に分割します。 X_d を直接破棄する場合とは異なり、トークンのマージにより、入力画像の詳細なセマンティクスを最大限に保持できます。トークンのマージは L 個の積み重ねられたブロックで構成され、各ブロックには因果的自己注意層、交差注意層、およびフィードフォワード層が含まれます。因果的自己注意層では、X_r 内の各トークンは、LLM 内のテキストトークン形式との一貫性を確保するために、その前のトークンにのみ注意を払います。この戦略は双方向セルフアテンションに比べてパフォーマンスが優れています。交差アテンション層は、保持されたトークン X_r をクエリとして受け取り、意味的類似性に従って X_d 内のトークンをマージします。

ステージ2: 統合生成事前トレーニング

ビジュアルワードセグメンターによって処理されたビジュアルトークンは、テキストトークンと接続され、トレーニングの入力としてマルチモーダルシーケンスを形成します。 2 つのモダリティを区別するために、著者は画像トークンシーケンスの先頭と末尾に、視覚コンテンツの先頭と末尾を示す特別なトークン [IMG] と [/IMG] を挿入しました。テキストと画像を生成できるようにするために、LaVIT は [画像、テキスト] と [テキスト; 画像] という 2 つの形式の画像とテキストの接続を使用します。

これらのマルチモーダル入力シーケンスに対して、LaVIT は統合された自己回帰アプローチを採用し、事前トレーニングの各マルチモーダルシーケンスの尤度を直接最大化します。この表現空間とトレーニング方法の完全な統一により、LLM はマルチモーダルなインタラクションとアライメントをより適切に学習できるようになります。事前トレーニング後、LaVIT は画像を認識する能力を持ち、テキストのように画像を理解および生成できるようになります。

実験

ゼロショットマルチモーダル理解

LaVIT は、画像キャプション (NoCaps、Flickr30k) や視覚的な質問応答 (VQAv2、OKVQA、GQA、VizWiz) などのゼロショットマルチモーダル理解タスクでトップクラスのパフォーマンスを実現します。

表1 ゼロショットマルチモーダル理解タスクの評価

ゼロショットマルチモーダル生成

この実験では、提案されたビジュアルトークナイザーは画像を離散化されたトークンとして表現できるため、LaVIT は自己回帰によってテキストのようなビジュアルトークンを生成することで画像を合成する機能を備えています。著者らは、ゼロサンプルテキスト条件下でのモデルの画像合成性能の定量的評価を実施し、比較結果を表 2 に示します。

表2 ゼロショットテキスト画像生成の性能（各モデル）

表からわかるように、LaVIT は他のすべてのマルチモーダル言語モデルよりも優れています。 Emu と比較して、LaVIT はより小さな LLM モデルでさらなる改善を実現し、優れた視覚言語アライメント機能を発揮します。さらに、LaVIT は、はるかに少ないトレーニングデータを使用しながら、最先端のテキストから画像への変換エキスパートである Parti と同等のパフォーマンスを実現します。

マルチモーダルキュー画像生成

LaVIT は、複数のモダリティの組み合わせをプロンプトとしてシームレスに受け入れ、微調整なしで対応する画像を生成できます。 LaVIT は、与えられたマルチモーダルキューのスタイルとセマンティクスを正確に反映した画像を生成します。また、入力されたマルチモーダルキューを通じて元の入力画像を変更することもできます。 Stable Diffusion などの従来の画像生成モデルでは、下流のデータに対する追加の微調整を行わなければ、この機能を実現できません。

マルチモーダル画像生成結果の例

定性分析

下の図に示すように、LaVIT の動的単語セグメンテーションは、画像の内容に基づいて最も情報量の多い画像ブロックを動的に選択することができ、学習したコードは高レベルのセマンティクスを備えた視覚的なエンコーディングを生成できます。

動的ビジュアルトークナイザー（左）と学習したコードブック（右）の視覚化

要約する

LaVIT の出現により、マルチモーダルタスクの処理に革新的なパラダイムがもたらされました。これは、動的な視覚単語セグメンターを使用して、視覚と言語を統合された個別のトークン表現として表し、LLM の成功した自己回帰生成学習パラダイムを継承しています。統一された生成目標に基づいて最適化することで、LaVIT は画像を外国語として扱い、テキストのように理解して生成することができます。この方法の成功は、マルチモーダル研究の将来の発展方向に新たなインスピレーションを提供し、LLM の強力な推論能力を活用して、よりスマートで包括的なマルチモーダルの理解と生成を実現することで、新たな可能性を切り開きます。

<<: IDC: 中国のAI投資は2027年までに381億ドルに達すると予想

>>: 大きなモデルもスライスできます。Microsoft SliceGPTはLLAMA-2の計算効率を大幅に向上させます。