画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、複雑なテキスト コンテンツを理解して生成することができます。しかし、大規模な言語モデルの強力な理解および生成機能をマルチモーダル データに転送できれば、大量の画像やビデオを簡単に理解し、写真とテキストの両方を含むコンテンツの作成を支援できると考えたことがありますか。最近、快手と北京大学の共同研究による最新のマルチモーダル大型モデルであるLaVITが、このアイデアを徐々に現実のものにしつつあります。


  • 論文タイトル: 動的離散視覚トークン化による LLM における統合言語視覚事前トレーニング
  • 論文アドレス: https://arxiv.org/abs/2309.04669
  • コードモデルアドレス: https://github.com/jy0205/LaVIT

モデルの概要

新しいタイプの汎用マルチモーダル ベース モデルとして、LaVIT は言語モデルのように視覚コンテンツを理解および生成できます。 LaVIT は、自己回帰方式で次の画像またはテキスト トークンを予測するという、大規模言語モデルの成功したトレーニング パラダイムを継承しています。トレーニング後は、マルチモーダル汎用インターフェースとして機能し、さらに微調整することなく、マルチモーダル理解および生成タスクを実行できます。たとえば、LaVIT には次の機能があります。

高品質なテキストから画像への変換を実現: LaVIT は、指定されたテキスト プロンプトに基づいて、高品質でマルチアスペクト比の美しい画像を生成できます。その画像生成能力は、Parti、SDXL、DALLE-3 などの最先端の画像生成モデルに匹敵します。

マルチモーダルプロンプトに基づく画像生成: LaVIT では画像とテキストの両方が離散化されたトークンとして均一に表現されるため、複数のモーダルの組み合わせ (テキスト、画像 + テキスト、画像 + 画像など) をプロンプトとして受け入れ、微調整なしで対応する画像を生成できます。

画像の内容を理解して質問に答える: 入力画像が与えられると、LaVIT は画像の内容を読み取り、その意味を理解することができます。たとえば、モデルは入力画像のキャプションを提供し、対応する質問に答えることができます。

方法の概要

LaVIT のモデル構造を下図に示します。最適化プロセス全体は 2 つの段階から構成されます。

図: LaVIT モデルの全体的なアーキテクチャ

ステージ 1: 動的ビジュアル トークナイザー

自然言語のような視覚コンテンツを理解し、生成できるようにするために、LaVIT は、LLM が理解できる外国語と同じように、視覚コンテンツ (連続信号) をテキストのようなトークン シーケンスに変換する、適切に設計されたビジュアル トークナイザーを導入しています。著者は、統一された視覚と言語モデリングを実現するために、ビジュアルトークナイザーは次の 2 つの特性を持つ必要があると考えています。

  1. 離散化: 視覚トークンは、テキストのような離散化された形式で表現する必要があります。この 2 つのモダリティの統一された表現は、LaVIT が統一された自己回帰生成トレーニング フレームワークの下でマルチモーダル モデリングの最適化に同じ分類損失を使用するのに役立ちます。
  2. 動的:テキスト トークンとは異なり、イメージ パッチには重要な相互依存性があるため、あるイメージ パッチを他のイメージ パッチから推測するのは比較的簡単です。したがって、この依存関係により、元の LLM の次のトークン予測最適化目標の有効性が低下します。 LaVIT は、さまざまな画像のさまざまな意味的複雑さに応じて動的な数の視覚トークンをエンコードするトークンマージを使用して、視覚パッチ間の冗長性を削減することを提案しています。このように、複雑度の異なる画像の場合、動的トークン エンコーディングを使用すると、事前トレーニングの効率がさらに向上し、冗長なトークン計算が回避されます。

次の図は、LaVIT が提案したビジュアル ワード セグメンターの構造を示しています。

図: (a) 動的ビジュアルトークンジェネレータ (b) トークンのマージ

動的ビジュアルトークナイザーには、トークンセレクターとトークンマージャーが含まれています。図に示すように、トークン セレクターは最も情報量の多い画像ブロックを選択するために使用され、トークン マージャーは情報量の少ない視覚ブロックの情報を保持トークンに圧縮して、冗長トークンのマージを実現します。動的ビジュアル単語セグメンター全体は、入力画像の意味を最大限に再構築することによってトレーニングされます。

トークンセレクター

トークン セレクターは、N 個の画像ブロック レベルの機能を入力として受け取り、各画像ブロックの重要度を評価し、画像全体のセマンティクスを完全に表現するために最も情報量の多いブロックを選択することを目的としています。この目標を達成するために、分布 π を予測するために複数の MLP レイヤーで構成される軽量モジュールが採用されています。分布 π からサンプリングすることにより、対応する画像パッチを保持するかどうかを示すバイナリ決定マスクが生成されます。

トークンの合併

トークン マージャーは、生成された決定マスクに従って、N 個の画像ブロックを 2 つのグループ (X_r と X_d) に分割します。 X_d を直接破棄する場合とは異なり、トークンのマージにより、入力画像の詳細なセマンティクスを最大限に保持できます。トークンのマージは L 個の積み重ねられたブロックで構成され、各ブロックには因果的自己注意層、交差注意層、およびフィードフォワード層が含まれます。因果的自己注意層では、X_r 内の各トークンは、LLM 内のテキスト トークン形式との一貫性を確保するために、その前のトークンにのみ注意を払います。この戦略は双方向セルフアテンションに比べてパフォーマンスが優れています。交差アテンション層は、保持されたトークン X_r をクエリとして受け取り、意味的類似性に従って X_d 内のトークンをマージします。

ステージ2: 統合生成事前トレーニング

ビジュアル ワード セグメンターによって処理されたビジュアル トークンは、テキスト トークンと接続され、トレーニングの入力としてマルチモーダル シーケンスを形成します。 2 つのモダリティを区別するために、著者は画像トークン シーケンスの先頭と末尾に、視覚コンテンツの先頭と末尾を示す特別なトークン [IMG] と [/IMG] を挿入しました。テキストと画像を生成できるようにするために、LaVIT は [画像、テキスト] と [テキスト; 画像] という 2 つの形式の画像とテキストの接続を使用します。

これらのマルチモーダル入力シーケンスに対して、LaVIT は統合された自己回帰アプローチを採用し、事前トレーニングの各マルチモーダルシーケンスの尤度を直接最大化します。この表現空間とトレーニング方法の完全な統一により、LLM はマルチモーダルなインタラクションとアライメントをより適切に学習できるようになります。事前トレーニング後、LaVIT は画像を認識する能力を持ち、テキストのように画像を理解および生成できるようになります。

実験

ゼロショットマルチモーダル理解

LaVIT は、画像キャプション (NoCaps、Flickr30k) や視覚的な質問応答 (VQAv2、OKVQA、GQA、VizWiz) などのゼロショット マルチモーダル理解タスクでトップクラスのパフォーマンスを実現します。

表1 ゼロショットマルチモーダル理解タスクの評価

ゼロショットマルチモーダル生成

この実験では、提案されたビジュアルトークナイザーは画像を離散化されたトークンとして表現できるため、LaVIT は自己回帰によってテキストのようなビジュアルトークンを生成することで画像を合成する機能を備えています。著者らは、ゼロサンプルテキスト条件下でのモデルの画像合成性能の定量的評価を実施し、比較結果を表 2 に示します。

表2 ゼロショットテキスト画像生成の性能(各モデル)

表からわかるように、LaVIT は他のすべてのマルチモーダル言語モデルよりも優れています。 Emu と比較して、LaVIT はより小さな LLM モデルでさらなる改善を実現し、優れた視覚言語アライメント機能を発揮します。さらに、LaVIT は、はるかに少ないトレーニング データを使用しながら、最先端のテキストから画像への変換エキスパートである Parti と同等のパフォーマンスを実現します。

マルチモーダルキュー画像生成

LaVIT は、複数のモダリティの組み合わせをプロンプトとしてシームレスに受け入れ、微調整なしで対応する画像を生成できます。 LaVIT は、与えられたマルチモーダル キューのスタイルとセマンティクスを正確に反映した画像を生成します。また、入力されたマルチモーダルキューを通じて元の入力画像を変更することもできます。 Stable Diffusion などの従来の画像生成モデルでは、下流のデータに対する追加の微調整を行わなければ、この機能を実現できません。

マルチモーダル画像生成結果の例

定性分析

下の図に示すように、LaVIT の動的単語セグメンテーションは、画像の内容に基づいて最も情報量の多い画像ブロックを動的に選択することができ、学習したコードは高レベルのセマンティクスを備えた視覚的なエンコーディングを生成できます。

動的ビジュアルトークナイザー(左)と学習したコードブック(右)の視覚化

要約する

LaVIT の出現により、マルチモーダル タスクの処理に革新的なパラダイムがもたらされました。これは、動的な視覚単語セグメンターを使用して、視覚と言語を統合された個別のトークン表現として表し、LLM の成功した自己回帰生成学習パラダイムを継承しています。統一された生成目標に基づいて最適化することで、LaVIT は画像を外国語として扱い、テキストのように理解して生成することができます。この方法の成功は、マルチモーダル研究の将来の発展方向に新たなインスピレーションを提供し、LLM の強力な推論能力を活用して、よりスマートで包括的なマルチモーダルの理解と生成を実現することで、新たな可能性を切り開きます。

<<:  IDC: 中国のAI投資は2027年までに381億ドルに達すると予想

>>:  大きなモデルもスライスできます。Microsoft SliceGPTはLLAMA-2の計算効率を大幅に向上させます。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

520 開発者のバレンタインデー: 全プラットフォームで 35 の PaddlePaddle アップグレード「Show AI」

「新インフラ」は中国の「産業インテリジェンス」に強力な新たな原動力をもたらした。インテリジェント時...

AI軍はすでに門を叩いているが、失業はどのくらい先にあるのだろうか?

流行の間、人工知能は再び人気を博しました。人工知能によって合成されたニュースレポートは、私たちに毎日...

早期がん検査、医療AI:2020年の医療の10の進歩は注目に値する

過ぎ去ろうとしている2020年、私たちが戦っているのは新型コロナウイルスだけではありません。人間の健...

人工知能とIoTがガソリン小売業界を変革

ネットワークは常に企業の神経系であり、ビジネス プロセスとトランザクションはネットワークを通じてのみ...

米国は人工知能戦争への準備を強化している

海外メディアの報道によると、米国は「防衛パートナーシップ計画」を基盤として、人工知能戦争への備えを同...

Alibaba Cloudは、Llama2トレーニングの展開を全面的にサポートする最初の企業であり、企業が独自の大規模モデルを迅速に構築できるように支援します。

Llama2 はオープンソースであり、無料の商用利用をサポートしているため、オープンソースの大規模...

...

...

...

...

AIアーキテクトとはどのような人達でしょうか?

アシュトーシュ・グプタ翻訳者: ブガッティ企画丨孫淑娥亮策要するに:人工知能 (AI) プロジェクト...

希望の産業:AIが屋内農業を再定義

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

女の子とのいちゃつきを例にとると、5分でディープラーニングが理解できます!

[[196604]] [51CTO.com からのオリジナル記事]現在、AI が業界で重要な役割を...

...

ビッグデータが地球を救う10の方法

近年、多くの物事の成功はテクノロジーの進歩によるものと言えます。その一つは、気候変動のリスクから地球...