GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、複雑なテキスト コンテンツを理解して生成することができます。しかし、大規模な言語モデルの強力な理解および生成機能をマルチモーダル データに転送できれば、大量の画像やビデオを簡単に理解し、写真とテキストの両方を含むコンテンツの作成を支援できると考えたことがありますか。最近、快手と北京大学の共同研究による最新のマルチモーダル大型モデルであるLaVITが、このアイデアを徐々に現実のものにしつつあります。
モデルの概要新しいタイプの汎用マルチモーダル ベース モデルとして、LaVIT は言語モデルのように視覚コンテンツを理解および生成できます。 LaVIT は、自己回帰方式で次の画像またはテキスト トークンを予測するという、大規模言語モデルの成功したトレーニング パラダイムを継承しています。トレーニング後は、マルチモーダル汎用インターフェースとして機能し、さらに微調整することなく、マルチモーダル理解および生成タスクを実行できます。たとえば、LaVIT には次の機能があります。 高品質なテキストから画像への変換を実現: LaVIT は、指定されたテキスト プロンプトに基づいて、高品質でマルチアスペクト比の美しい画像を生成できます。その画像生成能力は、Parti、SDXL、DALLE-3 などの最先端の画像生成モデルに匹敵します。 マルチモーダルプロンプトに基づく画像生成: LaVIT では画像とテキストの両方が離散化されたトークンとして均一に表現されるため、複数のモーダルの組み合わせ (テキスト、画像 + テキスト、画像 + 画像など) をプロンプトとして受け入れ、微調整なしで対応する画像を生成できます。 画像の内容を理解して質問に答える: 入力画像が与えられると、LaVIT は画像の内容を読み取り、その意味を理解することができます。たとえば、モデルは入力画像のキャプションを提供し、対応する質問に答えることができます。 方法の概要LaVIT のモデル構造を下図に示します。最適化プロセス全体は 2 つの段階から構成されます。 図: LaVIT モデルの全体的なアーキテクチャ ステージ 1: 動的ビジュアル トークナイザー 自然言語のような視覚コンテンツを理解し、生成できるようにするために、LaVIT は、LLM が理解できる外国語と同じように、視覚コンテンツ (連続信号) をテキストのようなトークン シーケンスに変換する、適切に設計されたビジュアル トークナイザーを導入しています。著者は、統一された視覚と言語モデリングを実現するために、ビジュアルトークナイザーは次の 2 つの特性を持つ必要があると考えています。
次の図は、LaVIT が提案したビジュアル ワード セグメンターの構造を示しています。 図: (a) 動的ビジュアルトークンジェネレータ (b) トークンのマージ 動的ビジュアルトークナイザーには、トークンセレクターとトークンマージャーが含まれています。図に示すように、トークン セレクターは最も情報量の多い画像ブロックを選択するために使用され、トークン マージャーは情報量の少ない視覚ブロックの情報を保持トークンに圧縮して、冗長トークンのマージを実現します。動的ビジュアル単語セグメンター全体は、入力画像の意味を最大限に再構築することによってトレーニングされます。 トークンセレクター トークン セレクターは、N 個の画像ブロック レベルの機能を入力として受け取り、各画像ブロックの重要度を評価し、画像全体のセマンティクスを完全に表現するために最も情報量の多いブロックを選択することを目的としています。この目標を達成するために、分布 π を予測するために複数の MLP レイヤーで構成される軽量モジュールが採用されています。分布 π からサンプリングすることにより、対応する画像パッチを保持するかどうかを示すバイナリ決定マスクが生成されます。 トークンの合併 トークン マージャーは、生成された決定マスクに従って、N 個の画像ブロックを 2 つのグループ (X_r と X_d) に分割します。 X_d を直接破棄する場合とは異なり、トークンのマージにより、入力画像の詳細なセマンティクスを最大限に保持できます。トークンのマージは L 個の積み重ねられたブロックで構成され、各ブロックには因果的自己注意層、交差注意層、およびフィードフォワード層が含まれます。因果的自己注意層では、X_r 内の各トークンは、LLM 内のテキスト トークン形式との一貫性を確保するために、その前のトークンにのみ注意を払います。この戦略は双方向セルフアテンションに比べてパフォーマンスが優れています。交差アテンション層は、保持されたトークン X_r をクエリとして受け取り、意味的類似性に従って X_d 内のトークンをマージします。 ステージ2: 統合生成事前トレーニング ビジュアル ワード セグメンターによって処理されたビジュアル トークンは、テキスト トークンと接続され、トレーニングの入力としてマルチモーダル シーケンスを形成します。 2 つのモダリティを区別するために、著者は画像トークン シーケンスの先頭と末尾に、視覚コンテンツの先頭と末尾を示す特別なトークン [IMG] と [/IMG] を挿入しました。テキストと画像を生成できるようにするために、LaVIT は [画像、テキスト] と [テキスト; 画像] という 2 つの形式の画像とテキストの接続を使用します。 これらのマルチモーダル入力シーケンスに対して、LaVIT は統合された自己回帰アプローチを採用し、事前トレーニングの各マルチモーダルシーケンスの尤度を直接最大化します。この表現空間とトレーニング方法の完全な統一により、LLM はマルチモーダルなインタラクションとアライメントをより適切に学習できるようになります。事前トレーニング後、LaVIT は画像を認識する能力を持ち、テキストのように画像を理解および生成できるようになります。 実験ゼロショットマルチモーダル理解 LaVIT は、画像キャプション (NoCaps、Flickr30k) や視覚的な質問応答 (VQAv2、OKVQA、GQA、VizWiz) などのゼロショット マルチモーダル理解タスクでトップクラスのパフォーマンスを実現します。 表1 ゼロショットマルチモーダル理解タスクの評価 ゼロショットマルチモーダル生成 この実験では、提案されたビジュアルトークナイザーは画像を離散化されたトークンとして表現できるため、LaVIT は自己回帰によってテキストのようなビジュアルトークンを生成することで画像を合成する機能を備えています。著者らは、ゼロサンプルテキスト条件下でのモデルの画像合成性能の定量的評価を実施し、比較結果を表 2 に示します。 表2 ゼロショットテキスト画像生成の性能(各モデル) 表からわかるように、LaVIT は他のすべてのマルチモーダル言語モデルよりも優れています。 Emu と比較して、LaVIT はより小さな LLM モデルでさらなる改善を実現し、優れた視覚言語アライメント機能を発揮します。さらに、LaVIT は、はるかに少ないトレーニング データを使用しながら、最先端のテキストから画像への変換エキスパートである Parti と同等のパフォーマンスを実現します。 マルチモーダルキュー画像生成 LaVIT は、複数のモダリティの組み合わせをプロンプトとしてシームレスに受け入れ、微調整なしで対応する画像を生成できます。 LaVIT は、与えられたマルチモーダル キューのスタイルとセマンティクスを正確に反映した画像を生成します。また、入力されたマルチモーダルキューを通じて元の入力画像を変更することもできます。 Stable Diffusion などの従来の画像生成モデルでは、下流のデータに対する追加の微調整を行わなければ、この機能を実現できません。 マルチモーダル画像生成結果の例 定性分析 下の図に示すように、LaVIT の動的単語セグメンテーションは、画像の内容に基づいて最も情報量の多い画像ブロックを動的に選択することができ、学習したコードは高レベルのセマンティクスを備えた視覚的なエンコーディングを生成できます。 動的ビジュアルトークナイザー(左)と学習したコードブック(右)の視覚化 要約するLaVIT の出現により、マルチモーダル タスクの処理に革新的なパラダイムがもたらされました。これは、動的な視覚単語セグメンターを使用して、視覚と言語を統合された個別のトークン表現として表し、LLM の成功した自己回帰生成学習パラダイムを継承しています。統一された生成目標に基づいて最適化することで、LaVIT は画像を外国語として扱い、テキストのように理解して生成することができます。この方法の成功は、マルチモーダル研究の将来の発展方向に新たなインスピレーションを提供し、LLM の強力な推論能力を活用して、よりスマートで包括的なマルチモーダルの理解と生成を実現することで、新たな可能性を切り開きます。 |
<<: IDC: 中国のAI投資は2027年までに381億ドルに達すると予想
>>: 大きなモデルもスライスできます。Microsoft SliceGPTはLLAMA-2の計算効率を大幅に向上させます。
人間の子どもの最も基本的な運動知能、例えばつかむ、持ち上げる、あるいはキルトや衣服をたたむといった家...
モノのインターネット (IoT) に匹敵する潜在力を持つテクノロジーはほとんどなく、IoT はほぼす...
機械学習とディープラーニングの違いは何だろうとよく疑問に思う方は、この記事を読んで、その違いを一般の...
Microsoft は、Windows 365 を通じて、ますます多くの Windows 機能とコン...
[51CTO.com クイック翻訳]ビジネスの世界では、デジタルトランスフォーメーションという言葉を...
近年、世界的な技術開発の加速化が進み、新世代の情報通信技術が次々と導入され、数多くの新たなビジネスモ...
1950 年 10 月に、「機械は考えることができるか?」と題する論文が発表されました。この論文で...
グッドフェロー:オフィスで働きたくないから転職するというのは本当ですか? AppleやGoogleの...
[[430969]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
AlphaGOとイ・セドルの人間対機械の戦いにより、ディープラーニングという言葉が再び人気を集めてい...
世界最大のセマンティック評価コンテスト「SemEval-2022」は7月19日、今年唯一の「最優秀シ...