GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

マルチモーダル大型モデル着陸の風がようやく吹いた。

12日前、OpenAIはChatGPTに画像認識機能を追加し、ユーザーが1枚以上の画像をアップロードして会話に参加できるようにしました。 OpenAI自身が公開した短い文書から、ChatGPTの画像認識機能の背後にはGPT-4Vと呼ばれる新しい大規模モデルがあることがわかりました。

実は、この機能は半年前に GPT-4 がリリースされたときにすでに存在していましたが、一般ユーザーが利用できるようになっていませんでした。 AI の分野では、マルチモーダル大規模モデルは長い間認識されてきたトレンドであり、一般的な AI アシスタントの重要なモジュールとしても考えられています。

OpenAI が「クローズドソース」を主張していることから、多くの研究者も率先して独自のマルチモーダル大規模モデルの研究成果を発表しています。例えば、代表的な2つの作品「LLaVA」と「MiniGPT-4」は、自然な指示追跡と視覚的推論機能において素晴らしい結果を示しました。

今年 4 月、ウィスコンシン大学マディソン校、マイクロソフトリサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル指示データセットでトレーニングされましたが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示しました。

今日、この成果は大幅なアップグレードを受け、LLaVA-1.5 が正式にリリースされました。オリジナルの LLaVA に簡単な変更を加えることで、11 のベンチマークで新しい SOTA 標準が設定されました。

論文アドレス: https://browse.arxiv.org/pdf/2310.03744.pdf
デモアドレス: https://llava.hliu.cc/

LLaVA-1.5 は、わずか 120 万の公開データを使用して、単一の 8-A100 ノードで 1 日未満でトレーニングを完了しました。

論文では、研究者らは、MLP クロスモーダルコネクタと、VQA などの学術タスクに関連するデータの組み込みという 2 つの簡単な改善点を紹介しました。 LLaVA と併用すると、これら 2 つの改善により、マルチモーダル理解が向上します。

数億、あるいは数十億の画像とテキストのペアリングデータに対して特別に設計されたビジュアルリサンプラーをトレーニングする InstructBLIP や Qwen-VL と比較すると、LLaVA は最もシンプルなアーキテクチャ設計を使用し、60 万の画像とテキストのペアに対して完全に接続したシンプルな投影レイヤーをトレーニングするだけで済みます。

GPT-4Vと競合できますか?

論文を読む前に、まずは LLaVA-1.5 の認識能力と、それが GPT-4V と競合できるかどうかを見てみましょう。

提案1: 食料品をJSONに変換する

手順: すべての果物 (果物のみ) を識別し、果物ごとに、名前属性と、推定カロリー、炭水化物、脂肪、タンパク質属性などの栄養属性を持つオブジェクトを作成する必要があります。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

命題2: 簡略化されたスケッチから映画のタイトルを特定する

説明: この写真はどんな映画に関するものですか?注: 識別を困難にするため、登場人物の名前を変更しました。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

論文の詳細

LLaVA は視覚的推論において賞賛に値する能力を示し、現実の視覚的指示タスクのさまざまなベンチマークで複数の最先端モデルを上回りましたが、短い回答が求められる学術的なベンチマークでのみ劣っていました。研究チームは、後者は LLaVA が他の手法のように大規模なデータで事前トレーニングされていないことに起因すると考えています。

具体的には、この研究ではまず、以下の表 1 で選択された 3 つのデータセットに対する拡張データ、モデル、および入力画像解像度の影響を分析し、次に表 2 の 12 の異なるベンチマークで比較実験を実施します。実験結果から、LLaVA アーキテクチャは視覚指示のチューニングに強力かつデータ効率に優れ、他のすべての方法よりも大幅に少ない計算とトレーニングデータを使用して最高のパフォーマンスを達成することが実証されています。

応答形式のプロンプト

調査の結果、InstructBLIP などの方法では短い形式の VQA と長い形式の VQA のバランスをとることができない主な理由が 2 つあることがわかりました。

まず、LLM に与えられたプロンプトの応答形式が不明確でした。たとえば、「Q: {質問} A: {回答}」のようなプロンプトでは、必要な出力形式が明確に示されません。自然な視覚的な会話の場合でも、LLM を過剰適合させて短い回答を返す可能性があります。

第二に、LLM の微調整は実行されませんでした。たとえば、InstructBLIP では、LLM の出力長 (長い形式/短い形式) を制御するために Qformer のビジュアル出力トークンが必要ですが、Qformer は容量が限られているため、これを正しく実行できない可能性があります。

この問題を解決するために、この研究では、出力形式を明示的に指定する「応答形式プロンプト」の使用を提案しました。たとえば、モデルが短い回答を要求される場合、VQA の質問の最後に「1 つの単語またはフレーズを使用して質問に回答してください」という文を追加します。

この研究では、このようなプロンプトを使用して LLM を微調整すると、LLaVA はユーザーの指示に基づいて出力形式を適切に調整でき、ChatGPT を使用して VQA データを追加処理する必要がないことを実験的に示しています。

さらに、この研究では、2層MLPを通じて視覚言語コネクタの表現能力を向上させることで、元のモデルと比較してLLaVAのマルチモーダル能力を向上できることも判明しました。さらに、この研究では、モデルのマルチモーダル機能を強化するために、VQA、OCR、および地域レベルの認識に関する学術タスク用の追加 VQA データセットを含む学術タスク用のデータも拡張しました。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: RPAテクノロジーが製造業の未来をどのように変えるか

>>: モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。