GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

マルチモーダル大型モデル着陸の風がようやく吹いた。

12日前、OpenAIはChatGPTに画像認識機能を追加し、ユーザーが1枚以上の画像をアップロードして会話に参加できるようにしました。 OpenAI自身が公開した短い文書から、ChatGPTの画像認識機能の背後にはGPT-4Vと呼ばれる新しい大規模モデルがあることがわかりました。

実は、この機能は半年前に GPT-4 がリリースされたときにすでに存在していましたが、一般ユーザーが利用できるようになっていませんでした。 AI の分野では、マルチモーダル大規模モデルは長い間認識されてきたトレンドであり、一般的な AI アシスタントの重要なモジュールとしても考えられています。

OpenAI が「クローズドソース」を主張していることから、多くの研究者も率先して独自のマルチモーダル大規模モデルの研究成果を発表しています。例えば、代表的な2つの作品「LLaVA」と「MiniGPT-4」は、自然な指示追跡と視覚的推論機能において素晴らしい結果を示しました。

今年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル指示データセットでトレーニングされましたが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示しました。

今日、この成果は大幅なアップグレードを受け、LLaVA-1.5 が正式にリリースされました。オリジナルの LLaVA に簡単な変更を加えることで、11 のベンチマークで新しい SOTA 標準が設定されました。


  • 論文アドレス: https://browse.arxiv.org/pdf/2310.03744.pdf
  • デモアドレス: https://llava.hliu.cc/

LLaVA-1.5 は、わずか 120 万の公開データを使用して、単一の 8-A100 ノードで 1 日未満でトレーニングを完了しました。

論文では、研究者らは、MLP クロスモーダル コネクタと、VQA などの学術タスクに関連するデータの組み込みという 2 つの簡単な改善点を紹介しました。 LLaVA と併用すると、これら 2 つの改善により、マルチモーダル理解が向上します。

数億、あるいは数十億の画像とテキストのペアリング データに対して特別に設計されたビジュアル リサンプラーをトレーニングする InstructBLIP や Qwen-VL と比較すると、LLaVA は最もシンプルなアーキテクチャ設計を使用し、60 万の画像とテキストのペアに対して完全に接続したシンプルな投影レイヤーをトレーニングするだけで済みます。

GPT-4Vと競合できますか?

論文を読む前に、まずは LLaVA-1.5 の認識能力と、それが GPT-4V と競合できるかどうかを見てみましょう。

提案1: 食料品をJSONに変換する

手順: すべての果物 (果物のみ) を識別し、果物ごとに、名前属性と、推定カロリー、炭水化物、脂肪、タンパク質属性などの栄養属性を持つオブジェクトを作成する必要があります。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

命題2: 簡略化されたスケッチから映画のタイトルを特定する

説明: この写真はどんな映画に関するものですか?注: 識別を困難にするため、登場人物の名前を変更しました。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

論文の詳細

LLaVA は視覚的推論において賞賛に値する能力を示し、現実の視覚的指示タスクのさまざまなベンチマークで複数の最先端モデルを上回りましたが、短い回答が求められる学術的なベンチマークでのみ劣っていました。研究チームは、後者は LLaVA が他の手法のように大規模なデータで事前トレーニングされていないことに起因すると考えています。

具体的には、この研究ではまず、以下の表 1 で選択された 3 つのデータセットに対する拡張データ、モデル、および入力画像解像度の影響を分析し、次に表 2 の 12 の異なるベンチマークで比較実験を実施します。実験結果から、LLaVA アーキテクチャは視覚指示のチューニングに強力かつデータ効率に優れ、他のすべての方法よりも大幅に少ない計算とトレーニング データを使用して最高のパフォーマンスを達成することが実証されています。


応答形式のプロンプト

調査の結果、InstructBLIP などの方法では短い形式の VQA と長い形式の VQA のバランスをとることができない主な理由が 2 つあることがわかりました。

まず、LLM に与えられたプロンプトの応答形式が不明確でした。たとえば、「Q: {質問} A: {回答}」のようなプロンプトでは、必要な出力形式が明確に示されません。自然な視覚的な会話の場合でも、LLM を過剰適合させて短い回答を返す可能性があります。

第二に、LLM の微調整は実行されませんでした。たとえば、InstructBLIP では、LLM の出力長 (長い形式/短い形式) を制御するために Qformer のビジュアル出力トークンが必要ですが、Qformer は容量が限られているため、これを正しく実行できない可能性があります。

この問題を解決するために、この研究では、出力形式を明示的に指定する「応答形式プロンプト」の使用を提案しました。たとえば、モデルが短い回答を要求される場合、VQA の質問の最後に「1 つの単語またはフレーズを使用して質問に回答してください」という文を追加します。

この研究では、このようなプロンプトを使用して LLM を微調整すると、LLaVA はユーザーの指示に基づいて出力形式を適切に調整でき、ChatGPT を使用して VQA データを追加処理する必要がないことを実験的に示しています。

さらに、この研究では、2層MLPを通じて視覚言語コネクタの表現能力を向上させることで、元のモデルと比較してLLaVAのマルチモーダル能力を向上できることも判明しました。さらに、この研究では、モデルのマルチモーダル機能を強化するために、VQA、OCR、および地域レベルの認識に関する学術タスク用の追加 VQA データセットを含む学術タスク用のデータも拡張しました。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  RPAテクノロジーが製造業の未来をどのように変えるか

>>:  モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

ブログ    
ブログ    

推薦する

...

パフォーマンス最適化技術: アルゴリズム

アルゴリズムとその実装にはさまざまな種類がありますが、この記事ではシングルコア、シングルスレッドのア...

...

2024年の製造業の現状:完全デジタル化

世界全体、特に製造業は、パンデミック中に発生した問題や数年前の大規模なサプライチェーンの混乱から脱し...

MetaのAIは、メタバースで「あなたの言葉を実現」することを可能にします

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

中国科学院は「触覚」を備えたロボットを開発し、豚の肝臓に低侵襲手術を成功させた。

中国科学院が1月17日に発表したところによると、このほど中国科学院深圳先進技術研究所医療工学研究所低...

AI がどのようにして人々に結婚や勉強をするように説得できるかを見てみましょう。

[[361065]]いたずら好きな老人の周伯同は、黄耀師によって桃花島に十数年閉じ込められていまし...

百度は「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムをオープンソース化、専門病理学者よりも高い精度を実現

最近、百度研究所は論文で「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムを提案し...

機械学習の新たな嵐: ML モデルを使用して住宅価格を予測する方法とは?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

機械学習を使用してビデオ内の顔を再構築する

翻訳者 | 崔昊校正:孫淑娟導入 中国と英国の共同研究により、ビデオ内の顔を再現する新しい方法が考案...

...

AI時代のネイティブ:3歳でパズルを作り、5歳でプログラミングを学ぶ

[[241540]] 2018年世界ロボットコンテストで、子どもたちがロボットのプログラミングと制御...

機械学習の12の経験則

機械学習アルゴリズムは、例から一般化することで重要なタスクを実行する方法を理解できます。これを手動プ...

近い将来、人工知能によって劇的に変化する11の業界

人工知能(AI)は急速に、そしてシームレスに生活の一部となったため、私たちの多くは、それが社会にどれ...

Julia言語を使用して「準同型暗号化+機械学習」を実装するには?

[[285696]]最近、「ブロックチェーン」や「フェデレーテッドラーニング」などの概念がかつてな...