Byteチームは、認知生成リストSoTAを理解するためのマルチモーダルLLMであるLynxモデルを提案しました。

Byteチームは、認知生成リストSoTAを理解するためのマルチモーダルLLMであるLynxモデルを提案しました。

GPT4 などの現在の大規模言語モデル (LLM) は、画像が与えられた場合にオープンエンドの指示に従うという優れたマルチモーダル機能を実証しています。しかし、これらのモデルのパフォーマンスは、ネットワーク アーキテクチャ、トレーニング データ、トレーニング戦略の選択に大きく依存しますが、これまでの文献ではこれらについては十分に議論されていません。さらに、現在、これらのモデルを評価および比較するための適切なベンチマークが不足しており、マルチモーダル LLM の開発が制限されています。

写真

  • 論文: https://arxiv.org/abs/2307.02469
  • ウェブサイト: https://lynx-llm.github.io/
  • コード: https://github.com/bytedance/lynx-llm

この記事では、著者らは定量的および定性的な観点から、このようなモデルのトレーニングに関する体系的かつ包括的な研究を紹介します。 20 種類以上のバリエーションが設定されました。ネットワーク構造につ​​いては、さまざまな LLM バックボーンとモデル設計を比較しました。トレーニング データについては、データとサンプリング戦略の影響を調査しました。指示に関しては、多様なプロンプトがモデルの指示追従能力に与える影響を調査しました。ベンチマークとして、この記事ではまず、画像とビデオのタスクを含むオープンな視覚的質問応答評価セットである Open-VQA を提案しています。

実験結果に基づいて、著者らは、既存のオープンソースの GPT4 スタイルのモデルと比較して、最高のマルチモーダル生成能力を維持しながら、最も正確なマルチモーダル理解能力を示す Lynx を提案しました。

評価計画

一般的な視覚言語タスクとは異なり、GPT4スタイルのモデルを評価する際の主な課題は、テキスト生成能力マルチモーダル理解の精度のパフォーマンスのバランスを取ることです。この問題に対処するために、著者らはビデオと画像データの両方を含む新しいベンチマーク Open-VQA を提案し、現在のオープンソース モデルの包括的な評価を実施しました。

具体的には、次の 2 つの定量的評価スキームが採用されました。

  • オブジェクト、OCR、カウント、推論、アクション認識、時間順序など、さまざまなカテゴリの質問を含む Open Visual Question Answering (Open-VQA) テスト セットが収集されています。標準的な回答を持つ VQA データセットとは異なり、Open-VQA の回答は自由形式です。 Open-VQA のパフォーマンスを評価するために、GPT4 が識別器として使用され、その結果は人間の評価と 95% 一致しています。
  • さらに、著者らは、mPLUG-owl [1]が提供するOwlEvalデータセットを使用して、モデルのテキスト生成能力を評価しました。このデータセットには50枚の画像と82の質問しか含まれていませんが、ストーリー生成、広告生成、コード生成など、さまざまな問題をカバーしています。また、さまざまなモデルのパフォーマンスを評価するために、人間の注釈者も採用しました。

結論は

マルチモーダルLLMのトレーニング戦略をさらに研究するために、著者らは、ネットワーク構造(プレフィックス微調整/クロスアテンション)、トレーニングデータ(データ選択と組み合わせ比率)、指示(単一指示/多様な指示)、LLMモデル(LLaMA [5]/Vicuna [6])、画像ピクセル(420/224)など、さまざまな側面から20を超えるバリエーションを設定しました。実験を通じて、次の主な結論が導き出されました。

  • マルチモーダル LLM の指示追従能力は LLM ほど良好ではありませんでした。例えば、InstructBLIP[2]は入力指示に関係なく短い応答を生成する傾向があるのに対し、他のモデルは指示に関係なく長い文を生成する傾向がある。これは、高品質で多様なマルチモーダル指示データが不足しているためだと著者らは考えている。
  • トレーニング データの品質はモデルのパフォーマンスにとって重要です。さまざまなデータに対する実験の結果に基づくと、少量の高品質データを使用する方が、大量のノイズの多いデータを使用するよりもパフォーマンスが優れていることがわかります。著者は、これが生成的トレーニングと対照的トレーニングの違いであると考えています。生成的トレーニングでは、テキストと画像の類似性ではなく、単語の条件付き分布を直接学習するからです。したがって、モデルのパフォーマンスを向上させるには、データが次の 2 つの要件を満たす必要があります。1) 高品質の流暢なテキストが含まれていること。2) テキストと画像の内容が適切に揃っていること。
  • タスクとキューはゼロショット機能にとって重要です。多様なタスクと指示を使用すると、テキストのみのモデルでの観察と一致して、未知のタスクでのモデルのゼロショット生成機能が向上します。
  • 正確性と言語生成機能のバランスをとることが重要です。モデルが VQA などの下流タスクで十分にトレーニングされていない場合、視覚入力と一致しない偽のコンテンツを生成する可能性が高くなります。一方、モデルが下流タスクで過剰にトレーニングされている場合、短い回答を生成する傾向があり、ユーザーの指示どおりに長い回答を生成できなくなります。
  • プレフィックス微調整 (PT) は現在、LLM のマルチモーダル適応に最適なソリューションです。実験では、プレフィックス微調整モデルは、多様な指示に素早く従う能力を向上させることができ、クロスアテンション (CA) モデルよりもトレーニングが容易です。 (プレフィックスチューニングとクロスアテンションは2つのモデル構造です。詳細については、Lynxモデルの紹介セクションを参照してください)

リンクスモデル

著者らは、2段階でトレーニングされるプレフィックス微調整を備えたGPT4スタイルのモデルであるLynxを提案しました。最初の段階では、約1 億 2,000 万の画像とテキストのペアを使用して、視覚と言語の埋め込みを調整します。2 番目の段階では、20 枚の画像またはビデオと自然言語処理 (NLP) データを使用したマルチモーダル タスクを使用して、モデルの指示追従能力を調整します。

写真

Lynx モデルの全体的な構造は、上の図 1 に示されています。

視覚入力は視覚エンコーダによって処理され、視覚トークン$$W_v$$が得られ、これがLLMの入力として命令トークン$$W_l$$とマッピングされ連結される。本論文では、この構造を「プレフィックスファインチューニング」と呼び、Flamingo [3]で使用されるクロスアテンション構造と区別している。

さらに、著者らは、LLM の特定のレイヤーをフリーズした後にアダプターを追加することで、トレーニング コストをさらに削減できることを発見しました。

モデル効果

著者らは、Open-VQA、Mme [4]、OwlEval手動評価で既存のオープンソースマルチモーダルLLMモデルのパフォーマンスを評価しました(結果については下のグラフを、評価の詳細については論文を参照してください)。 Lynx モデルは、Open-VQA 画像およびビデオ理解タスク、OwlEval 手動評価、および Mme Perception タスクで最高のパフォーマンスを達成したことがわかります。その中で、InstructBLIP もほとんどのタスクで高いパフォーマンスを達成しましたが、その返答は短すぎました。それに比べて、Lynx モデルはほとんどの場合、正解に基づいて返答を裏付ける簡潔な理由を提供し、よりユーザーフレンドリーになりました (いくつかのケースについては、以下のケース プレゼンテーション セクションを参照してください)。

1. Open-VQA画像テストセットの指標結果を以下の表1に示します。

写真

2. Open-VQAビデオテストセットの指標結果を表2に示します。

写真

3. Open-VQA で最高スコアを獲得したモデルが、OwlEval 評価セットでの手動効果評価用に選択されます。結果は上の図 4 に示されています。手動評価の結果から、 Lynx モデルが最高の言語生成パフォーマンスを持っていることがわかります。

写真

4. Mme ベンチマーク テストでは、知覚タスクが最高のパフォーマンスを達成し14 個のサブタスクのうち 7 個で最高のパフォーマンスを発揮しました。 (詳細な結果は論文の付録に記載されています)

ケース表示

Open-VQA イメージのケース

OwlEval のケース

Open-VQA ビデオケース

要約する

本論文では、著者らは 20 種類以上のマルチモーダル LLM バリアントで実験を行い、プレフィックス微調整を主な構造とする Lynx モデルを決定し、自由回答に対する Open-VQA 評価スキームを示しました。実験結果によると、Lynx モデルは、最高のマルチモーダル生成機能を維持しながら、最も正確なマルチモーダル理解精度を実現します。

<<:  テストフレームワーク - 安全性と自動運転

>>:  マスク氏がxAIの目標を設定:汎用人工知能の実現期限は2029年

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI ソフトウェアは教育分野にどのように役立つのでしょうか?

[[280714]]人工知能は世界に大きな影響を与えます。 2025年までに、AIソフトウェアの総...

人工知能がインダストリー4.0における製造業に革命をもたらす

人工知能 (AI) という用語は、流行語の地位を超え、業界全体にわたる技術革新の基礎となっています。...

AIを慎重に導入するためのベストプラクティス

人工知能を正しく使用するために、いくつかの提案があります。人工知能を実際に使用する際にこれらの提案を...

...

...

AI葬儀:ロボットに自分の葬儀を執り行ってもらう勇気はありますか?

スマートな葬儀は常に議論の的となっている話題です。現状では、スマート葬儀サービスの応用製品にはまだま...

チューリング賞受賞者のヤン・ルカン氏への最新インタビュー: AI は世界を支配するだろうが、人類を征服することはない!

かつての共同研究者であるジェフリー・ヒントン氏とヨシュア・ベンジオ氏がAIの絶滅を宣言したとき、ルカ...

人工知能技術の出発点と終着点

1. 人工知能技術の定義人工知能技術は、複雑な生産労働において機械が人間に取って代わることを可能にす...

...

ロボットがあなたの仕事を奪おうとしているのでしょうか?データはあなたが考えすぎている可能性を示唆している

編集者注:人工知能技術が進歩し続けるにつれ、職を失うことを心配する人が増えています。彼らの理由は、根...

機械学習プロジェクトでオプティマイザーを選択する方法

導入いくつかの一般的なオプティマイザーを紹介し、その長所と短所を分析し、オプティマイザーを選択するた...

...

OpenAI、「超知能」AIを制御するための新チームを発表

米国現地時間7月6日水曜日、人工知能の新興企業OpenAIは、「超知能」人工知能システムを誘導・制御...

データマイニングの専門家がプログラムアルゴリズムを使って人生の選択をする

[[118153]]毎年、就職活動の時期になると、どうやって内定を選んだらいいのか、テンセントに行く...

Google が地図「タイムマシン」を公開: 100 年前のあなたの街はどんな様子だったでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...