大規模なマルチモーダルモデルは、学習しすぎると能力が低下しますか?新しい研究:教育省+の一般専門家が紛争を解決

大規模なマルチモーダルモデルは、学習しすぎると能力が低下しますか?新しい研究:教育省+の一般専門家が紛争を解決

微調整により、一般的な大規模モデルを特定の業界のアプリケーションにより適したものにすることができます。

しかし今、研究者たちは次のことを発見しました。

大規模なマルチモーダルモデルに対して「マルチタスク指示の微調整」を実行すると、異なるタスク間の競合により、大規模なモデルは「より多くのことを学習し、より多くの間違いを犯す」可能性があり、一般化能力が低下します。

△マルチモーダル指示の微調整にはタスクの競合がある

たとえば、マルチモーダルな質問応答タスクでは、応答が可能な限り簡潔かつ正確であることが求められる場合があります。一方、ドキュメント理解タスクでは、大規模なモデルを使用して、説明を可能な限り詳細にすることが求められます。

さまざまな下流タスク命令の微調整データの分布は大きく異なるため、大規模なモデルでは複数の下流タスクで最適なパフォーマンスを達成することが困難になります。

この問題を解決するにはどうすればいいでしょうか?

香港科技大学、南方科技大学、Huawei Noah's Ark Labの共同研究チームは、MoE(Mixture of Experts Model)オープンソース大規模モデルMixtral-8×7Bにヒントを得て、スパースエキスパートモデルを使用して、より優れた一般化パフォーマンスと下流タスクのより強力な理解機能を備えたマルチモーダル大規模モデルを作成することを提案しました。

写真

具体的な内容を見てみましょう。

マルチモーダル指導の微調整にはタスクの競合がある

マルチモーダル指示の微調整におけるモデルのパフォーマンスに対するさまざまな種類のタスクデータの影響を確認するために、研究者はデータを次のように分割しました。

  • VQA (視覚的質問応答): VQAv2、OKVQA、A-OKVQA、OCRVQA、
  • キャプション(画像の説明):COCO Caption、Web CapFilt、TextCaps、
  • フル(全データ):VQA、キャプション、LLaVA-150k、VQG(VQA データに基づく視覚的な質問生成)。

上記のデータに基づいて、研究者は LoRA を使用して InstructBLIP を微調整し、3 つのエキスパート モデルを取得し、他のデータ (Flickr30k 画像の説明、GQA/SciQA/IconQA/TextVQA などのさまざまな種類の視覚的な質問応答、HM/VSR などのマルチモーダル分類または推論タスク) に対してゼロ サンプル テストと評価を実行しました。

写真

上図 (右) からわかるように、命令の微調整では、全量のデータを使用しても必ずしも最良の結果が得られるとは限りません。逆に、全量のデータ エキスパートの場合、下流の 3 つのタスク (GQA、VSR、および TextVQA) のみが最良のパフォーマンスを発揮します。

これは、ほとんどのタスクでは、命令の微調整中に他のタスクからのデータを導入すると、実際にはモデルのパフォーマンスが低下し、マルチモーダル命令の微調整ではタスクの競合が発生することを示しています。

一方、実験では、VQA と Captioning という 2 つのエキスパート モデルが、それぞれのタスクにおいてエキスパートのフル セットよりも優れたパフォーマンスを達成したことが観察されました。この方法はタスク競合の問題を解決するように見えますが、次の制限があります。

  1. さまざまなトレーニング タスクに関する知識をタスクの専門家間で共有することはできません。
  2. トレーニング データを人為的に分割する必要がありますが、トレーニング データの種類が多い場合は分割が困難です。
  3. 新しいミッションが来たら、どのミッションの専門家を使うかという人間の判断が必要になります。

上記の制限に対処するために、研究チームは、異なる専門家が異なるタスクを処理するスパース エキスパート モデル (MoE) を使用し、同様のタスクを同じ専門家に割り当てるデータ分割方法を設計することを提案しました。

命令クラスタリングに基づくスパースエキスパートマルチモーダル大規模モデル

命令クラスタリングによるデータの分割

写真

この論文では、Large Vision-Language Model (LVLM) において、指示は、上図 (左) の C1 ~ C4 のテキストなど、すべてのテキスト入力であると定義されています。

これらの手順では、タスクの目的と要件について説明します。そのため、著者らは Kmeans を使用してすべての命令を 64 のカテゴリに分類しました。

上図(右)に示すように、命令のクラスタリング情報は、データのタスクタイプを効果的に表現できます。これにより、手動でデータを分割するコストが節約されます。

コマンドクラスタリング情報に基づくハイブリッド LoRA エキスパートルーティング

写真

前のタスク エキスパートと同様に、このレイヤーでのモデルの出力も、凍結された LLM 線形レイヤーと微調整された LoRA によって生成されます。

違いは、ここではデータの命令クラスタリング情報がハイブリッド LoRA のルーティングに使用されることです。具体的には、モデルの入力については、ルーティング情報は次のように計算できます。

写真

このうち、topk()(k=1の場合を考慮)は最初のk個の最大項目を変更せずに保持し、その他を0に設定し、Cは学習可能なカテゴリの埋め込み表現、C[xi]はxiに対応する命令のクラスター表現、Wgateはルーティングの線形パラメータです。

一般的な専門家がモデルの一般化を改善する

実験により、上記の指示クラスタリング LoRA エキスパートはタスク競合の問題を軽減することがわかっていますが、エキスパートはタスクの一部しか見ていない可能性があるため、モデル全体の下流タスクへの一般化は低下します。

写真

そこで研究チームは、あらゆるデータから命令の一般化能力を学習するために、一般的な専門家を使うことを提案しました。

MoE とは異なり、top1 によって選択されたタスク エキスパートに加えて、この方法では、一般的なエキスパートも固定的にアクティブ化され、このエキスパートがすべての指示データから学習します。

したがって、このレイヤーでのモデル出力は、LLM の元の固定パラメータ W、タスク エキスパート We、および一般エキスパート Wu の加重合計になります。

写真

この設計により、タスクの専門家と一般の専門家のコラボレーションにより、トレーニング セットに類似したタスクでのモデルのパフォーマンスが向上するだけでなく、モデルを新しいタスクに一般化できる能力も確保されます。

実験結果

本論文では、InstructBLIP の実験シナリオ (データの使用、評価基準、トレーニングの詳細) に従い、13 のトレーニング データセット (VQA、Captioning、VQG などを含む) で命令の微調整を実行し、11 のテスト データセット (トレーニング データセットとテスト データセットの間に重複はありません) で評価します。

写真

上の表に示すように、この記事で提案した方法 (MoCLE) を導入した後、InstructBLIP はベースライン モデルと比較してすべての下流タスクで改善され、特に VSR、IconQA、TextVQA、MSVD-QA で改善が見られました。

写真

上の図は、異なるデータのもとで、LLM の特定のレイヤーにおけるハイブリッド LoRA エキスパートのルーティング結果を視覚化したものです。トレーニング データとテスト データは、それぞれ点線の上と下にあります。 (a)と(b)はそれぞれ命令クラスタリング情報と命令トークン平均表現をルーティングとして使用した結果を示しています。

命令クラスタリング情報ルーティングを使用すると、データが専門家間で分割されることがわかります。たとえば、専門家 0 は主に VQA 関連のタスクを担当し、専門家 2 は主にキャプション関連のタスクを担当することで、専門家の差別化を効果的に実現します。一方、命令トークンの平均表現を条件として使用すると、エキスパートの活性化は異なるタスク間で類似しており、差別化は見られません。

研究チームは、スパースエキスパートマルチモーダル大規模モデル+汎用エキスパートモジュールの組み合わせにより、タスク間の衝突が緩和され、スパースモデルのタスクに対する一般化能力が確保され、マルチモーダル大規模モデルがさまざまな下流産業アプリケーションにさらに効果的に適応できるようになると考えています。

これは、タスクの競合を軽減し、モデルの一般化機能を維持するために、マルチモーダル大規模モデルの指示を微調整する際に LoRA とスパース エキスパート モデル (MoE) を組み合わせた最初の研究です。
この研究により、複雑な下流タスクの処理における有効性が確認され、大規模なマルチモーダル モデルの応用と開発への新たな道が開かれました。

論文リンク:
https://arxiv.org/abs/2312.12379

<<:  2023年振り返り、大型模型産業の急速な発展の365日

>>: 

ブログ    
ブログ    
ブログ    

推薦する

AIが医療をどう変えるか リアルタイムのデータ分析は医療にとって重要

科学者たちは、人工知能が多くの分野で人間を日常的な作業から解放できると信じています。ヘルスケアはこう...

人工知能、機械学習、ディープラーニングの違い

私たちは皆、「人工知能」という言葉をよく知っています。結局のところ、ターミネーター、マトリックス、エ...

トランスフォーマーは人気を失っているのか?常識的な問題を解決したい場合、ニューラルネットワークは答えではない

NLP 研究者は皆、言語モデルは文法的な文脈情報しか学習できず、常識的な質問に関しては無力であること...

悲劇!ウーバー、自動運転車が人をはねて死亡させたため全テストを中止

ウーバー、自動運転車が人をはねて死亡させたため全テストを中止 アメリカ現地時間19日朝、アリゾナ州...

...

大規模モデルの最大のバグは、正解率がほぼゼロであり、GPTからLlamaまで誰も免れないことです。

GPT-3とLlamaに「AはBである」という単純な知識を教え、​​次にBが何であるかを尋ねました...

...

キングス・カレッジ・ロンドンとグラクソ・スミスクラインが人工知能技術に基づくがん研究で協力

海外メディアの報道によると、9月30日、キングス・カレッジ・ロンドンと世界的な製薬会社グラクソ・スミ...

ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる:正解率はわずか17%

1月4日、ニューヨークのコーエン小児医療センターの3人の小児科医が、大規模言語モデルChatGPT...

小売業界におけるロボットの応用は何ですか?

巨大食品店で溢れかえった商品を見つける高さ6フィートの自由に動くロボットから、ウォルマートの在庫をチ...

人工知能はこれからどのように発展していくのでしょうか?

人工知能、略してAIの起源は非常に古い。1956年の夏、アメリカのハノーバーという小さな町に、コンピ...

AIと機械学習を活用して工場の安全を守る

自動化されたセキュリティの将来には機械学習が関与するでしょう。人工知能と機械学習の進歩により、ロボッ...

「チューリップ」は、感染症予防・抑制期間中に政府情報へのアクセスを容易にするためのインテリジェントな質疑応答アシスタントを作成します。

突然の感染拡大に直面し、国民は情報の適時性、透明性、伝達効率にさらに注目するようになった。このような...

AI 実装の倫理的な展開をどのように確保するか?

人工知能や機械学習などの自動化および機械技術の驚異的な成長は、間違いなく組織にまったく新しいレベルの...

Microsoft Copilot は、コード インタープリター、DALL·E 3、ChatGPT を備えた完全バージョンに進化しました。

Copilot のリリース 1 周年を記念して、一連のメジャー アップデートが予定されています。 ...