Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

サム・アルトマンは、将来の AI テクノロジーが人類に利益をもたらすためには、大規模言語モデルのマルチモーダル機能のブレークスルーが最も必要な分野であると、さまざまな機会に述べています。

それで、マルチモーダル大規模モデルの視覚機能は、言語機能と一致するレベルに到達できるのでしょうか?

マルチモーダル モデルの現在の進歩は、主に大規模言語モデル (LLM) の推論機能によるものです。しかし、ビジョンにおいては、モデルはインスタンスレベルの対照言語画像事前トレーニング (CLIP) のみに基づいていることが多いです。

最近、ニューヨーク大学とカリフォルニア大学バークレー校のチームは、マルチモーダル大規模言語モデル (MLLM) には視覚処理における普遍的な欠陥がまだあることを示しました。

その中で、チームメンバーは「豪華」と評される。チームリーダーの謝賴寧のほか、馬怡と楽邁という2人の大物も参加した。

論文アドレス: https://arxiv.org/abs/2401.06209

オープンソースプロジェクト: https://github.com/tsb0601/MMVP

いくつかの特殊なシナリオでは、多くの MLLM の画像コンテンツ認識能力は、ランダムな推測よりもさらに劣ります。

人間が簡単に正しく答えられる多くの画像認識問題では、大規模なマルチモーダル モデルは苦労します。

GPT-4V: 鷲には目が一つしかありません。

GPT-4V: ドアは閉まっています。

GPT-4V: 蝶の足は見えません。

GPT-4V: スクールバスはカメラから離れた方向を向いています。

GPT-4V: 赤いハートの境界線が暗いです。

研究者らは、この視覚的欠陥の主な原因として「比較言語画像事前トレーニング ブラインド ペア (CLIP ブラインド ペア)」を提案しました。研究者らは、CLIP 埋め込みにおける認識の不正確さは、主に、視覚的には異なるが、CLIP モデルによって非常に類似してエンコードされた画像から生じていることを発見しました。

さらに、研究チームは、このタイプの画像におけるSOTAオープンソースモデル(LLaVA-1.5、InstructBLIP、Mini-GPT4)とクローズドソースモデル(GPT-4V、Gemini、Bard)の認識機能を評価しました。

人間の視覚能力との比較と組み合わせると、マルチモーダル LLM と人間の視覚能力の間には大きなパフォーマンスのギャップがあることがわかりました。

GPT-4V と Gemini を除くすべてのモデルのスコアは、ランダム推測 (25%) を下回りました。最先端の GPT-4V と Gemini も、このような基本的な視覚基盤の問題を解決するパフォーマンスは低いです。

これを基に研究者たちはこの問題を解決しようとした。

彼らは最終的に、CLIP と DINOv2 埋め込みの利点を活用して画像表現を強化する「Interleaved-MoF」方式を提案しました。

視覚的な自己教師学習機能を MLLM と統合すると、LLM の視覚ベース機能が大幅に強化されることを示します。

CLIP と DINOv2 から処理された特徴を取得し、元の空間順序を維持しながらインターリーブします。

Interleaved-MoF は視覚ベースの機能を大幅に強化し、モデルの指示に従う能力を損なうことなく、MMVP ベンチマークで 10.7% の機能向上を達成しました。

この実験は、LLaVA-1.5 設定とさまざまな画像解像度設定で繰り返すことができ、同様のパフォーマンスの向上が達成されます。

CLIPモデルのビジュアルモード

具体的には、CLIP ブラインドペアを特定した後、研究者は CLIP 視覚エンコーダーを誤解させることが多い体系的な視覚パターンを解明しました。

彼らは、MMVP ベンチマークの質問とオプションを参照しました。これらの質問により、画像内の捉えどころのない視覚パターンが、より明確で分類しやすい言語ベースの説明に変換されます。

研究者がまとめた 9 つの視覚モードは次のとおりです。

方向と方向

特徴が現れるかどうか

状態または条件

量の問題

色と外観

場所と状況

構造上の特徴

言葉

異なる視点

これを基に研究者らは、CLIP モデルがこれらの視覚パターンを適切に処理できるかどうかを体系的に研究できる新しいベンチマーク MMVP-VLM を導入しました。

研究者たちは、MMVP ベンチマークからの質問のサブセットをより単純な言語記述に抽出し、それを視覚パターンに分類しました。各視覚モダリティの質問数のバランスを保つために、必要に応じて質問を追加し、各視覚モダリティが 15 個のテキストと画像のペアで表されるようにしました。

CLIPを拡大しても視覚パターンの問題は解決されない

時間の経過とともに、CLIP モデルは進化し、規模が拡大しました。研究者らは、さまざまな CLIP モデルで MMVP を評価しました。

これらのモデルは、サイズ、トレーニング データ、方法論が異なります。

下の表は、ネットワークのサイズとトレーニング データを増やすと、「色と外観」および「状態と条件」の視覚モードの認識に役立つ一方で、他の視覚モードはすべての CLIP ベースのモデルにとって依然として課題であることを示しています。

モデルによって処理される画像の解像度を上げると、改善は非常に限定的でしたが、モデル ネットワークのサイズを大きくすると、パフォーマンスがいくらか向上しました。

マルチモーダル大規模言語モデル (MLLM) の欠点

CLIP のパフォーマンスの低さと MLLM の視覚障害との間には関係があるのでしょうか?

これを調査するために、研究者は MMVP の問題をこれらの要約された視覚パターンに分類し、これらのパターンでの各 MLLM のパフォーマンスを取得しました。

CLIP ビジョン エンコーダーが特定の視覚モダリティでパフォーマンスが低い場合、MLLM モデルでも同様の欠陥が見られることがよくあります。

たとえば、LLaVA 1.5 や InstructBLIP など、CLIP ビジュアル エンコーダーを明示的に採用しているオープン ソース モデルでは、パフォーマンス間に密接な相関関係が見られます。

CLIP が方向などの視覚パターンでパフォーマンスが低い場合、MLLM も同じ視覚パターン認識で期待されるパフォーマンスを達成することが困難になります。

さらに、研究者らは、各視覚様式における CLIP モデルと MLLM のパフォーマンス間のピアソン相関を計算しました。下の表の結果は、LLaVA 1.5 と InstructBLIP の係数スコアが両方とも 0.7 より大きいことを示しています。

この高いスコアは、CLIP モデルの視覚パターン認識の弱さと MLLM のパフォーマンスの間に強い相関関係があることを示しています。

新しい特徴混合法(MoF)

オープンソースの大規模言語モデルの視覚的な欠点が CLIP ビジュアル エンコーダーに起因している場合、より優れたパフォーマンスを持つビジュアル エンコーダーを作成するにはどうすればよいでしょうか。

この疑問に答えるために、研究者らは、視覚に重点を置いた自己教師あり学習 (DINOv2) の特徴と CLIP の特徴を組み合わせた特徴混合 (MoF) 技術を調査しました。

大規模言語モデルでさまざまな特徴の混合 (MoF) 戦略を採用します。左: 既製の CLIP 事前トレーニング済みビジュアル エンコーダーを使用した標準的な大規模言語モデル。中央: 追加的特徴混合 (A-MoF) 大規模言語モデル: アダプターの前に CLIP と DINOv2 の機能を線形に混合。右: インターリーブ特徴混合 (I-MoF MLLM) は、アダプターの後に CLIP ビジュアル トークンと DINOv2 ビジュアル トークンを空間的にインターリーブします。

視覚のみに依存する自己教師学習機能:視覚認識能力は向上するが、言語処理能力は低下する

研究者らは、事前トレーニング済みの DINOv2 エンコーダーを大規模言語モデルに追加し、それを CLIP 事前トレーニング済みエンコーダーと混合したところ、次のことが分かりました。

1. DINOv2 機能の割合が増加すると、大規模言語モデルの命令実行能力が低下し始めます。特に、DINOv2 機能の割合が 87.5% に達すると、機能が大幅に低下します。

2. DINOv2 機能の割合が増加すると、モデルの視覚情報理解能力は向上しますが、DINOv2 比率が 75% を超えると、この利点は弱まり始め、指示に従う能力も大幅に影響を受けます。

Interleaved-MoF: CLIPとDINOv2の機能を組み合わせて、両方の長所を活用

最後に、研究者らは、CLIPとDINOv2のそれぞれの特徴をインターリーブしながら元の空間順序を維持し、両者の利点を統合して画像の表現力を高める「インターリーブMoF法」を提案しました。

この段階的な特徴混合により、モデルの視覚情報理解能力が大幅に向上し、モデルの命令実行能力に影響を与えることなく、MMVP テストで 10.7% のパフォーマンス向上が達成されました。

この実験は、LLaVA-1.5 の構成とさまざまな画像解像度で検証され、同様のパフォーマンスの向上が達成されました。

段階的な特徴混合により、モデルの指示実行能力の安定性を維持しながら、視覚情報を理解する能力を向上させることができます。

研究者らは、視覚的な幻覚を検査するために設計されたPOPEも評価した。

段階的な特徴混合アプローチは、元の LLaVA モデルに対して一貫した改善も示しています。

画像の解像度とトークンの数を増やすだけでは、視覚的な基本機能は向上しません。また、インターリーブされた特徴ブレンディングにより、ビジョンベースのタスクのパフォーマンスが向上します。

研究者らは、MMBench や GQA などの他のベンチマークでもインターリーブ特徴混合法を評価し、インターリーブ特徴混合法がこれらのベンチマークで同様のパフォーマンスを達成することを発見しました。

著者について

シェンバントン

Peter Tong (Shengbang Tong) は NYU Courant CS の博士課程の学生で、Yann LeCun 教授と Xie Saining 教授が指導教員です。

以前は、カリフォルニア大学バークレー校でコンピューターサイエンス、応用数学(優等)、統計学(優等)を専攻していました。彼はバークレー人工知能研究所 (BAIR) の研究者であり、Ma Yi 教授と Jacob Steinhardt 教授を指導者として指導を受けていました。

彼の研究対象は、世界モデル、教師なし/自己教師あり学習、生成モデル、マルチモーダルモデルです。

PS 馬怡教授も、この研究に対する多大な支援に対してMetaに特に感謝の意を表しました。

<<:  国内オープンソースモデルのベンチマークが大幅にアップグレードされ、その主要機能はChatGPTに匹敵します。 Shusheng Puyu 2.0 がリリース、無料の商用利用をサポート

>>:  ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

ブログ    
ブログ    

推薦する

...

Huaweiの「ブラックテクノロジー」がついに公開。サイバーバース以外にも重要なニュースがある

8月11日はHuawei Developer Conferenceの3日目であり、カンファレンスの議...

...

...

医療用人工知能の分野は新たな状況を迎え、テクノロジー大手は積極的に導入を進めている。

報告書によると、医療における人工知能の主な応用分野の一つである医療ロボットの市場規模は2019年に4...

...

伝染病警報!人工知能は何をするのでしょうか?

中国で新型コロナウイルスの感染が初めて確認されたのは2019年12月19日。感染源については、これま...

AIに関する哲学的考察 - 認知不変性とAI

米国国防高等研究計画局(DARPA)はかつて、第3波AIの概念を提唱しました。その議論では、第3波A...

...

小売業における人工知能

[[433164]] [51CTO.com クイック翻訳]周知のように、小売業界の競争は激しく、人工...

グーグルの従業員は米国の人工知能プロジェクトへの参加に反対する公開書簡を発表した。「私たちは違う」

[[225697]]最近、テクノロジーの世界で、米国防総省をも巻き込み、大きな騒動を引き起こす出来...

人工知能がクラウド業界を変える5つの方法

2023年には人工知能が最も重要な技術トレンドになることは間違いありません。 AI テクノロジーは新...

...

2018 年後半のディープラーニング プロジェクトをお見逃しなく!

[[252582]]ビッグデータダイジェスト制作翻訳者:fuma、Ni Ni、Jiang Baos...

...