BLIP-2とInstructBLIPがトップ3にランクイン！ 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識蓄積と強力な推論および一般化機能を利用して、マルチモーダルの問題を解決します。画像を見て文章を書いたり、画像を見てコードを書いたりするなど、驚くべき機能が登場しています。

しかし、これらの例だけに基づいて MLLM のパフォーマンスを完全に反映することは難しく、MLLM の包括的な評価はまだ不足しています。

この目的のために、テンセントYoutuラボと厦門大学は、新たに作成された評価ベンチマークMM上で12の既存のオープンソースMLLMモデルの包括的な定量評価を初めて実施し、知覚と認知の2つの総合ランキングと14のサブランキングを含む16のランキングを公開しました。

論文リンク: https://arxiv.org/pdf/2306.13394.pdf

プロジェクトリンク: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

MLLM の既存の定量評価方法は主に 3 つのカテゴリに分類されますが、いずれも一定の制限があり、そのパフォーマンスを完全に反映することが困難です。

最初のカテゴリの方法は、画像キャプションやビジュアル質問回答 (VQA) データセットなどの従来の公開データセットで評価されます。

しかし、一方では、これらの従来のデータセットは、MLLM の新たな機能を反映できない可能性があります。他方では、大規模モデルの時代のトレーニングセットはもはや統一されていないため、これらの評価データセットが他の MLLM によってトレーニングされていないことを確認することは困難です。

2つ目のアプローチは、オープン評価のために新しいデータを収集することですが、このデータは公開されていないか[1]、数が少なすぎます（画像が50枚のみ）[2]。

3番目のアプローチは、物体幻覚[3]や敵対的堅牢性[4]など、MLLMの特定の側面に焦点を当てており、包括的に評価することはできません。

MLLM の急速な発展に対応するために、包括的な評価ベンチマークが緊急に必要とされています。研究者たちは、普遍的な総合評価ベンチマークには次のような特徴があるべきだと考えています。

（１）知覚能力や認知能力など、可能な限り幅広い範囲をカバーすべきである。前者は、物体の存在、量、位置、色などの認識を指します。後者は、LLM で感覚情報と知識を統合して、より複雑な推論を実行することを指します。前者は後者の基礎となる。

（２）データ漏洩のリスクを減らすため、データや注釈は既存の公開データセットをできる限り使用しないようにすべきである。

（３）指示はできる限り簡潔で、人間の認知習慣に沿ったものでなければならない。異なる命令設計はモデルの出力に大きな影響を与える可能性がありますが、統一された簡潔な命令の下ですべてのモデルを評価することで公平性を確保できます。優れた MLLM モデルは、このような簡潔な指示に一般化でき、プロンプトエンジニアリングに陥ることを回避できる必要があります。

（４）この簡潔な指示によるMLLMの出力は直感的で定量化が容易であるべきである。 MLLM の自由回答は、定量的統計に大きな課題をもたらします。既存の方法では、GPT または手動スコアリングを使用する傾向がありますが、不正確さや主観性の問題に直面する可能性があります。

図 1. MME ベンチマークの例。各画像は2つの質問に対応しており、答えはそれぞれ「はい[Y]」と「いいえ[N]」です。質問と「はいまたはいいえで答えてください」の組み合わせが指示を構成します。

上記の理由に基づいて、上記の 4 つの特徴を持つ新しい MLLM 評価ベンチマーク MME が構築されました。

1. MME は知覚能力と認知能力の両方を評価します。 OCR に加えて、認識機能には粗粒度および細粒度のオブジェクト認識も含まれます。前者は物体の存在、量、位置、色を認識します。後者は、映画のポスター、有名人、シーン、ランドマーク、アートワークを識別します。認知能力には、常識的な推論、数値計算、テキスト翻訳、コード推論が含まれます。図 1 に示すように、サブタスクの合計数は 14 に達します。

2. MME 内のすべてのコマンドと応答のペアは手動で構築されます。使用される少数の公開データセットについては、元の注釈に依存せず、画像のみが使用されます。同時に、研究者たちは手作業による写真撮影や画像生成を通じてデータを収集するために最善を尽くしています。

3. MME の指示は、プロンプトエンジニアリングがモデル出力に影響を与えないように、できるだけシンプルになるように設計されています。研究者らは、優れた MLLM は、すべてのモデルに対して公平な、この簡潔で頻繁に使用される指示に一般化される必要があることを繰り返し述べています。各サブタスクの手順を図 1 に示します。

4. 「はい、またはいいえで答えてください」という指示設計により、モデルから出力される「はい」または「いいえ」に基づいて定量的な統計を簡単に実行できます。この方法により、正確性と客観性を同時に確保できます。研究者らは多肢選択式の質問に対する指示の設計も試みたが、現在の MLLM ではそのようなより複雑な指示に従うことが依然として困難であることがわかったことは注目に値する。

研究者らは、BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、mPLUG-Owl [2]、LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、VisualGLM-6B [12]、PandaGPT [13]、ImageBind-LLM [14]、LaVIN [15]を含む合計12の高度なMLLMモデルを評価しました。

その中には、Accuracy、Accuracy+、Score の 3 つの統計指標があります。各タスクの精度は質問の統計に基づき、精度+ は画像の統計に基づきます (画像に対応する両方の質問に正しく回答する必要があります)。スコアは精度と精度+ の合計です。

知覚の合計スコアは 10 個の知覚サブタスクのスコアの合計であり、認知の合計スコアは 4 つの認知タスクのスコアの合計です。詳細についてはプロジェクトリンクをご覧ください。

14 のサブタスクにおける 12 のモデルのテスト比較を図 2 に示します。

図 2. 14 のサブタスクにおける 12 のモデルの比較。各サブタスクの総合得点は 200 ポイントです。

知覚と認知の全体リストと14のサブタスクのリストを含む合計16のリストが公開されました。 2 つの全体リストはそれぞれ図 3 と図 4 に示されています。BLIP-2 と InstructBLIP が両方のリストで上位 3 位に留まっていることは注目に値します。

写真

図3. 知覚課題の総合順位

図4. 認知タスクの全体リスト

図5. 全ランキング

さらに、研究者らは、図 6 に示すように、実験で MLLM モデルによって明らかになったいくつかの一般的な問題もまとめ、その後のモデル最適化の指針を提供することを期待しています。

写真

図 6. MLLM によって明らかになる一般的な問題。 [Y]/[N]は実際の回答がYes/Noであることを意味します。 [R]はMLLMによって生成された答えです。

最初の問題は指示に従わないことです。

非常に簡潔な指導設計が採用されているにもかかわらず、指示に従うのではなく質問に答える MLLM が依然として存在します。

図 6 の最初の行に示すように、指示には「はいまたはいいえで答えてください」と記載されていましたが、MLLM は宣言的な回答のみを返しました。回答の先頭に「はい」または「いいえ」が表示されていない場合は、その回答は間違っているとみなされます。優れた MLLM は、特に命令の微調整後、このような単純な命令に一般化できるはずです。

2番目の問題は認識の欠如です。

図 6 の 2 行目に示すように、MLLM は最初の写真のバナナの数と 2 番目の写真の数を誤って識別し、誤った回答を導きました。研究者たちはまた、同じ画像に対する2つの指示がたった1語だけ異なるだけで、まったく異なる知覚結果につながることから、知覚能力は指示の変更によって簡単に影響を受けることにも気づいた。

3番目の問題は推論能力の欠如です。

図 6 の 3 行目に示されているように、赤いテキストは、MLLM が最初の写真がオフィススペースではないことをすでに認識しているにもかかわらず、誤った回答「はい」を出していることを示しています。

同様に、2 番目の画像では、MLLM は正しい演算結果を計算しましたが、最終的には間違った答えを出します。「段階的に考えてみましょう」などの思考連鎖プロンプトを追加すると、より良い結果が得られる可能性があります。この分野でのより詳細な研究を楽しみにしています。

4 番目の質問は、オブジェクト現象学の指示に従っていました。図 6 の 4 行目に示すように、命令に画像内に存在しないオブジェクトが含まれている場合、MLLM はそのオブジェクトが存在すると想定し、最終的に「はい」という回答を返します。

常に「はい」と答えるこのアプローチにより、精度は 50% に近くなり、精度 + は 0 に近くなります。これは、ターゲット閃光を抑制することの重要性を示しており、MLLM によって生成された回答の信頼性についてさらに検討する必要があることを示しています。

<<: 清華大学のオープンソースの中国語マルチモーダルモデルVisCPM：対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画の機能を備えています。

>>: Terence Tao さんがリポストして「いいね！」しました！ ChatGPTは自動的に大きな進歩を証明し、AIは10年後に数学の世界を支配するだろう