BLIP-2とInstructBLIPがトップ3にランクイン! 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

BLIP-2とInstructBLIPがトップ3にランクイン! 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識蓄積と強力な推論および一般化機能を利用して、マルチモーダルの問題を解決します。画像を見て文章を書いたり、画像を見てコードを書いたりするなど、驚くべき機能が登場しています。

しかし、これらの例だけに基づいて MLLM のパフォーマンスを完全に反映することは難しく、MLLM の包括的な評価はまだ不足しています。

この目的のために、テンセントYoutuラボと厦門大学は、新たに作成された評価ベンチマークMM上で12の既存のオープンソースMLLMモデルの包括的な定量評価を初めて実施し、知覚と認知の2つの総合ランキングと14のサブランキングを含む16のランキングを公開しました。

論文リンク: https://arxiv.org/pdf/2306.13394.pdf

プロジェクトリンク: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

MLLM の既存の定量評価方法は主に 3 つのカテゴリに分類されますが、いずれも一定の制限があり、そのパフォーマンスを完全に反映することが困難です。

最初のカテゴリの方法は、画像キャプションやビジュアル質問回答 (VQA) データセットなどの従来の公開データセットで評価されます。

しかし、一方では、これらの従来のデータセットは、MLLM の新たな機能を反映できない可能性があります。他方では、大規模モデルの時代のトレーニング セットはもはや統一されていないため、これらの評価データセットが他の MLLM によってトレーニングされていないことを確認することは困難です。

2つ目のアプローチは、オープン評価のために新しいデータを収集することですが、このデータは公開されていないか[1]、数が少なすぎます(画像が50枚のみ)[2]。

3番目のアプローチは、物体幻覚[3]や敵対的堅牢性[4]など、MLLMの特定の側面に焦点を当てており、包括的に評価することはできません。

MLLM の急速な発展に対応するために、包括的な評価ベンチマークが緊急に必要とされています。研究者たちは、普遍的な総合評価ベンチマークには次のような特徴があるべきだと考えています。

(1)知覚能力や認知能力など、可能な限り幅広い範囲をカバーすべきである。前者は、物体の存在、量、位置、色などの認識を指します。後者は、LLM で感覚情報と知識を統合して、より複雑な推論を実行することを指します。前者は後者の基礎となる。

(2)データ漏洩のリスクを減らすため、データや注釈は既存の公開データセットをできる限り使用しないようにすべきである。

(3)指示はできる限り簡潔で、人間の認知習慣に沿ったものでなければならない。異なる命令設計はモデルの出力に大きな影響を与える可能性がありますが、統一された簡潔な命令の下ですべてのモデルを評価することで公平性を確保できます。優れた MLLM モデルは、このような簡潔な指示に一般化でき、プロンプト エンジニアリングに陥ることを回避できる必要があります。

(4)この簡潔な指示によるMLLMの出力は直感的で定量化が容易であるべきである。 MLLM の自由回答は、定量的統計に大きな課題をもたらします。既存の方法では、GPT または手動スコアリングを使用する傾向がありますが、不正確さや主観性の問題に直面する可能性があります。

図 1. MME ベンチマークの例。各画像は2つの質問に対応しており、答えはそれぞれ「はい[Y]」と「いいえ[N]」です。質問と「はいまたはいいえで答えてください」の組み合わせが指示を構成します。

上記の理由に基づいて、上記の 4 つの特徴を持つ新しい MLLM 評価ベンチマーク MME が構築されました。

1. MME は知覚能力と認知能力の両方を評価します。 OCR に加えて、認識機能には粗粒度および細粒度のオブジェクト認識も含まれます。前者は物体の存在、量、位置、色を認識します。後者は、映画のポスター、有名人、シーン、ランドマーク、アートワークを識別します。認知能力には、常識的な推論、数値計算、テキスト翻訳、コード推論が含まれます。図 1 に示すように、サブタスクの合計数は 14 に達します。

2. MME 内のすべてのコマンドと応答のペアは手動で構築されます。使用される少数の公開データセットについては、元の注釈に依存せず、画像のみが使用されます。同時に、研究者たちは手作業による写真撮影や画像生成を通じてデータを収集するために最善を尽くしています。

3. MME の指示は、プロンプト エンジニアリングがモデル出力に影響を与えないように、できるだけシンプルになるように設計されています。研究者らは、優れた MLLM は、すべてのモデルに対して公平な、この簡潔で頻繁に使用される指示に一般化される必要があることを繰り返し述べています。各サブタスクの手順を図 1 に示します。

4. 「はい、またはいいえで答えてください」という指示設計により、モデルから出力される「はい」または「いいえ」に基づいて定量的な統計を簡単に実行できます。この方法により、正確性と客観性を同時に確保できます。研究者らは多肢選択式の質問に対する指示の設計も試みたが、現在の MLLM ではそのようなより複雑な指示に従うことが依然として困難であることがわかったことは注目に値する。

研究者らは、BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、mPLUG-Owl [2]、LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、VisualGLM-6B [12]、PandaGPT [13]、ImageBind-LLM [14]、LaVIN [15]を含む合計12の高度なMLLMモデルを評価しました。

その中には、Accuracy、Accuracy+、Score の 3 つの統計指標があります。各タスクの精度は質問の統計に基づき、精度+ は画像の統計に基づきます (画像に対応する両方の質問に正しく回答する必要があります)。スコアは精度と精度+ の合計です。

知覚の合計スコアは 10 個の知覚サブタスクのスコアの合計であり、認知の合計スコアは 4 つの認知タスクのスコアの合計です。詳細についてはプロジェクトリンクをご覧ください。

14 のサブタスクにおける 12 のモデルのテスト比較を図 2 に示します。

図 2. 14 のサブタスクにおける 12 のモデルの比較。各サブタスクの総合得点は 200 ポイントです。

知覚と認知の全体リストと14のサブタスクのリストを含む合計16のリストが公開されました。 2 つの全体リストはそれぞれ図 3 と図 4 に示されています。BLIP-2 と InstructBLIP が両方のリストで上位 3 位に留まっていることは注目に値します。

写真

図3. 知覚課題の総合順位

図4. 認知タスクの全体リスト

図5. 全ランキング

さらに、研究者らは、図 6 に示すように、実験で MLLM モデルによって明らかになったいくつかの一般的な問題もまとめ、その後のモデル最適化の指針を提供することを期待しています。

写真

図 6. MLLM によって明らかになる一般的な問題。 [Y]/[N]は実際の回答がYes/Noであることを意味します。 [R]はMLLMによって生成された答えです。

最初の問題は指示に従わないことです。

非常に簡潔な指導設計が採用されているにもかかわらず、指示に従うのではなく質問に答える MLLM が依然として存在します。

図 6 の最初の行に示すように、指示には「はいまたはいいえで答えてください」と記載されていましたが、MLLM は宣言的な回答のみを返しました。回答の先頭に「はい」または「いいえ」が表示されていない場合は、その回答は間違っているとみなされます。優れた MLLM は、特に命令の微調整後、このような単純な命令に一般化できるはずです。

2番目の問題は認識の欠如です。

図 6 の 2 行目に示すように、MLLM は最初の写真のバナナの数と 2 番目の写真の数を誤って識別し、誤った回答を導きました。研究者たちはまた、同じ画像に対する2つの指示がたった1語だけ異なるだけで、まったく異なる知覚結果につながることから、知覚能力は指示の変更によって簡単に影響を受けることにも気づいた。

3番目の問題は推論能力の欠如です。

図 6 の 3 行目に示されているように、赤いテキストは、MLLM が最初の写真がオフィス スペースではないことをすでに認識しているにもかかわらず、誤った回答「はい」を出していることを示しています。

同様に、2 番目の画像では、MLLM は正しい演算結果を計算しましたが、最終的には間違った答えを出します。 「段階的に考えてみましょう」などの思考連鎖プロンプトを追加すると、より良い結果が得られる可能性があります。この分野でのより詳細な研究を楽しみにしています。

4 番目の質問は、オブジェクト現象学の指示に従っていました。図 6 の 4 行目に示すように、命令に画像内に存在しないオブジェクトが含まれている場合、MLLM はそのオブジェクトが存在すると想定し、最終的に「はい」という回答を返します。

常に「はい」と答えるこのアプローチにより、精度は 50% に近くなり、精度 + は 0 に近くなります。これは、ターゲット閃光を抑制することの重要性を示しており、MLLM によって生成された回答の信頼性についてさらに検討する必要があることを示しています。

<<:  清華大学のオープンソースの中国語マルチモーダルモデルVisCPM:対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画の機能を備えています。

>>:  Terence Tao さんがリポストして「いいね!」しました! ChatGPTは自動的に大きな進歩を証明し、AIは10年後に数学の世界を支配するだろう

ブログ    
ブログ    
ブログ    

推薦する

タオバオの推奨シナリオのための強力なツール:複雑な目的を統合し、リアルタイムの規制をサポートする再注文モデル

1. 情報フローシナリオの課題と並べ替えモデルの独自の利点多くの学生は再ランキングに馴染みがないかも...

自動運転分野でファーウェイの「異常運転行動」関連特許が認可:認識精度向上が可能

昨日12月8日、華為技術有限公司は「異常運転行動を識別する方法」の特許権を取得し、公開番号はCN11...

スマートビルディングのためのビルディングオートメーションと IoT

[[350210]]今日、私たちが建物について語るとき、それは単なる外殻を意味するのではなく、さま...

AIがクラウドコンピューティング管理の改善に役立ついくつかの方法

企業がクラウド管理について考えるとき、主にパフォーマンスの監視、セキュリティの維持、コンプライアンス...

AIチップとは何ですか?人々が知っておくべきことすべて

[51CTO.com クイック翻訳] 業界の専門家は、音声アシスタント、顔認識カメラ、コンピューター...

...

2018 年の 12 件の主要な AI および機械学習の買収

[51CTO.com クイック翻訳] IDC によると、人工知能 (AI) と認知システムへの世界的...

Python 機械学習の実践: クレジットカード詐欺検出

ストーリーの背景:元のデータは個人の取引記録ですが、データ自体のプライバシーを考慮して、元のデータは...

グーグル元会長「人工知能だけでは市場を創出できない」

[[321190]]販売員からトラック運転手、医師に至るまで、経済全体の多くの仕事や役割が人工知能...

2019年インターネット人材採用レポート:Javaは人気だが、アルゴリズムエンジニアは不足している

技術の変化、才能主導。インターネットにおける現在の仕事の機会とトレンドはどこにありますか?本稿では、...

退屈な「機械学習」がこのように学べるとは思ってもいませんでした!

[[234276]]機械学習は、確率論や統計などの複雑な分野を含む人工知能の中核分野の 1 つです...

...

老黄が勝利! Nvidia H100の注文は24年待ち、マスク氏も黙っていられない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能は人間が理解できない量子実験を設計する

[[412058]]北京時間7月19日、量子物理学者のマリオ・クライン氏は、2016年初頭にウィーン...

北京大学の研究者らは、今回AIが「平らになる」理由を発見した。それはすべてデータセットのせいだ

人工知能をトレーニングする場合、AI は人間のタスクを完了するための不可解な方法を学習してしまうこと...