DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデルを完全かつ正確に評価する方法がますます重要になっています。ますます認識されつつある方向性の 1 つは、モデルの知識と推論能力をテストするために、人間によるテスト質問を使用してモデルを検証することです。たとえば、英語モデルの場合、MMLU は複数の科目におけるモデルのパフォーマンスを評価するために広く使用されてきました。同様に、中国のコミュニティでは最近、中国語のテスト問題を使用してモデル、特に中国語モデルのパフォーマンスをテストする C-Eval や GAOKAO などのツールが登場しています。

このようなテストベンチマークは、モデルの開発を促進する上で重要な役割を果たします。しかし、大規模な多言語/マルチモーダルモデルの場合、対応する評価はまだ空白です。そこで、アリババDAMOアカデミー多言語NLPチームは、このような評価の開発を促進するために、初の多言語マルチモーダルテストベンチマークM3Examをリリースしました。論文とデータコードは公開されています。

写真

  • 論文: https://arxiv.org/pdf/2306.05179.pdf
  • データとコード: https://github.com/DAMO-NLP-SG/M3Exam

背景

従来の NLP タスクでは、大規模な言語モデルの真の有効性を完全にテストすることがますます困難になっています。このような状況では、人間によるテスト質問を使用してモデルをテストすることが、大規模モデルをテストするための一般的な方法になりつつあります。たとえば、MMLU データセットは複数の分野をカバーしており、さまざまなモデルのテストに広く使用されています。GPT-4 でも、重要なテスト ベンチマークとして使用されています。同様に、先月、C-EvalやGAOKAOなど、さまざまな種類の大学入試から中国語のテスト問題を集約して中国語モデルをテストする中国語での同様の試みも見られました。

しかし、現在のテストベンチマークには英語または中国語の質問しかありません。多くのモデルが登場し、多言語効果を持つと主張していますが、モデルの多言語機能を完全にテストすることはできません。さらに、マルチモーダルな質問、つまり画像を含む質問は、構築プロセスで見落とされがちです。その結果、大規模な多言語/マルチモーダル モデルの有効性を正確に測定できなくなります。このギャップを埋めるために、私たちは M3Exam を構築しました。これは、人間の試験問題を使用して構築された、合計 12,317 の質問をカバーする、多言語、マルチモーダル、マルチレベルのテスト ベンチマークです。

写真

名前が示すように、M3Exam には 3 つの機能があります。

  • 多言語:言語特性、リソースレベル、文化的背景などの要素を総合的に考慮し、英語、中国語、イタリア語、ポルトガル語、ベトナム語、アフリカーンス語、スワヒリ語、タイ語、ジャワ語の9か国に対応する言語を選択しました。すべての問題は、対応する国の公式テスト問題から出題されます。
  • マルチモーダル: テキストのみの質問と画像ベースの質問の両方を考慮し、モデル処理を容易にするためにすべての画像を慎重に処理しました。
  • マルチレベル: 小学校から中学校、中学校から高校、高校卒業という 3 つの重要な教育段階を考慮し、対応する段階の公式試験から問題を入手して、異なる段階に対応する異なる知能要件の下でのモデルのパフォーマンスの違いを比較できるようにします。

多言語テスト

多言語機能をテストするために、さまざまなオープンソースおよびクローズドソース モデルを選択しました。結果は次の図に示されています。

写真

多くのモデルが英語で良い結果を示していますが(たとえば、Claude と ChatGPT は約 75% に到達できます)、平均的な結果は良くないことがわかります。 GPT-4 は 60% 以上の精度を達成できる唯一のモデルですが、ChatGPT は 57% の精度しか達成できません。言語学的な観点から見ると、タイ語やジャワ語などのリソースが少ない言語やラテン文字以外の言語では、GPT-4 でも 50% 以上の精度しか達成できません。これは、現在のほとんどのモデルの機能がまだ英語に集中しており、多言語機能をさらに改善する必要があることを示しています。

また、各国からの質問により、モデルの多言語機能がより徹底的にテストされていることもわかります。たとえば、GPT-4 レポートでは MMLU を複数の言語に翻訳し、さまざまな言語での翻訳の質問に対して良好な結果を達成しました。ただし、実際のシナリオからの質問を使用する場合、モデルは質問に答えるために各言語とその背後にある対応する文化的背景知識を学習する必要があります。たとえば、上記の例では、スワヒリ語ではことわざの空欄を埋める必要があり、タイ語ではタイの一般的な自然の景観の特徴が必要になります。

写真

正確な翻訳(上の写真の英語翻訳はタイ語のネイティブスピーカーによるものです)に基づいていても、対応する言語と文化の知識がなければ答えることは不可能であることがわかります。これは、モデルの多言語能力の完全なテストを反映しています。

マルチモーダルテスト

また、Fromage、OpenFlamingo、BLIP-2、InstructBLIP など、いくつかの大規模なマルチモーダル モデルを選択してテストしました。結果を次の図に示します。

写真

ご覧のとおり、ほとんどのモデルのパフォーマンスは非常に低く、精度が 50% を超えるモデルはありませんでした。同様のパラメータ数を持つ Flan-T5 モデル (Flan-T5 は画像を入力として受け取りません) と比較しても、マルチモーダル モデルには基本的に利点はありません。

さらに調査してみると、これは既存のマルチモーダル テスト データが比較的単純であることが原因である可能性があることがわかりました。たとえば、VQA では、多くの場合、画像の 1 つの側面に関する単純な質問のみが行われます。人間に対するテスト問題では、多くの場合、画像のより複雑な理解が求められます。たとえば、数学や科学のテストでは、画像の数値の詳細に注意を払う必要があります。次の図は、特定の問題と各モデルの出力を示しています。

写真

すべてのモデルが間違った回答をしたことがわかります。モデルの画像理解をさらにテストするために、モデルのさまざまな詳細を説明するよう求める追加のプロンプトを作成しました (上記画像の右側)。すべてのモデルが画像にマークされた 65 度の角度を正確に説明できないため、当然、画像内の反射角度が何であるかを答えることができないことがわかります。

マルチレベルテスト

データ構築の過程で、小学校​​から中学校、中学校から高校、高校から大学という3つの重要な試験段階を選択しました。各国の教育制度は異なっていても、基本的には対応する教育段階があることがわかったことは注目に値します。教育のさまざまな段階は、多くの場合、さまざまな国で対応する年齢層の人々に期待される知的レベルに対応しています。この区分により、さまざまな教育段階の問題を使用してモデルの有効性を観察する視点が得られます。結果は以下の図にまとめられています。

写真

驚くべきことに、モデル効果は、低い教育レベルから高い教育レベルにかけて大きな低下を示さないことがわかります。奇妙なことに、ほぼすべてのモデルは中レベルの問題で最も優れたパフォーマンスを発揮します。しかし、人間の場合、例えば中国では、大学入試で約 70% の精度を達成できるのであれば、小学校の試験問題を解くのは簡単なはずですが、このモデルではそうではないようです。

この観察から得られる教訓は、より困難なデータを使用してモデルを継続的にテストしても、必ずしもモデルの違いが最大化されるとは限らないということです。 AI 教育など、実際の生活でモデルを確実に使用したい場合は、基本的な質問に対してモデルがなぜ間違いを犯すのかを研究する方が価値があるかもしれません。

結論

この論文では、大規模な多言語/マルチモーダル モデルの評価に信頼性の高いベンチマークを提供することを目的とした、新しく作成されたテスト ベンチマーク M3Exam を紹介します。現在のテスト結果から、多くのモデルが英語や中国語などの高リソース言語では良好な結果を達成できるものの、多言語状況ではほとんどのモデルの結果は満足のいくものではないことがわかります。マルチモーダル モデルの効果はさらに不十分であり、現在のマルチモーダル モデルでは画像の単純な特徴しか捉えられず、より正確な詳細を捉えることができないことがわかります。今後、M3Exam が関連モデルの開発と反復に役立ち、あらゆる言語のユーザーに大規模モデルの利便性とより豊富な使用シナリオをもたらすことを期待しています。

<<:  GPT-4ではMITでコンピュータサイエンスの学位を取得できない

>>:  AIはソフトウェア開発の特効薬ではない

ブログ    
ブログ    

推薦する

...

...

大きな模型 = 容器に入った脳?同源病院の朱松春氏のチームがAGIの主な欠陥を分析

最近、ChatGPT/GPT-4シリーズの製品は世界的な注目と議論を集めており、それらに代表される大...

基礎 | 機械学習におけるロジスティック回帰、決定木、ニューラル ネットワーク アルゴリズムの理解

1. ロジスティック回帰ロジスティック回帰。まず線形回帰から始めます。線形回帰の出力は実用的な意味を...

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの中国人研究者7名に...

顔検出を実装するための50行のPythonコード

現在、顔認識技術は広く利用されており、決済や本人認証、美容カメラなどに利用されています。 iPhon...

仕事の未来: 2030 年までに消滅する仕事はどれでしょうか?

[[397136]]自動化と人工知能が急速に進歩する時代において、2030年までに仕事は消滅するで...

2020年の情報セキュリティ:人工知能(AI)はさまざまな情報セキュリティシステムで広く利用されている

マーク・カネル、イマジネーション・テクノロジーズ、 戦略およびセキュリティ担当副社長[[281448...

米国、政府による顔認識技術の使用禁止を再法制化へ

[[406332]]米議会は火曜日、連邦法執行機関やその他の機関による顔認識技術の使用を禁止する法案...

商業ビルのエネルギー効率における人工知能の役割

人工知能は商業ビルを変革し、エネルギー使用に関してよりスマートなものにしています。周囲に誰もいないと...

自動運転システムにおける視覚認識モジュールの安全性テストに関する1万語

近年、ディープラーニングに基づく視覚認識技術の発展により、自動車のインターネット分野での自動運転の繁...

大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡...

一緒にハイキングに行きませんか? Baidu Brain EasyDLは、企業向けAI実装の山を登るお手伝いをします

エンタープライズ AI モデルの開発では、データの準備からモデルのトレーニング、サービスの展開まで、...

Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシー データを保護

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能翻訳は、障害なく外国人と恋に落ちるのに役立ちます

AI 音声翻訳の分野では、ノイズは対処しなければならない主要な課題の 1 つです。この装置は研究室や...