DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデルを完全かつ正確に評価する方法がますます重要になっています。ますます認識されつつある方向性の 1 つは、モデルの知識と推論能力をテストするために、人間によるテスト質問を使用してモデルを検証することです。たとえば、英語モデルの場合、MMLU は複数の科目におけるモデルのパフォーマンスを評価するために広く使用されてきました。同様に、中国のコミュニティでは最近、中国語のテスト問題を使用してモデル、特に中国語モデルのパフォーマンスをテストする C-Eval や GAOKAO などのツールが登場しています。

このようなテストベンチマークは、モデルの開発を促進する上で重要な役割を果たします。しかし、大規模な多言語/マルチモーダルモデルの場合、対応する評価はまだ空白です。そこで、アリババDAMOアカデミー多言語NLPチームは、このような評価の開発を促進するために、初の多言語マルチモーダルテストベンチマークM3Examをリリースしました。論文とデータコードは公開されています。

写真

  • 論文: https://arxiv.org/pdf/2306.05179.pdf
  • データとコード: https://github.com/DAMO-NLP-SG/M3Exam

背景

従来の NLP タスクでは、大規模な言語モデルの真の有効性を完全にテストすることがますます困難になっています。このような状況では、人間によるテスト質問を使用してモデルをテストすることが、大規模モデルをテストするための一般的な方法になりつつあります。たとえば、MMLU データセットは複数の分野をカバーしており、さまざまなモデルのテストに広く使用されています。GPT-4 でも、重要なテスト ベンチマークとして使用されています。同様に、先月、C-EvalやGAOKAOなど、さまざまな種類の大学入試から中国語のテスト問題を集約して中国語モデルをテストする中国語での同様の試みも見られました。

しかし、現在のテストベンチマークには英語または中国語の質問しかありません。多くのモデルが登場し、多言語効果を持つと主張していますが、モデルの多言語機能を完全にテストすることはできません。さらに、マルチモーダルな質問、つまり画像を含む質問は、構築プロセスで見落とされがちです。その結果、大規模な多言語/マルチモーダル モデルの有効性を正確に測定できなくなります。このギャップを埋めるために、私たちは M3Exam を構築しました。これは、人間の試験問題を使用して構築された、合計 12,317 の質問をカバーする、多言語、マルチモーダル、マルチレベルのテスト ベンチマークです。

写真

名前が示すように、M3Exam には 3 つの機能があります。

  • 多言語:言語特性、リソースレベル、文化的背景などの要素を総合的に考慮し、英語、中国語、イタリア語、ポルトガル語、ベトナム語、アフリカーンス語、スワヒリ語、タイ語、ジャワ語の9か国に対応する言語を選択しました。すべての問題は、対応する国の公式テスト問題から出題されます。
  • マルチモーダル: テキストのみの質問と画像ベースの質問の両方を考慮し、モデル処理を容易にするためにすべての画像を慎重に処理しました。
  • マルチレベル: 小学校から中学校、中学校から高校、高校卒業という 3 つの重要な教育段階を考慮し、対応する段階の公式試験から問題を入手して、異なる段階に対応する異なる知能要件の下でのモデルのパフォーマンスの違いを比較できるようにします。

多言語テスト

多言語機能をテストするために、さまざまなオープンソースおよびクローズドソース モデルを選択しました。結果は次の図に示されています。

写真

多くのモデルが英語で良い結果を示していますが(たとえば、Claude と ChatGPT は約 75% に到達できます)、平均的な結果は良くないことがわかります。 GPT-4 は 60% 以上の精度を達成できる唯一のモデルですが、ChatGPT は 57% の精度しか達成できません。言語学的な観点から見ると、タイ語やジャワ語などのリソースが少ない言語やラテン文字以外の言語では、GPT-4 でも 50% 以上の精度しか達成できません。これは、現在のほとんどのモデルの機能がまだ英語に集中しており、多言語機能をさらに改善する必要があることを示しています。

また、各国からの質問により、モデルの多言語機能がより徹底的にテストされていることもわかります。たとえば、GPT-4 レポートでは MMLU を複数の言語に翻訳し、さまざまな言語での翻訳の質問に対して良好な結果を達成しました。ただし、実際のシナリオからの質問を使用する場合、モデルは質問に答えるために各言語とその背後にある対応する文化的背景知識を学習する必要があります。たとえば、上記の例では、スワヒリ語ではことわざの空欄を埋める必要があり、タイ語ではタイの一般的な自然の景観の特徴が必要になります。

写真

正確な翻訳(上の写真の英語翻訳はタイ語のネイティブスピーカーによるものです)に基づいていても、対応する言語と文化の知識がなければ答えることは不可能であることがわかります。これは、モデルの多言語能力の完全なテストを反映しています。

マルチモーダルテスト

また、Fromage、OpenFlamingo、BLIP-2、InstructBLIP など、いくつかの大規模なマルチモーダル モデルを選択してテストしました。結果を次の図に示します。

写真

ご覧のとおり、ほとんどのモデルのパフォーマンスは非常に低く、精度が 50% を超えるモデルはありませんでした。同様のパラメータ数を持つ Flan-T5 モデル (Flan-T5 は画像を入力として受け取りません) と比較しても、マルチモーダル モデルには基本的に利点はありません。

さらに調査してみると、これは既存のマルチモーダル テスト データが比較的単純であることが原因である可能性があることがわかりました。たとえば、VQA では、多くの場合、画像の 1 つの側面に関する単純な質問のみが行われます。人間に対するテスト問題では、多くの場合、画像のより複雑な理解が求められます。たとえば、数学や科学のテストでは、画像の数値の詳細に注意を払う必要があります。次の図は、特定の問題と各モデルの出力を示しています。

写真

すべてのモデルが間違った回答をしたことがわかります。モデルの画像理解をさらにテストするために、モデルのさまざまな詳細を説明するよう求める追加のプロンプトを作成しました (上記画像の右側)。すべてのモデルが画像にマークされた 65 度の角度を正確に説明できないため、当然、画像内の反射角度が何であるかを答えることができないことがわかります。

マルチレベルテスト

データ構築の過程で、小学校​​から中学校、中学校から高校、高校から大学という3つの重要な試験段階を選択しました。各国の教育制度は異なっていても、基本的には対応する教育段階があることがわかったことは注目に値します。教育のさまざまな段階は、多くの場合、さまざまな国で対応する年齢層の人々に期待される知的レベルに対応しています。この区分により、さまざまな教育段階の問題を使用してモデルの有効性を観察する視点が得られます。結果は以下の図にまとめられています。

写真

驚くべきことに、モデル効果は、低い教育レベルから高い教育レベルにかけて大きな低下を示さないことがわかります。奇妙なことに、ほぼすべてのモデルは中レベルの問題で最も優れたパフォーマンスを発揮します。しかし、人間の場合、例えば中国では、大学入試で約 70% の精度を達成できるのであれば、小学校の試験問題を解くのは簡単なはずですが、このモデルではそうではないようです。

この観察から得られる教訓は、より困難なデータを使用してモデルを継続的にテストしても、必ずしもモデルの違いが最大化されるとは限らないということです。 AI 教育など、実際の生活でモデルを確実に使用したい場合は、基本的な質問に対してモデルがなぜ間違いを犯すのかを研究する方が価値があるかもしれません。

結論

この論文では、大規模な多言語/マルチモーダル モデルの評価に信頼性の高いベンチマークを提供することを目的とした、新しく作成されたテスト ベンチマーク M3Exam を紹介します。現在のテスト結果から、多くのモデルが英語や中国語などの高リソース言語では良好な結果を達成できるものの、多言語状況ではほとんどのモデルの結果は満足のいくものではないことがわかります。マルチモーダル モデルの効果はさらに不十分であり、現在のマルチモーダル モデルでは画像の単純な特徴しか捉えられず、より正確な詳細を捉えることができないことがわかります。今後、M3Exam が関連モデルの開発と反復に役立ち、あらゆる言語のユーザーに大規模モデルの利便性とより豊富な使用シナリオをもたらすことを期待しています。

<<:  GPT-4ではMITでコンピュータサイエンスの学位を取得できない

>>:  AIはソフトウェア開発の特効薬ではない

ブログ    
ブログ    

推薦する

人工知能は寒い冬を迎え、自動運転車の開発は妨げられている

懐疑論者は、完全な自動運転の実現は業界が考えているよりもずっと先のことかもしれないと述べている。 [...

...

最先端技術の共有:脳の信号を音声に変換するAIアルゴリズムは、失語症の人が正常に話すことを助けることが期待されています

カリフォルニア大学サンフランシスコ校の神経科学者チームは、ネイチャー誌に最近発表した研究で、脳の活動...

AIOps に関する 6 つの誤解とその説明

[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...

農家は収穫を祝い、秋分の日にドローンがその技を披露するのを見てください!

黄金の秋、収穫の季節です。また秋分の日を迎え、わが国では4回目の「農民収穫祭」を迎えます。畑や広場、...

人工知能が新たな領域を切り開く:バーチャルクリエイターの背後にある戦い

2011 年に Apple が Siri を発表して以来、世界最大のテクノロジー企業は現実世界の仮想...

世界の主要なテクノロジー企業は新型コロナウイルスとどう戦っているのか?

[[319653]]新型コロナウイルスは、ウイルス自体の急速な拡散という点だけでなく、ますます多く...

...

ビッグデータの機械理解の秘密:クラスタリングアルゴリズムの詳細な説明

この記事では、いくつかのクラスタリング アルゴリズムの基本的な概要を示し、シンプルでありながら詳細な...

マイクロサービスにおける電流制限ロジックとアルゴリズム

[[341117]]この記事はWeChatの公開アカウント「Invincible Coder」から転...

日本はAIと無人機械を使って月面基地を建設する計画で、2030年代までに完成することを目指している。

共同通信によると、国土交通省は月面に滞在できる基地を建設するため、無人重機の開発を進めている。日本は...

人工知能アルゴリズム: 遺伝的アルゴリズム

この本の最初の 2 章では、進化アルゴリズムをやや抽象的な意味で定義しています。スコアリング、選択、...

...

企業内で AI 分析を導入し拡張する方法

[[415863]]多くの組織の AI 分析に対する要望と、組織の規模や能力との間のギャップは拡大し...