ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデルを完全かつ正確に評価する方法がますます重要になっています。ますます認識されつつある方向性の 1 つは、モデルの知識と推論能力をテストするために、人間によるテスト質問を使用してモデルを検証することです。たとえば、英語モデルの場合、MMLU は複数の科目におけるモデルのパフォーマンスを評価するために広く使用されてきました。同様に、中国のコミュニティでは最近、中国語のテスト問題を使用してモデル、特に中国語モデルのパフォーマンスをテストする C-Eval や GAOKAO などのツールが登場しています。 このようなテストベンチマークは、モデルの開発を促進する上で重要な役割を果たします。しかし、大規模な多言語/マルチモーダルモデルの場合、対応する評価はまだ空白です。そこで、アリババDAMOアカデミー多言語NLPチームは、このような評価の開発を促進するために、初の多言語マルチモーダルテストベンチマークM3Examをリリースしました。論文とデータコードは公開されています。 写真
背景従来の NLP タスクでは、大規模な言語モデルの真の有効性を完全にテストすることがますます困難になっています。このような状況では、人間によるテスト質問を使用してモデルをテストすることが、大規模モデルをテストするための一般的な方法になりつつあります。たとえば、MMLU データセットは複数の分野をカバーしており、さまざまなモデルのテストに広く使用されています。GPT-4 でも、重要なテスト ベンチマークとして使用されています。同様に、先月、C-EvalやGAOKAOなど、さまざまな種類の大学入試から中国語のテスト問題を集約して中国語モデルをテストする中国語での同様の試みも見られました。 しかし、現在のテストベンチマークには英語または中国語の質問しかありません。多くのモデルが登場し、多言語効果を持つと主張していますが、モデルの多言語機能を完全にテストすることはできません。さらに、マルチモーダルな質問、つまり画像を含む質問は、構築プロセスで見落とされがちです。その結果、大規模な多言語/マルチモーダル モデルの有効性を正確に測定できなくなります。このギャップを埋めるために、私たちは M3Exam を構築しました。これは、人間の試験問題を使用して構築された、合計 12,317 の質問をカバーする、多言語、マルチモーダル、マルチレベルのテスト ベンチマークです。 写真 名前が示すように、M3Exam には 3 つの機能があります。
多言語テスト多言語機能をテストするために、さまざまなオープンソースおよびクローズドソース モデルを選択しました。結果は次の図に示されています。 写真 多くのモデルが英語で良い結果を示していますが(たとえば、Claude と ChatGPT は約 75% に到達できます)、平均的な結果は良くないことがわかります。 GPT-4 は 60% 以上の精度を達成できる唯一のモデルですが、ChatGPT は 57% の精度しか達成できません。言語学的な観点から見ると、タイ語やジャワ語などのリソースが少ない言語やラテン文字以外の言語では、GPT-4 でも 50% 以上の精度しか達成できません。これは、現在のほとんどのモデルの機能がまだ英語に集中しており、多言語機能をさらに改善する必要があることを示しています。 また、各国からの質問により、モデルの多言語機能がより徹底的にテストされていることもわかります。たとえば、GPT-4 レポートでは MMLU を複数の言語に翻訳し、さまざまな言語での翻訳の質問に対して良好な結果を達成しました。ただし、実際のシナリオからの質問を使用する場合、モデルは質問に答えるために各言語とその背後にある対応する文化的背景知識を学習する必要があります。たとえば、上記の例では、スワヒリ語ではことわざの空欄を埋める必要があり、タイ語ではタイの一般的な自然の景観の特徴が必要になります。 写真 正確な翻訳(上の写真の英語翻訳はタイ語のネイティブスピーカーによるものです)に基づいていても、対応する言語と文化の知識がなければ答えることは不可能であることがわかります。これは、モデルの多言語能力の完全なテストを反映しています。 マルチモーダルテストまた、Fromage、OpenFlamingo、BLIP-2、InstructBLIP など、いくつかの大規模なマルチモーダル モデルを選択してテストしました。結果を次の図に示します。 写真 ご覧のとおり、ほとんどのモデルのパフォーマンスは非常に低く、精度が 50% を超えるモデルはありませんでした。同様のパラメータ数を持つ Flan-T5 モデル (Flan-T5 は画像を入力として受け取りません) と比較しても、マルチモーダル モデルには基本的に利点はありません。 さらに調査してみると、これは既存のマルチモーダル テスト データが比較的単純であることが原因である可能性があることがわかりました。たとえば、VQA では、多くの場合、画像の 1 つの側面に関する単純な質問のみが行われます。人間に対するテスト問題では、多くの場合、画像のより複雑な理解が求められます。たとえば、数学や科学のテストでは、画像の数値の詳細に注意を払う必要があります。次の図は、特定の問題と各モデルの出力を示しています。 写真 すべてのモデルが間違った回答をしたことがわかります。モデルの画像理解をさらにテストするために、モデルのさまざまな詳細を説明するよう求める追加のプロンプトを作成しました (上記画像の右側)。すべてのモデルが画像にマークされた 65 度の角度を正確に説明できないため、当然、画像内の反射角度が何であるかを答えることができないことがわかります。 マルチレベルテストデータ構築の過程で、小学校から中学校、中学校から高校、高校から大学という3つの重要な試験段階を選択しました。各国の教育制度は異なっていても、基本的には対応する教育段階があることがわかったことは注目に値します。教育のさまざまな段階は、多くの場合、さまざまな国で対応する年齢層の人々に期待される知的レベルに対応しています。この区分により、さまざまな教育段階の問題を使用してモデルの有効性を観察する視点が得られます。結果は以下の図にまとめられています。 写真 驚くべきことに、モデル効果は、低い教育レベルから高い教育レベルにかけて大きな低下を示さないことがわかります。奇妙なことに、ほぼすべてのモデルは中レベルの問題で最も優れたパフォーマンスを発揮します。しかし、人間の場合、例えば中国では、大学入試で約 70% の精度を達成できるのであれば、小学校の試験問題を解くのは簡単なはずですが、このモデルではそうではないようです。 この観察から得られる教訓は、より困難なデータを使用してモデルを継続的にテストしても、必ずしもモデルの違いが最大化されるとは限らないということです。 AI 教育など、実際の生活でモデルを確実に使用したい場合は、基本的な質問に対してモデルがなぜ間違いを犯すのかを研究する方が価値があるかもしれません。 結論この論文では、大規模な多言語/マルチモーダル モデルの評価に信頼性の高いベンチマークを提供することを目的とした、新しく作成されたテスト ベンチマーク M3Exam を紹介します。現在のテスト結果から、多くのモデルが英語や中国語などの高リソース言語では良好な結果を達成できるものの、多言語状況ではほとんどのモデルの結果は満足のいくものではないことがわかります。マルチモーダル モデルの効果はさらに不十分であり、現在のマルチモーダル モデルでは画像の単純な特徴しか捉えられず、より正確な詳細を捉えることができないことがわかります。今後、M3Exam が関連モデルの開発と反復に役立ち、あらゆる言語のユーザーに大規模モデルの利便性とより豊富な使用シナリオをもたらすことを期待しています。 |
<<: GPT-4ではMITでコンピュータサイエンスの学位を取得できない
懐疑論者は、完全な自動運転の実現は業界が考えているよりもずっと先のことかもしれないと述べている。 [...
カリフォルニア大学サンフランシスコ校の神経科学者チームは、ネイチャー誌に最近発表した研究で、脳の活動...
[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...
黄金の秋、収穫の季節です。また秋分の日を迎え、わが国では4回目の「農民収穫祭」を迎えます。畑や広場、...
2011 年に Apple が Siri を発表して以来、世界最大のテクノロジー企業は現実世界の仮想...
[[319653]]新型コロナウイルスは、ウイルス自体の急速な拡散という点だけでなく、ますます多く...
この記事では、いくつかのクラスタリング アルゴリズムの基本的な概要を示し、シンプルでありながら詳細な...
[[341117]]この記事はWeChatの公開アカウント「Invincible Coder」から転...
共同通信によると、国土交通省は月面に滞在できる基地を建設するため、無人重機の開発を進めている。日本は...
この本の最初の 2 章では、進化アルゴリズムをやや抽象的な意味で定義しています。スコアリング、選択、...
[[415863]]多くの組織の AI 分析に対する要望と、組織の規模や能力との間のギャップは拡大し...