Google Gemini の大きな転換？ Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?

以前、Google の大ヒット復讐兵器である Gemini Pro は、常識推論タスクにおいて OpenAI の GPT モデルに遅れをとることが判明しました。

その後、CMU は、Gemini Pro の多くの機能が GPT-3.5 Turbo よりわずかに遅れていることを証明する論文と実験を発表しました。

しかし最近、スタンフォード大学とメタ大学の学者らがジェミニのこの「不正」を否定した。

彼らは、限られたデータセット (HellaSWAG) に基づくこの評価では、Gemini の真の常識的推論の可能性を十分に捉えていないことを発見しました。

論文アドレス: https://arxiv.org/abs/2312.17661

新しいテストセットでは、ジェミニの推論能力は以前よりもはるかに強力です。

ジェミニの真の可能性

スタンフォード大学とメタ大学の研究者らは、限られたデータセットに基づくこれまでの評価はジェミニにとって公平ではなかったと述べた。

今回、研究者らは、複雑な推論タスクにおけるジェミニのパフォーマンスを徹底的に評価するために、常識的知識のクロスモーダル統合を必要とするタスクを設計しました。

研究者らは、一般的なタスクからドメイン固有のタスクに至るまで、12 の常識推論データセットの包括的な分析を実施しました。

研究者らは、4 つの LLM 実験と 2 つの MLLM 実験で、ジェミニが現在非常に強力な常識的推論能力を備えていることを実証しました。

研究者たちは、最も人気のある4つのモデル、Llama 2-70b、Gemini Pro、GPT-3.5 Turbo、GPT-4 Turboを評価しました。

全体的に、Gemini Pro のパフォーマンスは GPT-3.5 Pro と同等でしたが、精度では GPT-4 Turbo に遅れをとっていました。

実験

データセット

実験では、11 の言語ベースのデータセットと 1 つのマルチモーダルデータセットを含む、さまざまな種類の常識推論に関連する 12 のデータセットが使用されました。

言語ベースのデータセットには、常識推論問題の 3 つのカテゴリが含まれています。

1. 一般推論と文脈推論: 一般的な常識知識に焦点を当てた CommonsenseQA、物語の文脈的理解を重視する Cosmos QA、最も合理的な説明を推論するなどの演繹的推論を導入した αNLI、文脈的イベントシーケンスに関する推論に焦点を当てた HellaSWAG。

2. 専門的および知識に基づく推論: TRAM は時間に関する推論力をテストします。NumerSense は数値理解に焦点を当てます。PIQA は物理的な相互作用に関する知識を評価します。QASC は科学関連の推論を扱います。RiddleSense はなぞなぞを通じて創造的思考力を試します。

3. 社会的および道徳的推論: 社会的 IQa は、社会的相互作用の理解をテストします。倫理は、道徳的および倫理的推論を評価します。

マルチモーダルデータセット (視覚と言語) については、認知レベルの視覚理解のための大規模データセットである VCR を選択します。

複数のタスクを含む TRAM や ETHICS などのデータセットの場合、研究者は実験の常識的推論の部分を抽出しました。

精度は、実験におけるすべてのデータセットのパフォーマンスメトリックとして使用されます。次の表は、データセットの概要と質問の例を示しています。

モデル

最も人気のある 4 つの大規模モデルが使用されます: オープンソースの Llama-2-70b-chat とクローズドソースの Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

各モデルには、対応する API キーを使用してアクセスします。Gemini には Google Vertex AI 経由で、GPT には OpenAI API 経由で、Llama2 には DeepInfra 経由でアクセスします。

マルチモーダルデータセットの場合、実験では GPT-4V (API では gpt-4-vision-preview) と Gemini Pro Vision (API では gemini-pro-vision) が考慮されます。

研究者は、API コストとレートの制約を考慮して、各言語ベースのデータセットの検証セットから 200 個の例と、VCR データセットの検証セットから 50 個の例をランダムに選択しました。

すべての評価において、モデル応答生成中に貪欲デコード（つまり、温度 = 0）が採用されました。

ヒント

言語ベースのデータセットを評価する際に、研究者らは 2 つのプロンプト設定を採用しました。言語設定におけるモデルの固有の常識能力を測定することを目的としたゼロショット標準プロンプト (SP) と、モデルのパフォーマンスの潜在的な向上を観察するために使用される数ショットの Chain of Thoughts (CoT) プロンプトです。

マルチモーダルデータセットの場合、ゼロショット標準キューを使用して、MLLM のエンドツーエンドの視覚的常識推論能力を評価します。

結果

全体的なパフォーマンス比較の結果は次の表に示されています。

モデルの観点から見ると、GPT-4 Turbo は平均パフォーマンスが最も優れています。ゼロショット学習では2位のGemini Proよりも7.3%高く、少数ショット学習ではその優位性はさらに大きくなっています(9.0%)。

Gemini Pro の平均精度は GPT-3.5 Turbo よりもわずかに高くなっています (0 ショット、SP では 1.3% 高く、k ショット、CoT では 1.5% 高くなります)。

ヒント手法に関しては、CoT はすべてのデータセットのパフォーマンスを向上させ、CommonsenseQA、TRAM、および Social IQa データセットでは明らかな向上が見られます。

次の表は、マルチモーダル VCR データセットのパフォーマンスを比較したものです。

VCR の 3 つのサブタスクは、Q → A (視覚的なコンテキストに基づいて質問に対する回答を生成する)、QA → R (モデルが特定の回答の根拠を提供することを要求する)、Q → AR (質問に答え、適切な理由で回答を正当化することを要求する) です。

11 の言語ベースのデータセットは 3 つのグループに分かれており、各グループの各設定のパフォーマンスを図 1 に示します。

結果は、GPT-4 Turbo がすべてのカテゴリで一貫してパフォーマンスをリードしていることを示しています。

Gemini Pro と GPT-3.5 Turbo のパフォーマンスは同等ですが、3 つのカテゴリのうち 2 つでは Gemini Pro が GPT-3.5 Turbo をわずかに上回っています。

全体的に、すべてのモデルは社会的および道徳的推論データセットに対して強力な機能を示しています。

しかし、一般的な推論タスクと文脈上の推論タスクのパフォーマンスには大きな違いがあります。

また、より広範な常識的な原則の理解と、さまざまな状況でのその原則の適用には潜在的なギャップがあることも示唆しています。

専門的および知識的推論のカテゴリー、特に時間とパズルベースの課題の分野では、モデルは複雑な時系列を処理し、パズルを解読するために必要な抽象的および創造的思考能力に欠陥があることを示しました。

マルチモーダルデータセットに関しては、図 2 にさまざまな問題タイプにおける GPT-4V と GeminiPro Vision のパフォーマンス比較の詳細を示します。

時間カテゴリに関する最後の質問では、GeminiPro Vision が競合製品を上回っていることがわかります。

MLLMの理由

MLLM の推論能力、特に常識的な質問に対して正しい回答だけでなく妥当かつ文脈に基づいた推論を提供する能力を評価するために、体系的なサンプリング手法が使用されました。

4 つの LLM を評価するために使用された 11 の言語ベースのデータセットについて、研究者は正解した質問 30 件と不正解した質問 30 件をランダムに選択しました。

データセットで誤った回答が 30 件未満の場合、研究者は分析の包括性を保証するために、入手可能なすべての誤った回答を含めました。

これらの質問を選択した後、各モデルに「質問に対する回答の根拠は何ですか?」と説明を求めました。その後、モデルによって提供された推論は手動で検査され、その論理的妥当性と質問との関連性に基づいて真偽が評価されました。

図 3 は、GPT-4 Turbo が正解と不正解の両方に対して高度な推論メカニズムを示し、最終的な答えが不正確であっても論理的な一貫性を維持する能力があることを示しています。

さらに、Gemini Pro は優れた推論能力も実証し、包括的な常識的な推論アプローチを提供しました。

下の図は、Gemini Pro と GPT-3.5 からの 2 つの実際の例を示しており、正解と正しい理由、および不正解と不正解の理由を示しています。

サンプル問題は QASC データセットからのもので、正解は太字の赤で示されています。上の画像では、Gemini Pro がすべてのオプションを慎重に検討して最も論理的な結論に到達する、系統的な推論を示しています。

代わりに、GPT-3.5 Turbo の型破りなロジックの傾向により、想像力に富んではいるものの間違った答えが導き出されました。

これは、異なるモデルが常識推論タスクに対処するための異なる戦略を持ち、独自の機能と制限を持っていることを示しています。

Gemini Proの常識推論機能

常識的なQA

CommonsenseQA データセットを使用した一般知識評価には、「あなたが見知らぬ人である場合、人々はどうしますか？」という質問の例があります。

A. 電車 B. 奇妙 C. 人間 D. 愚か E. 危険

Gemini ProはBを選択しました。

その理由付けも注目に値します。選択肢はすべて「見知らぬ人」という概念に関連していますが、「見知らぬ人」だけが質問の中立的で自由回答的な性質を正確に捉えていることを認識しています。

この選択は、一般的な常識的な知識を解釈して適用する Gemini Pro の能力を強調します。

時間（TRAM）

TRAM データセットの Temporal Common Sense Evaluation からの質問例: 「彼はまた、彼を探しに来ると約束しました。」

彼が「彼のもとに来る」までにはどれくらいの時間がかかりますか？

A. 100年 B. 1分以内 C. 数時間

特に関係者の身元や「来る」ことの意味に関して十分な背景情報がなかったため、Gemini Pro は明確な回答を提供できませんでした。

これは、モデルが正確な時間判断を行うために特定のコンテキスト情報に依存する必要があることを示しています。

現実世界の情報伝達においては、曖昧または不完全な情報がそのような制限を引き起こす可能性もあります。

ソーシャル（ソーシャルIQa）

Social IQa データセットを使用して GeminiPro の社会的常識推論のパフォーマンスを評価したとき、興味深いシナリオが浮かび上がりました。人々が Sasha をいじめていて、Sasha が報復した場合、人々は次に何をするでしょうか?

A. サーシャの言うとおりにする B. 復讐する C. サーシャから逃げる

正解は C ですが、Gemini Pro の選択は洞察に富んでいるようです。

同委員会は、サーシャの行動が人々の復讐心を刺激する可能性が高いとして、Bを選択した。

この応答は、Gemini Pro が社会のダイナミクスと感情的な動機を微妙に理解していることを示しています。

映像（VCR）

研究者らは、VCR データセットで、個人の安全と潜在的な危険を伴うシナリオに対する Gemini Pro Vision の反応を分析しました。

このとき4番が3番を押すとどうなるでしょうか？

ジェミニ・プロ・ビジョンはこう答えた。「3号は崖から落ちて命の危険にさらされるだろう。」

この結果は、Gemini Pro Vision がすでに視覚的な常識的推論を実行し、視覚的なシーンを分析し、それらのシーンでの行動の潜在的な結果を予測できることを示しています。

これは、モデルが空間的な関係と物理的な結果を把握し、人間の認知と同様に複雑な視覚情報を処理する能力を持っていることを示唆しています。

著者について

Yuqing Wangは現在、スタンフォード大学の博士研究員です。

彼女は以前、ミネソタ大学で学士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。

Yun Zhao は現在 Meta の研究者であり、機械学習 (ディープラーニングと強化学習を含む)、人工知能、データマイニングの応用に重点を置いています。

彼は以前、清華大学で修士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。

<<: ハイエナが次世代トランスフォーマーになる？ StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

>>: OpenAIがChatGPTに「ドラゴン退治のテクニック」を直接教える！公式のヒントエンジニアリングガイドはこちら

テクノロジー企業は、自動運転車市場に参入するための魅力的なビジネスモデルをまだ欠いている。

Google Gemini の大きな転換？ Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

ジェミニの真の可能性

実験

データセット

モデル

ヒント

結果

MLLMの理由

Gemini Proの常識推論機能

常識的なQA

時間（TRAM）

ソーシャル（ソーシャルIQa）

映像（VCR）

著者について

テクノロジー企業は、自動運転車市場に参入するための魅力的なビジネスモデルをまだ欠いている。

真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。

先ほど、Manus Lianchuang は「サンドボックス脱獄」の問題に反応し、次のように述べました。「MCP は役に立たない!」さて、オープンソース化計画が正式に発表されました！

IDCレポート：ジェネレーティブAIは爆発的な産業探査の時代に入り、技術供給側は商業化の初期段階にある

2024年以降に注目すべき10のジェネレーティブAIトレンド

中国語の音声の事前トレーニング済みモデルが見つかりませんか? Wav2vec 2.0 と HuBERT の中国語版が登場

中国ダイビングチームの勝利には人工知能が貢献した

JD.comクラウドファンディング599元、業界最安値を突破、Nokelock X1セルフパワースマートドアロックがイノベーション革命をリード

人工知能は防衛システムをどのように変えるのでしょうか?

推薦する

App Storeのランキングアルゴリズムの変更、開発者は準備が必要

よりリアルな人間の生成モデル、HyperHumanが登場。暗黙の構造拡散に基づいて、SOTAの新記録を樹立した。

この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

AIチップアーキテクチャは最先端へ向かう

人工知能（AI）と機械学習（ML）の最新動向

Googleの視覚言語モデルPaLI-3がリリースされました。パラメータはわずか50億で、より小さく、より高速で、より強力です。

産業用ロボットを選択するための 9 つの主要なパラメータをご存知ですか?

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニングデータを漏洩する制御不能状態、OpenAI が修正、まだ機能している

医療業界における放射線科はなぜ人工知能による混乱に対してより脆弱なのでしょうか?

推理力が2倍にアップ！プリンストン大学と北京大学の卒業生がロング「メデューサ」を提供、33Bモデルは13Bと同等の速さ

テスラがテスラAIのTwitterアカウントを開設、Dojoスーパーコンピューターの生産を来月開始すると発表

5G無人配送車両が北京に登場、現在試験運用中

ディープラーニングの父、ヒントン：次世代ニューラルネットワーク

深層強化学習における敵対的攻撃と防御