34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

数学的推論は言語モデルが避けることのできない問題点です。さまざまなブラックテクノロジーのサポートがあっても、オープンソースモデルの推論パフォーマンスはまだ十分ではありません。

最近、ウォータールー大学、オハイオ州立大学、香港科技大学、エディンバラ大学の研究者らが共同で、「一般的な数学の問題」向けにカスタマイズされた大規模モデル MAmmoTH と、命令調整データセット MathInstruct をリリースしました。

論文リンク: https://arxiv.org/pdf/2309.05653.pdf

プロジェクトリンク: https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct は、13 の中級原理の数学データセットからコンパイルされており、そのうち 6 つは新しいもので、Chains of Thought (CoT) と Procedures of Thought (PoT) を組み合わせて、幅広い数学の領域をカバーしています。

CoT と PoT のハイブリッドは、ツール使用の可能性を解き放つだけでなく、モデルがさまざまな数学的問題に対してさまざまな思考プロセスを経ることも可能にします。

その結果、MAmmoTH ファミリーは、あらゆる規模の 9 つの数学的推論データセットにおいて既存のオープンソース モデルを大幅に上回り、平均精度が 12% ~ 29% 向上しました。

その中で、MAmmoTH-7BモデルはMATH(競技レベルのデータセット)で35%の精度を達成し、オープンソースの7Bモデル(WizardMath)の最高値を25%上回りました。MAmmoTH-34BモデルはMATHで46%の精度を達成し、GPT-4のCoT結果も上回りました。

数学的推論の新たな王者:MAmmoTH

数学的推論タスクでは、オープンソースとクローズドソースの大規模言語モデル (LLM) の間には大きなパフォーマンスの差があります。現在、ベンチマーク データセットの sota は、GPT-4、PaLM-2、Claude などのクローズドソース モデルのままであり、Llama、Falcon、OPT などの他のオープンソース モデルは、まだ大きく遅れをとっています。

パフォーマンスのギャップを埋めるために、主に 2 つの研究アプローチがあります。

1. GalacticaやMINERVAなどのモデルは、数学的ネットワークデータを引き続き使用して言語モデルをトレーニングし、モデルの一般的な科学的推論能力を向上させることができますが、計算コストは​​高くなります。

2. たとえば、Rejection Sampling Fine-tuning (RFT) と WizardMath は、ドメイン固有のデータセットを使用してモデルを微調整します。これにより、ドメイン内のパフォーマンスは向上しますが、より広範囲の数学的推論タスクには適用できません。

数学の問題を解く場合、既存の方法では通常、Chain of Thought (CoT) メソッドを使用して言語モデルをガイドし、自然言語の記述を使用して数学の問題を段階的に解決します。

一般的にほとんどの数学的なトピックでは優れたパフォーマンスを発揮しますが、正確または複雑な数学的計算やアルゴリズムによる推論を必要とする問題 (二次方程式の根を解く、行列の固有値を計算するなど) ではパフォーマンスが低下します。

対照的に、Program-of-Thought (PoT) アプローチと PAL は、外部ツール (Python インタープリターなど) を活用して、計算プロセスを外部 Python インタープリターにオフロードし、複雑な数学的およびアルゴリズム的推論プロセス (例: sympy で二次方程式を解く、numpy で行列の固有値を計算する) を解決することで、数学的解決プロセスを大幅に簡素化します。

しかし、PoT は、特に組み込み API がない場合、より抽象的な推論シナリオを処理するのに欠けており、常識的な推論、形式論理、抽象代数ではさらに不十分です。

方法の概要

研究者の目標は、数学の指導を調整するための高品質で多様なデータセットのリストをまとめることだった。

1. さまざまな数学の分野と複雑さをカバーする

より包括的なデータ セットにより、モデルをさまざまな数学的知識にさらすことができ、モデルの汎用性を高めることができます。

研究者らは、GSM8K、math、AQuA、Camel、TheoremQA など、広く採用されている高品質のデータセットに選択範囲を絞り込みました。

また、既存のデータセットには抽象代数や形式論理などの大学レベルの数学知識が欠けていることにも留意してください。そのため、研究者は、インターネット上で見つかったいくつかのシード例を使用して、自己指導を通じて質問とCoTのデータペアを作成し、GPT-4を使用してTheoremQAの問題における思考の連鎖(CoT)原理を合成することを選択しました。

2. ハイブリッド CoT と PoT

既存の研究方法のほとんどは CoT のみに焦点を当てており、データセットには限られた問題解決のアイデアしか含まれていないため、CoT と PoT の間でデータ量が非常に不均衡になっています。

この問題を解決するために、研究者らは GPT-4 を使用して、選択したデータセットの PoT 問題解決のアイデアを補完し、合成プログラムの実行結果と手動で注釈が付けられた回答を比較してフィルタリングし、生成されたデータの高品質を確保しました。

上記の方法に従って、最終的に26万の指示と応答のデータペアを取得しました。算術、代数、確率、微積分、幾何学など、幅広いコア数学分野をカバーし、CoTとPoTの基本原理を混合し、複数の言語と複数の難易度のデータを提供しており、データセットの高品質と独自性を証明するのに十分です。

トレーニング手順

研究者らは、MathInstruct のすべてのサブセットを統合し、命令データセットの構造を Alpaca モデルの形式に標準化しました。これにより、モデルは元のデータセットの形式を考慮する必要がなくなり、微調整段階でデータを均一に処理できるようになります。

研究者らはオープンソースモデルのLlama-2とCode Llamaをベースモデルとして選択し、7B、13B、34B、70Bサイズのモデルで微調整しました。

実験セクション

評価データセット

研究者たちは、モデルの一般的な数学的推論能力を評価するために、さまざまな数学分野からサンプルを選択しました。

ドメイン内のデータセットには、GSM8K、MATH、AQuA-RAT、NumGLUE が含まれ、ドメイン外のデータセットには、SVAMP、Mathematics、SimulEq、SAT-Math、SimulEq が含まれ、小学校、高校、大学レベルの数学の問題をカバーしています。一部のデータセットには、形式論理や常識推論も含まれています。

質問の種類には、自由回答形式の質問と複数選択形式の質問があります。自由回答形式の質問 (GSM8K や数学など) は、ほとんどの質問がプログラムで解決できるため、PoT を使用してデコードされます。複数選択形式の質問 (AQuA や MMLU など) は、CoT を使用してデコードされます。

CoT デコードにはトリガーワードは必要ありませんが、PoT には「問題を解決するプログラムを作成しましょう」というトリガーフレーズが必要です。

実験結果

一般的に、MAmmoTH と MAmmoTH-Coder はさまざまなモデル サイズで SoTA モデルよりも優れており、ドメイン外 (OOD) データセットのゲインはドメイン内 (IND) データセットのゲインよりも大幅に優れているため、数学的ジェネラリスト モデルとしてのモデルの潜在能力が実証されています。いくつかのデータセットでは、MAmmoTH-Coder-34B と MAmmoTH-70B はクローズド ソース モデルを上回っています。

ドメイン内データの評価では、MAmmoTH モデルの主な競合相手は WizardMath と Platypus です。WizardMath のトレーニング深度は GSM8K および MATH データセットに依存し、Platypus はより広範囲のテキストおよび数学的推論データセットで LLM を微調整します。

対照的に、MAmmoTH は全体的な改善を達成し、複雑な数学の問題を解くのに優れており、WizardMath と比較して最大 25% の向上が見られます (MATH データの sota)

領域外データの評価では、主な競合モデルは依然として Platypus ですが、MAmmoTH は領域内データよりも高いパフォーマンスを達成でき、未知の数学的問題に対する一般的な能力を実証しています。

特に、MAmmoTH-7B は、トレーニング データセットでカバーされていない多数のトピックを含む MMLU-Math における WizardMath-7B の CoT パフォーマンスを 9% 大幅に向上させます。

異なるベースモデルの比較

Code-Llama をベースモデルとして使用すると、特にドメイン外のデータセットでは、常に Llama-2 よりも優れていることがわかります。両者のパフォーマンスの差は 5% にも達します。ドメイン外のデータセットでの MAmmoTH-Coder (34B) の平均パフォーマンスは、実際には MAmmoTH (70B) よりも高くなっています。

研究者たちは、MAmmoTH-Coder は Code-Llama の継続的なコード トレーニングから大きな恩恵を受けており、PoT 機能が強化されただけでなく、Llama の一般的な推論スキルも向上したと考えています。

<<:  AI革命はネットゼロデータセンターを終わらせるか?

>>:  人工知能によりデータセンターの設計が再考される

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ChatGPTスーパープラグインをテスト済み: 経験ゼロでも5分でゲームを開発

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能業界の最新の開発動向を1つの記事で理解する

[[418444]]現在、新世代の人工知能に代表される科学・産業革命が起こりつつあります。デジタル化...

LoraHubはレゴのように組み立てることができ、LoRAのモジュール特性を探索することができます。

低ランク適応 (LoRA) は、基本的な LLM が特定のタスクに効率的に適応できるようにする、一般...

デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

高画質を追求する時代において、低画質に対する許容度はますます低くなっています。 Zhihuで「低解像...

...

もう読み間違えないでください!人工知能と人間の知能の違いを理解する

人工知能が賢くなるにつれて、人類を絶滅させるだろうという主張が次々と現れています。実際、多くの有力者...

YOLOプロジェクト復活!マスターが後を継ぎ、YOLOの父が2か月間引退し、v4バージョンが正式にリリースされました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

見て!今、あなたの前で踊っているのは 4 人の若い女性です。ショート動画プラットフォームで何人かのキ...

知っておくべき人工知能アルゴリズム トップ 10

人工知能 (AI) 技術の人気が高まるにつれ、さまざまなアルゴリズムがこの分野の発展を促進する上で重...

Forbes: 14 人の技術専門家が、将来 AI によって混乱が生じる業界を予測しています。

AI の恩恵を受ける業界はどれでしょうか?人工知能と機械学習はすでにさまざまな業界に導入されており...

GoogleのAIチップのアップグレード:大規模モデルと生成AIをターゲットとし、主流のディープラーニングフレームワークを統合

Google は、AI を使用して最適化された新世代の人工知能とインフラストラクチャの開発をリードす...

年末総括:2020 年の人工知能の注目イベント一覧

スマート製造ネットワークニュース:2020年、「人工知能」は産業発展における高頻度のホットワードとな...

メンガー: 大規模分散強化学習アーキテクチャ

過去 10 年間で、強化学習 (RL) は機械学習で最も人気のある研究分野の 1 つになりました。R...

ニューヨーク州が顔認識を「禁止」する法律を制定。なぜキャンパス内で AI が頻繁に「失敗」するのか?

アメリカは顔認識技術と全面的に戦っている。米ニューヨーク州は最近、2022年まで学校での顔認識やその...