34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

数学的推論は言語モデルが避けることのできない問題点です。さまざまなブラックテクノロジーのサポートがあっても、オープンソースモデルの推論パフォーマンスはまだ十分ではありません。

最近、ウォータールー大学、オハイオ州立大学、香港科技大学、エディンバラ大学の研究者らが共同で、「一般的な数学の問題」向けにカスタマイズされた大規模モデル MAmmoTH と、命令調整データセット MathInstruct をリリースしました。

論文リンク: https://arxiv.org/pdf/2309.05653.pdf

プロジェクトリンク: https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct は、13 の中級原理の数学データセットからコンパイルされており、そのうち 6 つは新しいもので、Chains of Thought (CoT) と Procedures of Thought (PoT) を組み合わせて、幅広い数学の領域をカバーしています。

CoT と PoT のハイブリッドは、ツール使用の可能性を解き放つだけでなく、モデルがさまざまな数学的問題に対してさまざまな思考プロセスを経ることも可能にします。

その結果、MAmmoTH ファミリーは、あらゆる規模の 9 つの数学的推論データセットにおいて既存のオープンソース モデルを大幅に上回り、平均精度が 12% ~ 29% 向上しました。

その中で、MAmmoTH-7BモデルはMATH(競技レベルのデータセット)で35%の精度を達成し、オープンソースの7Bモデル(WizardMath)の最高値を25%上回りました。MAmmoTH-34BモデルはMATHで46%の精度を達成し、GPT-4のCoT結果も上回りました。

数学的推論の新たな王者:MAmmoTH

数学的推論タスクでは、オープンソースとクローズドソースの大規模言語モデル (LLM) の間には大きなパフォーマンスの差があります。現在、ベンチマーク データセットの sota は、GPT-4、PaLM-2、Claude などのクローズドソース モデルのままであり、Llama、Falcon、OPT などの他のオープンソース モデルは、まだ大きく遅れをとっています。

パフォーマンスのギャップを埋めるために、主に 2 つの研究アプローチがあります。

1. GalacticaやMINERVAなどのモデルは、数学的ネットワークデータを引き続き使用して言語モデルをトレーニングし、モデルの一般的な科学的推論能力を向上させることができますが、計算コストは​​高くなります。

2. たとえば、Rejection Sampling Fine-tuning (RFT) と WizardMath は、ドメイン固有のデータセットを使用してモデルを微調整します。これにより、ドメイン内のパフォーマンスは向上しますが、より広範囲の数学的推論タスクには適用できません。

数学の問題を解く場合、既存の方法では通常、Chain of Thought (CoT) メソッドを使用して言語モデルをガイドし、自然言語の記述を使用して数学の問題を段階的に解決します。

一般的にほとんどの数学的なトピックでは優れたパフォーマンスを発揮しますが、正確または複雑な数学的計算やアルゴリズムによる推論を必要とする問題 (二次方程式の根を解く、行列の固有値を計算するなど) ではパフォーマンスが低下します。

対照的に、Program-of-Thought (PoT) アプローチと PAL は、外部ツール (Python インタープリターなど) を活用して、計算プロセスを外部 Python インタープリターにオフロードし、複雑な数学的およびアルゴリズム的推論プロセス (例: sympy で二次方程式を解く、numpy で行列の固有値を計算する) を解決することで、数学的解決プロセスを大幅に簡素化します。

しかし、PoT は、特に組み込み API がない場合、より抽象的な推論シナリオを処理するのに欠けており、常識的な推論、形式論理、抽象代数ではさらに不十分です。

方法の概要

研究者の目標は、数学の指導を調整するための高品質で多様なデータセットのリストをまとめることだった。

1. さまざまな数学の分野と複雑さをカバーする

より包括的なデータ セットにより、モデルをさまざまな数学的知識にさらすことができ、モデルの汎用性を高めることができます。

研究者らは、GSM8K、math、AQuA、Camel、TheoremQA など、広く採用されている高品質のデータセットに選択範囲を絞り込みました。

また、既存のデータセットには抽象代数や形式論理などの大学レベルの数学知識が欠けていることにも留意してください。そのため、研究者は、インターネット上で見つかったいくつかのシード例を使用して、自己指導を通じて質問とCoTのデータペアを作成し、GPT-4を使用してTheoremQAの問題における思考の連鎖(CoT)原理を合成することを選択しました。

2. ハイブリッド CoT と PoT

既存の研究方法のほとんどは CoT のみに焦点を当てており、データセットには限られた問題解決のアイデアしか含まれていないため、CoT と PoT の間でデータ量が非常に不均衡になっています。

この問題を解決するために、研究者らは GPT-4 を使用して、選択したデータセットの PoT 問題解決のアイデアを補完し、合成プログラムの実行結果と手動で注釈が付けられた回答を比較してフィルタリングし、生成されたデータの高品質を確保しました。

上記の方法に従って、最終的に26万の指示と応答のデータペアを取得しました。算術、代数、確率、微積分、幾何学など、幅広いコア数学分野をカバーし、CoTとPoTの基本原理を混合し、複数の言語と複数の難易度のデータを提供しており、データセットの高品質と独自性を証明するのに十分です。

トレーニング手順

研究者らは、MathInstruct のすべてのサブセットを統合し、命令データセットの構造を Alpaca モデルの形式に標準化しました。これにより、モデルは元のデータセットの形式を考慮する必要がなくなり、微調整段階でデータを均一に処理できるようになります。

研究者らはオープンソースモデルのLlama-2とCode Llamaをベースモデルとして選択し、7B、13B、34B、70Bサイズのモデルで微調整しました。

実験セクション

評価データセット

研究者たちは、モデルの一般的な数学的推論能力を評価するために、さまざまな数学分野からサンプルを選択しました。

ドメイン内のデータセットには、GSM8K、MATH、AQuA-RAT、NumGLUE が含まれ、ドメイン外のデータセットには、SVAMP、Mathematics、SimulEq、SAT-Math、SimulEq が含まれ、小学校、高校、大学レベルの数学の問題をカバーしています。一部のデータセットには、形式論理や常識推論も含まれています。

質問の種類には、自由回答形式の質問と複数選択形式の質問があります。自由回答形式の質問 (GSM8K や数学など) は、ほとんどの質問がプログラムで解決できるため、PoT を使用してデコードされます。複数選択形式の質問 (AQuA や MMLU など) は、CoT を使用してデコードされます。

CoT デコードにはトリガーワードは必要ありませんが、PoT には「問題を解決するプログラムを作成しましょう」というトリガーフレーズが必要です。

実験結果

一般的に、MAmmoTH と MAmmoTH-Coder はさまざまなモデル サイズで SoTA モデルよりも優れており、ドメイン外 (OOD) データセットのゲインはドメイン内 (IND) データセットのゲインよりも大幅に優れているため、数学的ジェネラリスト モデルとしてのモデルの潜在能力が実証されています。いくつかのデータセットでは、MAmmoTH-Coder-34B と MAmmoTH-70B はクローズド ソース モデルを上回っています。

ドメイン内データの評価では、MAmmoTH モデルの主な競合相手は WizardMath と Platypus です。WizardMath のトレーニング深度は GSM8K および MATH データセットに依存し、Platypus はより広範囲のテキストおよび数学的推論データセットで LLM を微調整します。

対照的に、MAmmoTH は全体的な改善を達成し、複雑な数学の問題を解くのに優れており、WizardMath と比較して最大 25% の向上が見られます (MATH データの sota)

領域外データの評価では、主な競合モデルは依然として Platypus ですが、MAmmoTH は領域内データよりも高いパフォーマンスを達成でき、未知の数学的問題に対する一般的な能力を実証しています。

特に、MAmmoTH-7B は、トレーニング データセットでカバーされていない多数のトピックを含む MMLU-Math における WizardMath-7B の CoT パフォーマンスを 9% 大幅に向上させます。

異なるベースモデルの比較

Code-Llama をベースモデルとして使用すると、特にドメイン外のデータセットでは、常に Llama-2 よりも優れていることがわかります。両者のパフォーマンスの差は 5% にも達します。ドメイン外のデータセットでの MAmmoTH-Coder (34B) の平均パフォーマンスは、実際には MAmmoTH (70B) よりも高くなっています。

研究者たちは、MAmmoTH-Coder は Code-Llama の継続的なコード トレーニングから大きな恩恵を受けており、PoT 機能が強化されただけでなく、Llama の一般的な推論スキルも向上したと考えています。

<<:  AI革命はネットゼロデータセンターを終わらせるか?

>>:  人工知能によりデータセンターの設計が再考される

ブログ    
ブログ    

推薦する

人工知能は、電力網とユビキタス電力のIoTの構築と開発にとって重要な方向性となるだろう

[[285204]]現在、モバイルインターネット、ビッグデータ、スーパーコンピューティングなどの新し...

...

ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

2020年、カリフォルニア大学バークレー校、Google、カリフォルニア大学サンディエゴ校の研究者...

AIを慎重に導入するためのベストプラクティス

人工知能を正しく使用するために、いくつかの提案があります。人工知能を実際に使用する際にこれらの提案を...

...

AI、自動化、仕事の未来、そして注目と解決が必要な問題

職場で機械が人間の労働力を補うようになるにつれ、私たち全員がその恩恵を受けるために適応する必要があり...

...

ニューラルネットワークにおける量子化と蒸留

この記事では、ディープラーニングにおけるモデルを合理化する技術、量子化と蒸留について詳しく説明します...

顔認識アクセス制御システムの登場により、私たちのプライバシーを誰が守るのでしょうか?

最近は「顔カード」、つまり「顔を売る」という言葉をよく耳にしますが、あなたの「顔」が身分証明書や電話...

遠隔管理+早期警告人工知能が危険物輸送の安全性を向上

2017年7月、国務院は「新世代人工知能開発計画」を発表し、人工知能が国家戦略の重要なツールとなって...

あなたのバイオテクノロジー研究は影響力がありますか? MITの機械学習フレームワークは期待できる

[[400942]]研究者にとって最も嬉しいことは、論文が「受理」されることです。論文が出版された後...

変化する生活: テクノロジーと私たちの未来

私たちがテクノロジーによってますます、そして不可逆的に動かされている世界に生きていることは疑いの余地...

自動運転業界は2021年に爆発的な成長を遂げるでしょうか?

2020年は自動運転業界が徐々に安定する年だ。ウェイモなどの巨大企業が商業化の模索を開始し、テスラ...

人工知能が VPS と共有ホスティング オプションの議論を再構築

人工知能は数え切れないほど多くの業界を前例のない形で変えています。ウェブホスティングは人工知能が関与...

モノのインターネット(IoT)がビジネスに活力を与える:5つのビジネス事例が示すもの

モノのインターネットはさまざまな分野に浸透しており、その魅力と需要は徐々に高まっています。このテクノ...