MAmmoT により、LLM は形式論理と算術演算を学習する能力を備え、数学のジェネラリストになることができます。

数学的推論は、現代の大規模言語モデル (LLM) の重要な機能です。この分野では最近進歩が見られますが、クローズドソースとオープンソースの LLM の間には依然として明らかなギャップがあります。GPT-4、PaLM-2、Claude 2 などのクローズドソースモデルは、GSM8K や MATH などの一般的な数学的推論ベンチマークで優位に立っていますが、Llama、Falcon、OPT などのオープンソースモデルは、すべてのベンチマークで大きく遅れをとっています。

この問題に対処するために、研究コミュニティは次の 2 つの方向で取り組んでいます。

（１）GalacticaやMINERVAなどの連続事前学習法。1000億トークン以上の数学関連ネットワークデータに対してLLMを継続的に学習させることができる。このアプローチにより、モデルの一般的な科学的推論能力は向上しますが、計算コストが高くなります。

（２）特定のデータセットに対してLLMを微調整する、すなわち特定のデータセットの教師ありデータを用いてLLMを微調整する、例えばRejection Sampling Fine-tuning（RFT）やWizardMathなどの手法。これらの方法は特定の領域でのパフォーマンスを向上させることができますが、微調整データを超えて、より広範囲の数学的推論タスクに一般化することはできません。たとえば、RFT と WizardMath は、GSM8K (微調整データセットの 1 つ) では精度を 30% 以上向上させますが、MMLU-Math や AQuA などのドメイン外データセットでは精度を最大 10% 低下させます。

最近、ウォータールー大学、オハイオ州立大学、その他の機関の研究チームが、LLM の一般的な（つまり、微調整タスクに限定されない）数学的推論能力を強化するために使用できる、軽量でありながら一般化可能な数学的指導の微調整方法を提案しました。

これまでのアプローチは、段階的な自然言語記述を通じて数学の問題を解くという Chain of Thought (CoT) 法に重点を置いていました。このアプローチは非常に一般的であり、ほとんどの数学的主題をカバーできますが、計算精度と複雑な数学的またはアルゴリズム的推論手順（二次方程式の根を解く、行列の固有値を計算するなど）に関しては困難があります。

対照的に、Programs of Thought (PoT) や PAL などのコード形式のプロンプト設計方法では、外部ツール (Python インタープリターなど) を使用して数学的な解決プロセスを大幅に簡素化します。このアプローチは、複雑な数学的およびアルゴリズム的推論（sympy を使用して二次方程式を解いたり、numpy を使用して行列の固有値を計算したりするなど）を解決するために、計算プロセスを外部の Python インタープリターにオフロードすることです。ただし、PoT は、特に組み込み API がない場合、常識的推論、形式論理、抽象代数などのより抽象的な推論シナリオに対処するのが困難です。

CoT と PoT の両方の手法の長所を活かすために、チームは新しい数学ハイブリッド命令微調整データセット MathInstruct を導入しました。このデータセットには、(1) 幅広い数学分野と複雑性レベルをカバーしていること、(2) CoT と PoT の原理を組み合わせていることという 2 つの主な特徴があります。

MathInstruct は、既存の 7 つの数学原理データセットと新しくコンパイルされた 6 つのデータセットに基づいています。彼らは、MathInstruct を使用して、さまざまなサイズ (7B から 70B) の Llama モデルを微調整しました。彼らは、その結果得られたモデルを MAmmoTH モデルと呼び、MAmmoTH の機能が数学のジェネラリストのように前例のないものであることを発見しました。

MAmmoTH を評価するために、チームはドメイン内テストセット (GSM8K、MATH、AQuA-RAT、NumGLUE) とドメイン外テストセット (SVAMP、SAT、MMLU-Math、Mathematics、SimulEq) を含むさまざまな評価データセットを使用しました。

結果は、以前の方法と比較して、MAmmoTH モデルはドメイン外のデータセットに一般化しやすく、オープンソース LLM の数学的推論機能を大幅に向上できることを示しています。

注目すべきは、一般的に使用されている競技レベルの MATH データセットでは、7B バージョンの MAmmoTH モデルが WizardMath (MATH の以前の最高のオープンソースモデル) を 3.5 倍 (35.2% 対 10.7%) 上回っていることです。一方、34B MAmmoTH-Coder (Code Llama で微調整済み) は、CoT を使用して GPT-4 よりも優れたパフォーマンスを発揮します。

この研究の貢献は2つの側面にまとめることができます。(1)データエンジニアリングの観点から、さまざまな数学の問題と混合原理を含む高品質の数学指導の微調整データセットを提案しました。（2）モデリングの観点から、研究者らは、70億から700億に及ぶ50以上の新しいモデルとベースラインモデルをトレーニングおよび評価し、さまざまなデータソースと入出力形式の影響を調査しました。

結果は、MAmmoTH や MAmmoTH-Coder などの新しいモデルが、精度の点で以前のオープンソースモデルよりも大幅に優れていることを示しています。

論文: https://arxiv.org/pdf/2309.05653.pdf
コード: https://github.com/TIGER-AI-Lab/MAmmoTH
データセットとモデル: https://huggingface.co/datasets/TIGER-Lab/MathInstruct

チームは、収集したデータセットを公開し、新しい手法のコードをオープンソース化し、さまざまなサイズのトレーニング済みモデルをHugging Faceにリリースしました。

新しく提案された方法

多様な混合命令の微調整データセットをまとめる

チームの目標は、(1)さまざまな数学の領域と複雑さのレベルを幅広くカバーすること、(2)CoTとPoTの原則を組み合わせることという2つの主な特徴を持つ、高品質で多様な数学指導の微調整データセットのリストを作成することです。

最初の機能として、彼らはまず、GSM8K、MATH、AQuA、Camel、TheoremQA など、広く使用され、さまざまな数学の分野と複雑性をカバーする高品質のデータセットをいくつか選択しました。その後、彼らは既存のデータセットには抽象代数や形式論理などの大学レベルの数学が欠けていることに気づきました。この問題に対処するために、研究者たちはインターネット上で見つかった少数のシード例を使用し、GPT-4 を使用して TheoremQA の質問に対する CoT 原則を合成し、Self-Instruct を通じて「質問と CoT」のペアを作成しました。

2 番目の機能については、CoT と PoT の原則を組み合わせることでデータセットの汎用性が向上し、トレーニングされたモデルがさまざまな種類の数学的問題を解決できるようになります。しかし、既存のデータセットのほとんどは手順の原則が限られているため、CoT 原則と PoT 原則の間に不均衡が生じています。この目的のために、チームは GPT-4 を使用して、MATH、AQuA、GSM8K、TheoremQA などの選択されたデータセットの PoT 原則を補完しました。これらの GPT-4 合成プログラムは、実行結果を人間が注釈を付けたグラウンドトゥルースと比較することによってフィルタリングされ、高品質の原則のみが追加されることが保証されます。

これらのガイドラインに従って、以下の表 1 に示すように、新しいデータセット MathInstruct が作成されました。

CoTとPoTの混合原理を含む、幅広いコア数学領域（算術、代数、確率、微積分、幾何学など）をカバーする26万組の（コマンド、レスポンス）が含まれており、言語や難易度も異なります。

トレーニング設定

MathInstruct のすべてのサブセットは、Alpaca の命令データセットに似た構造に統合されています。この正規化により、元のデータセットの形式に関係なく、微調整されたモデルがデータを一貫して処理できるようになります。

ベースモデルに関しては、チームが選択したのは Llama-2 と Code Llama でした。

MathInstruct で微調整することで、7B、13B、34B、70B などのさまざまなサイズのモデルが得られました。

実験

評価データセット

モデルの数学的推論能力を評価するために、チームはいくつかの評価データセットを選択しました（下の表 2 を参照）。これらのデータセットには、複数の異なる数学分野をカバーするさまざまなドメイン内およびドメイン外のサンプルが含まれています。

この評価データセットには、小学校レベル、中学校レベル、大学レベルなど、さまざまな難易度レベルも含まれています。一部のデータセットには、形式論理や常識的推論も含まれています。

選択された評価データセットには、自由回答形式の質問と複数選択形式の質問の両方が含まれています。

オープンエンドの問題（GSM8K や MATH など）の場合、これらの問題のほとんどはプログラムで解決できるため、研究者は PoT デコードを使用しました。、

複数選択問題（AQuA や MMLU など）の場合、このデータセットのほとんどの問題は CoT でより適切に処理できるため、CoT デコードを採用しました。

CoT デコードにはトリガーワードは必要ありませんが、PoT デコードには「問題を解決するプログラムを作成しましょう」というトリガーワードが必要です。

主な結果

以下の表 3 と表 4 は、それぞれドメイン内データとドメイン外データの結果を示しています。

全体的に、MAmmoTH と MAmmoTH-Coder は、さまざまなモデルサイズで以前の最高のモデルよりも優れたパフォーマンスを発揮します。新しいモデルは、ドメイン内のデータセットよりもドメイン外のデータセットで大きなパフォーマンスの向上を実現します。これらの結果は、新しいモデルが数学的なジェネラリストになる可能性を秘めていることを示唆しています。 MAmmoTH-Coder-34B と MAmmoTH-70B は、一部のデータセットではクローズドソース LLM よりも優れたパフォーマンスを発揮します。

研究者らは、異なる基本モデルを使用して状況を比較した。具体的には、Llama-2 と Code-Llama という 2 つの基本モデルで実験を行いました。上記の 2 つの表から、特にドメイン外のデータセットでは、Code-Llama が全体的に Llama-2 よりも優れていることがわかります。 MAmmoTH と MAmmoTH-Coder の間のギャップは 5% に達することもあります。

データソースのアブレーション研究

彼らはアブレーション研究を通じてパフォーマンス向上の源を探りました。 MAmmoTH が既存のベンチマークモデルよりも優れている理由をより深く理解するために、研究者は一連の制御された実験を実施しました。その結果を以下の図 2 に示します。

要約すると、MAmmoTH の大幅なパフォーマンス上の利点は、1) さまざまな数学分野と複雑性レベルをカバーする多様なデータソース、および 2) CoT および PoT 命令を微調整するハイブリッド戦略によるものです。

彼らはまた、主要なサブセットの影響についても研究しました。 MAmmoTH のトレーニングに使用される MathInstruct のソースは多岐にわたるため、各ソースがモデルの全体的なパフォーマンスにどの程度貢献するかを理解することも重要です。彼らは、GSM8K、MATH、Camel、AQuA という 4 つの主要なサブセットに焦点を当てています。彼らは、各データセットを徐々にトレーニングに追加し、MathInstruct 全体で微調整されたモデルとパフォーマンスを比較する実験を実施しました。

表 5 の結果から、トレーニングデータセットが最初から十分に多様でない場合 (たとえば、GSM8K のみ)、全体的な一般化能力が非常に低いことがわかります。つまり、モデルは分布内のデータにのみ適合し、GSM の問題以外の質問に答えることは困難です。

これらの結果は、多様なデータソースが MAmmoTH に及ぼす重要な影響を強調しており、これが MAmmoTH を数学的なジェネラリストにするための鍵となります。これらの結果は、常に多様なデータを収集し、特定の種類のデータのみを収集しないようにするなど、将来のデータ収集と照合作業の指針となる貴重な洞察にもつながります。

<<: AIの計算能力は70年間で6億8000万倍に増加し、3つの歴史的段階でAI技術の指数関数的爆発が目撃されました。

>>: テスラのヒューマノイドロボットが再び進化：視覚のみに基づいて物体を自律的に分類し、ヨガができる