MetaMath: 逆思考で大規模モデルをトレーニングする新しい数学的推論言語モデル

MetaMath: 逆思考で大規模モデルをトレーニングする新しい数学的推論言語モデル

複雑な数学的推論は、大規模言語モデルの推論能力を評価するための重要な指標です。現在、一般的に使用されている数学的推論データセットはサンプルサイズが限られており、問題の多様性が不十分であるため、大規模言語モデルでは「逆転の呪い」という現象が発生します。つまり、「AはB」でトレーニングされた言語モデルは、「BはA」に一般化できません[1]。数学的推論タスクにおけるこの現象の具体的な形態は、数学的問題が与えられた場合、言語モデルは前向き推論を使用して問題を解決するのが得意であるが、逆向き推論を使用して問題を解決する能力が欠けているという点です。次の 2 つの例に示すように、逆推論は数学の問題では非常に一般的です。

1. 典型的な問題 - 鶏とウサギを同じケージに入れる

  • 前向き推論: ケージの中に 23 羽の鶏と 12 匹のウサギがいます。ケージの中に頭と足はいくつありますか?
  • 逆の推論: ケージの中に数羽の鶏とウサギがいます。上から数えると頭の数は 35 個、下から数えると足の数は 94 個です。ケージの中には鶏とウサギが何匹いますか?

2. GSM8Kの問題

  • 前向き推論: ジェームズは 4 ポンドの牛肉を 5 パック購入しました。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか?
  • 逆の推論: ジェームズは 4 ポンドの牛肉を x パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか? 上記の質問の答えが 110 であることがわかっている場合、未知の変数 x の値はいくらですか?

モデルの順方向および逆方向の推論機能を改善するために、ケンブリッジ大学、香港科技大学、ファーウェイの研究者は、一般的に使用されている 2 つの数学データセット (GSM8K と MATH) に基づいて、広範囲に及ぶ高品質の数学推論データセットである MetaMathQA データセットを提案しました。 MetaMathQA は、大規模な言語モデルによって生成された 395,000 個の順方向-逆方向の数学の質問と回答のペアで構成されています。彼らは、MetaMathQA データセット上で LLaMA-2 を微調整して、数学的推論 (順方向および逆方向) に焦点を当てた大規模言語モデル MetaMath を取得し、数学的推論データセットで SOTA を達成しました。 MetaMathQA データセットとさまざまなサイズの MetaMath モデルが、研究者が使用できるようにオープンソース化されています。

  • プロジェクトアドレス: https://meta-math.github.io/
  • 論文アドレス: https://arxiv.org/abs/2309.12284
  • データアドレス: https://huggingface.co/datasets/meta-math/MetaMathQA
  • モデルアドレス: https://huggingface.co/meta-math
  • コードアドレス: https://github.com/meta-math/MetaMath

本論文では、逆推論データセット GSM8K-Backward を構築します。実験結果によると、現在の方法 (SFT、RFT、WizardMath など) は、逆推論問題では前向き推論よりもはるかにパフォーマンスが悪いことがわかりました。比較すると、MetaMath モデルは、前向き推論と後ろ向き推論の両方で優れたパフォーマンスを実現します。

方法

MetaMathQA には 4 つのデータ拡張方法が含まれています。

1. 回答の拡張:質問が与えられると、正しい答えにつながる思考の連鎖が、大規模な言語モデルを通じてデータ拡張として生成されます。

  • 質問: ジェームズは 4 ポンドの牛肉を 5 パック購入しました。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか?
  • 答え: ジェームズは 4 ポンドの牛肉を 5 パック購入したので、合計 5 * 4 = 20 ポンドの牛肉を購入しました。牛肉の価格は 1 ポンドあたり 5.50 ドルなので、20 * 5.50 ドル = 110 ドルを支払います。答えは 110 です。

2. 質問の言い換え:メタ質問を与えられたら、大規模な言語モデルを通じて質問を書き直し、データ拡張として正しい答えにつながる一連の思考を生成します。

  • 質問: ジェームズが 1 ポンドあたり 5.50 ドルの価格で、それぞれ 4 ポンドの牛肉 5 パックを購入したとき支払った合計金額はいくらですか。
  • 答え: 牛肉 1 パックの重さは 4 ポンドなので、5 パックの重さは合計で 4 * 5 = 20 ポンドになります。牛肉 1 ポンドあたりの価格は 5.50 ドルなので、20 ポンドの合計コストは 20 * 5.50 ドル = 110 ドルです。したがって、ジェームズは合計 110 ドルを支払いました。答えは 110 です。

3. FOBAR 質問 (FOBAR 拡張逆質問):メタ質問が与えられた場合、条件内の数値を x にマスクし、元の回答が与えられて x を推論することで逆質問を生成し、逆質問に基づいて正しい思考プロセスの連鎖を生成してデータ拡張を実行します (逆の例:「上記の質問の回答が 110 であることがわかっている場合、未知の変数 x の値は何ですか?」)。

  • 質問: ジェームズは 4 ポンドの牛肉を x パック購入しました。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか? 上記の質問の答えが 110 であることがわかっている場合、未知の変数 x の値はいくらですか?
  • 答え: ジェームズは 4 ポンドの牛肉を x パック購入します。つまり、合計 4x ポンドの牛肉を購入したことになります。牛肉の価格は 1 ポンドあたり 5.50 ドルなので、牛肉の合計コストは 5.50 * 4x = 22x です。合計コストは 110 ドルなので、22x = 110 と書きます。両辺を 22 で割ると、x = 5 になります。x の値は 5 です。

4. 自己検証質問(自己検証逆質問の強化): FOBAR に基づいて、逆質問部分を大規模言語モデルを通じて文として書き換え、データ拡張を実行します(書き換え例:「彼はいくら支払いましたか?」(答えは 110)は「彼は 110 を支払いました」と書き換えられます)。

  • 質問: ジェームズは 4 ポンドの牛肉を x パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼は 110 ドルを支払いました。未知の変数 x の値はいくらですか?
  • 回答: この問題を解くには、ジェームズが購入した牛肉パックの数を表す x の値を決定する必要があります。牛肉 1 パックの重量は 4 ポンドで、1 ポンドあたりの価格は 5.50 ドルです。ジェームズが支払った合計金額は 110 ドルです。方程式は次のように設定できます。牛肉パックの数 * パックあたりの重量 * 1 ポンドあたりの価格 = 支払った合計金額。x * 4 * 5.50 ドル = 110 ドル。単純化して x について解きます。4x * 5.50 ドル = 110 ドル。22x = 110 ドル。x を分離するには、方程式の両辺を 22 で割ります。22x / 22 = 110 ドル / 22。x = 5 ドル。x の値は 5 です。

実験結果

2 つの一般的な数学的推論データセット (GSM8K と MATH) に関する実験結果によると、外部ツール (コード インタープリターなど) の助けを借りなくても、MetaMath は既存のオープン ソース LLM モデルよりも大幅に優れていることが示されています。その中で、当社の MetaMath-7B モデルは、GSM8K で 66.5%、MATH で 19.8% の精度を達成し、同じ規模の最先端モデルをそれぞれ 11.6% と 9.1% 上回っています。特に、MetaMath-70B は GSM8K で 82.3% の精度を達成し、GPT-3.5-Turbo を上回ります。

表面的アライメント仮説[2]によれば、大規模言語モデルの機能は事前トレーニングから得られ、下流タスクからのデータは事前​​トレーニング中に学習された言語モデルの固有の機能を活性化します。このことから、2 つの重要な疑問が生じます。(i) どのような種類のデータが潜在的知識を最も効果的に活性化できるか、(ii) なぜそのような活性化において 1 つのデータセットが他のデータセットよりも優れているのか、ということです。

MetaMathQA が便利なのはなぜですか?思考連鎖データ(Perplexity)の品質を向上

上の図に示すように、研究者は、回答のみのデータ、GSM8K CoT、およびMetaMathQAデータのさまざまな部分に対して、LLaMA-2-7Bモデルの困惑度を計算しました。 MetaMathQA の各部分の困惑度は他の 2 つのデータセットよりも大幅に低く、これはその固有の学習可能性を強調しており、モデルの潜在的な知識を引き出すのにさらに役立つ可能性があります。

MetaMathQA が便利なのはなぜですか?思考連鎖データの多様性の向上

データの多様性ゲインとモデルの精度ゲインを比較すると、Rephrasing、FOBAR、SV は明らかな多様性ゲインをもたらし、同じ量の拡張データを追加することでモデルの精度を大幅に向上させることがわかりました。対照的に、回答の拡張を単純に使用すると、精度が大幅に飽和します。精度が飽和した後は、AnsAug データを追加してもパフォーマンスの向上は限定的になります。

<<:  清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

>>: 

推薦する

マルチモーダル生体認証の利点は何ですか?

マルチモーダル生体認証とは何ですか? マルチモーダル生体認証は、さまざまなシナリオやセキュリティ レ...

...

...

ロボット犬の悩み:ネットセレブの研修生になるのは簡単だが、ビジネスの研修生になるのは難しい

ニュージーランドの広大な草原で、羊の群れがのんびりと散歩しながら草を食べており、その後ろを牧羊犬が追...

フランスのヒューマノイド ロボット Reachy は、オープン ソース + モジュール式で、最も複雑な Raspberry Pi ロボットの 1 つです。

Raspberry Pi は、小さなおもちゃの車から産業用ロボットアームに至るまで、あらゆるものに...

AIビッグモデルは今後も拡大し続けるのか?

人工知能は現在、ビジネスと金融のあらゆる側面に急速に導入されています。いくつかの刺激的な成功により、...

7つの主要カテゴリ、40を超える主要概念、機械学習を始める際に習得する必要があるすべての概念がここにあります

勉強すると、学んだことを忘れてしまい、忘れた後にまた学ぶという悪循環に陥ってしまう、そんな気持ちにな...

...

チューリング賞受賞者たちは口論。ルカン氏:ベンジオ氏、ヒントン氏らのAI絶滅理論はばかげている

AIのリスクの問題に関しては、さまざまな有力者がさまざまな意見を持っています。 AI研究室に研究を即...

[オピニオン] アルゴリズムとテクノロジーが成熟すれば、新しい小売業は本当に素晴らしい時代を迎えることになる

2007年、サンフランシスコのモスコーニセンターで開催されたMacWorldカンファレンスで、スティ...

...

Google の 15 のオープンソース無料人工知能プロジェクト!開発者: 了解しました

開発者は人工知能に関するオープンソース プロジェクトを数多く目にしてきたと思いますし、Github ...

...

中間レビュー: 2020 年に最も注目されたデータ サイエンスと機械学習のスタートアップ 10 社

企業がビッグデータを活用するには、データ サイエンティストと開発者がデータを準備して整理し、アナリス...