GPT-4 コードインタープリターのベンチマーク! CUHKはモデルに数学の問題を解くコードを書かせ、そのスコアはGPT-4を上回る

GPT-4 コードインタープリターのベンチマーク! CUHKはモデルに数学の問題を解くコードを書かせ、そのスコアはGPT-4を上回る

GPT-4 コードインタープリターをベンチマークし、CUHK の最新の研究では「大きな動き」が発表されました。

彼らは、競技レベルの「問題バンク」である「Math」において、数学的能力が GPT-4 を直接上回る MathCoder と呼ばれる大規模なモデルを開発しました。

△画像がアルパカなのは、MathCoderの基礎モデルがアルパカ科のものだからです。

これは、コードをシームレスに統合する機能によって実現されます。

数学の問題に遭遇した場合、自然言語推論を使用するだけでなく、コードを自動的に記述して実行し、モデル化して数式や方程式を導出することもできます。

これは確かに強力な GPT-4 コード インタープリターと同じように動作します。

実際の評価では、MathCoderはGPT-4を上回っただけでなく、MATHとGSM8Kの2つの主要なデータセットでオープンソースLLMのSOTAを達成することに成功しました( 8月にリリースされたばかりのWizardMathを上回りました)。

この「新しい王」はどのようにして誕生したのでしょうか?

GPT-4 コードインタープリターのベンチマーク

一般的に、大規模モデルの数学的推論能力を向上させるために、HKU によるこの研究では、GPT-4 コードインタープリターの利点と動作原理を研究し、オープンソース言語モデルを微調整する方法を提案しました。

このアプローチにより、最終的には大規模なモデルをコードとシームレスに統合し、コードを使用して数学的な問題を解決できるようになります。

具体的には、彼らはまず、高品質の数学の問題を生成できるデータセット「MathCodeInstruct」を提案しました。

データセットは次の 2 つの部分で構成されています。

シードデータD0 :主にGSM8KとMATHをベースに、GPT-4を使用して回答を収集します。

補間データ(D1) : GPT-4 が提案した「質問補間プロンプト」と呼ばれる方法に基づいてデータを生成します。

次の図に示すように:

例 1 と 2 はそれぞれ GSM8K と MATH から取得されています。例 1 は単純ですが、例 2 はより困難です。GPT-4 が行う必要がある「補間」は、例 1 よりも困難ですが、例 2 よりも単純な新しい問題を生成することです。

上記の 2 種類の問題に基づいて、MathCodeInstruct データ セットには最終的に合計 80,000 個の数学問題が収集されました。

下の表が示すように、これは業界の他のデータセットよりもわずかに小さいです。

他のデータセットと比較すると、GSM8K と MATH という 2 つの重要なデータセットの欠点を補い、より幅広い難易度の問題をいくつか提供することで、データセットの一般化能力を高めていることが特徴の 1 つです。

2 つ目の特徴は、データセット内の各質問に、自然言語推論ベースの部分とコードベースの解決部分(実行コードとコード出力結果を含む)の両方が含まれていることです。

下の図に示すように、これは上記の GPT-4 によって生成された「補間」問題に対する解決策です。

データセットが準備された後、チームはカスタマイズされた教師あり微調整および推論方法を提案し、最終的に Llama-2 と Code Llama 上で MathCoder を微調整しました

具体的には、この方法では、特別なトークン(<|text|>、<|code|>、<|execution|>)を使用して、トレーニング データセットのどの部分が自然言語、コード、または結果であるかを識別し、モデルがこれらの特別なタグで区切られた自然言語とコードを生成することを学習できるようにします。

推論中、この方法は動的実行の結果をモデルの以前の予測に追加します。

次に、この新しいバージョンの入力に基づいて、次のトークンと最終的な実行結果を自己回帰的に予測し続けます。

このようにして、モデルは実行結果を「確認」し、何度も推論を続けることができるようになると著者らは述べている。

最終的に、このアプローチにより、微調整されたモデル MathCoder は GPT-4 コード インタープリターと同様の方法で動作できるようになります。

評価では、MathCoder は MATH データセットと GSM8K データセットでそれぞれ 45.2% と 83.9% という良好なスコアを達成しました。

この結果は次のことを証明します:

まず、ChatGPT-3.5やPaLM-2など9つのクローズドソースモデルを上回り、主に数学競技問題で構成されたMATHセットではGPT-4を上回りました。

2 つ目は、数学分野で最強のオープンソース モデルである WizardMath を打ち負かし、新たなオープンソースのベスト モデルとなったことです。

しかし、3 番目に、MathCoder は模倣はしたものの、上回っていません。これら 2 つのデータ セットでは、MathCoder はGPT-4 コード インタープリターとまだ一定のパフォーマンス ギャップがあります(69.7% と 97% の高スコア)

著者について

この研究には 10 人の著者がおり、そのうち 2 人は香港城市大学から、残りは香港中文大学からである。

共同筆頭著者は、Ke Wang、Houxing Ren、Aojun Zhou、Zimu Lu、Sichun Luo、Weikang Shi の 6 名です。

責任著者は、上海人工知能研究所にも勤務する香港中文大学の電子工学科准教授、李紅生氏です。

論文アドレス: https://arxiv.org/abs/2310.03731

<<:  強化学習の父がAGIスタートアップ業界に参入!伝説のプログラマー、カーマックと力を合わせ、彼らは大規模なモデルに頼らないことを誓った

>>:  何百万人ものネットユーザーがDALL-E 3の新しいゲームプレイを視聴しました!アイアンマンとテスラはどれも「ヒット」、強迫性障害に優しい、ブロガーがヒントを共有

ブログ    
ブログ    

推薦する

SQL Server の時間アルゴリズム

以下の記事では、SQL Server の時間間隔の計算に関する問題をまとめています。SQL Serv...

人工知能は諜報機関の「大物」になると期待されている

諜報活動は私たちが想像するよりもはるかに退屈で複雑です。現在、米国の諜報機関は、手作業に代わる人工知...

人工知能が爆発的に進化しています。この「鉄の飯碗」を手に入れるための新しいガイドをぜひ保存してください!

近年の人工知能の発展スピードは驚異的で、あらゆる分野で専門的なAIが登場しています。上海では以前、無...

中国のAIを活用した教育の探求

教室に人工知能機器を導入することは、「スマート教育」の重要な形態の一つです。江蘇省宿遷市泗洪県第一実...

AI開発と倫理におけるリアリズムの役割

人工知能(AI)は、最初のコンピュータが発明されて以来、長い道のりを歩んできました。今日、人工知能は...

企業が人工知能を活用してサービスをパーソナライズする方法

パーソナライズされたサービスが大きなメリットをもたらすことは間違いありません。うまく行けば、投資収益...

人工知能はチェスをプレイする以外に何をすべきでしょうか?

[[183486]]医療、金融、交通、教育、公安、小売、商業サービスなどの業界は、電子データの度合...

肖陽華:数千の産業に対応する大規模モデルに向けて

現在、私たちは大型モデル技術と産業発展の中期思考段階にあります。この段階は、広範囲かつ深い注目を集め...

...

CTO は、企業開発のさまざまな段階で知的財産権の対応する全体像をどのように確立できるでしょうか?

最近、新しい「特許法」の全文が公布され、新たに改正された「著作権法」が公布されたことにより、国は知的...

ブラックボックスモデルを突破せよ! MITの中国人博士がモデル解釈のための新しいツールExSumをリリース

近年の人工知能の急速な発展は主にニューラルネットワークモデルによるものですが、モデルが大規模かつ複雑...

機械学習エンジニアは職を失いつつあるが、学習が唯一の解決策であることに変わりはない

[[335970]]ビッグデータダイジェスト制作出典: medium編集者: Hippo採用は凍結さ...

...

Javaは一般的な組み合わせアルゴリズムを実装する

Java は一般的な組み合わせアルゴリズムを実装しています。{31311133,33113330} ...

2022 年のビジネス インテリジェンスの 7 つのトレンド

ビジネス インテリジェンスは AI に置き換えられることはありません。BI は今でも存在し、役立って...