数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気:AIを使用してAIを微調整、Microsoftの中国人チームが制作

数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気:AIを使用してAIを微調整、Microsoftの中国人チームが制作

AI生成の指示を使用してAlpacaモデルを微調整すると、数学的能力はChatGPTを超える——

Microsoft の最新のオープン ソース ビッグ モデル WizardMath が登場しました。

下の図に示すように、GSM8k データセットをテストした結果、WizardMath の数学的能力は ChatGPT、Claude Instant 1、PaLM 2-540B などの多数の大規模モデルを直接上回りました。

そして、パラメータの数はわずか 700 億で、後者の 3 つよりもはるかに少ないです。

HuggingFace は、オンラインでプレイ可能な 3 つのバージョン (それぞれ 7B、13B、70B のパラメータ) をリリースしており、さまざまな数学の問題を直接投入して試すことができます。

たとえば、次の 4 次多項式方程式を解きます。

あるいは簡単な計算:

あるいは、ラグランジュ方程式を少し修正した導出は次のようになります。

すべて正しいです(プロセスにそれほど時間がかかりません)

一部のネットユーザーは著者にこう語った。

結果は本当に素晴らしいです。オープンソース LLM に貢献していただきありがとうございます。

現在、関連するコードや再現方法、論文などもオープンソース化またはオンライン化されており、GitHubではわずか数日間で4.8kのスターを獲得しています。

それで、WizardMath はどうやってそれを実現するのでしょうか?

AI生成の指示で大規模モデルの機能を強化

OpenAI の大規模モデル (InstructGPT、GPT-4 など) は、実際の人間のユーザーによって生成されたオープンドメインの指示データを使用して微調整されたこともあり、さまざまな複雑で多様なタスクの実行に大きな成功を収めています。

しかし、この会社のように誰もがこのような指示データセットにアクセスできるわけではありません。

まず、注釈付けプロセス全体は非常にコストがかかり、時間がかかります。また、難易度の高い指示を十分な割合で手動で作成することは困難です。

そのため、比較的低コストで大規模なオープンドメイン命令自動生成方法の開発が、現在の命令チューニング言語モデルの鍵となっている。

ここで、著者らは自分たちの方法を Evol Instruction と名付けました。

これは、人間に代わって AI を使用し、さまざまな難易度レベルをカバーするオープンドメインの指示を自動的に生成する新しいアプローチです。

具体的には、Evol 命令は命令進化器と命令削除器に分かれています。

命令進化器は、深い進化 (青い線) または広い進化 (赤い線) の 2 つのパスを通じて、単純な命令をより複雑な命令にアップグレードしたり、まったく新しい命令を作成したりできます。

具体的にどれを実装すべきでしょうか?ランダムに選択してください。

その中で、ディープ進化の具体的な「進化方法」は、以下の5種類の操作を通じて完成されます。

制約を追加し、深め具体化し、推論ステップを増やし、入力を複雑にします

すべての指示は AI によって完了されるため、エラーが発生する場合があります。したがって、失敗した命令を除外するために命令エリミネータが使用されます。

以下は具体的な例です。この方法は「1+1=?」から始まり、最終的には上記の手順を経てかなりの数の新しい命令を自動的に生成します。

この生成プロセスを繰り返すことで、最終的に十分な数の命令を取得し、それらをマージしてランダムにシャッフルし、難易度が均一に分布した命令セットを形成して、基本的な大規模モデルを微調整できるようになります。

ここで、著者らは、Alpaca のトレーニング データ (手動で作成された 175 個のシード命令のみで生成) を初期データセットとして選択し、ChatGPT の API を使用して 4 回の進化サイクルを実行し、最終的に 250,000 個の命令を取得しました。

Vicuna の 7 万の実際のユーザー データ (ShareGPT) と公平に比較​​するために、著者らはこれらの 25 万のデータから同量のサンプルを抽出し、LLaMA 7B モデルをトレーニングして、最終的に WizardLM を取得しました。結果は、WizardLM が Vicuna よりも大幅に優れたパフォーマンスを示したことを示しました。

(アルパカ: LLaMa-7B に基づくスタンフォードの微調整モデル、ビクーナ: LLaMa-13B に基づくカリフォルニア大学バークレー校の微調整モデル)

さらに、より複雑なテスト命令の場合、人間は ChatGPT よりも WizardLM の出力を好みます。これは、この方法により LLM の複雑な命令を処理する能力が大幅に向上することを示しています。

これを基に、著者はEvol Instructionを使用して数学分野に関連する多くの命令を生成し、その後アルパカモデルを微調整してWizardMathを取得しました。

結果は冒頭に示した通りです。GSM8kデータセットで測定されたその数学的能力は、ChatGPT、Claude Instant 1、PaLM 2-540Bなど、多くの大規模モデルを上回り、5400億のパラメータを持つGPT-4、Claud1.3と2.0、Flan-PaLM 2に次ぐ5位にランクされています。

類推により、筆者はアルパカに加えてコーディングスキルに特化したWizardCoderも取得し、その効果はClaudeやBardを上回りました(詳細は記事末尾のアドレスをクリックしてください)。

チームについて

この記事には 9 人の著者がいますが、全員が中国人です。

第一著者は3名です。

Can Xu 氏は、Microsoft Asia Internet Engineering Institute の S+D NLP グループの上級応用科学者です。以前は、Microsoft XiaoIce Research Group および Microsoft Asia Research Institute でチャットボット システムに携わっていました。

Microsoft Research の科学者であるQingfeng Sun は、自然言語処理と情報検索に重点を置いています。彼は効率的な検索システムの構築に精通しており、Microsoft Bing と Office 365 にコア ディープ モデルを提供してきました。

Kai Zheng は、Microsoft Research の科学者です。彼の研究対象は、自然言語処理、検索、推奨ランキングなどです。また、Microsoft Bing と Office 365 のコア ディープ モデルにも貢献しています。

責任著者は、マイクロソフトのグローバルパートナー、副社長、元マイクロソフトリサーチアジアの主任科学者である江大新氏です。同氏はマイクロソフトで16年以上勤務し、かつてはマイクロソフトのBing検索エンジンやCortanaスマートアシスタントの自然言語理解部門の責任者を務めていました。同氏が大手モデル事業を立ち上げるために辞職したことが最近明らかになりました。

もう一人の著者は北京大学の学生である Jiazhan Feng です。この共著論文は、彼が Microsoft でインターンシップをしていたときに作成されました。

プロジェクトのホームページ: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath。

論文アドレス: https://arxiv.org/abs/2304.12244 (WizardLM) https://arxiv.org/abs/2306.08568 (WizardCoder)。

<<:  年間5億ドルの損失で、OpenAIは2024年に破産するのでしょうか?アルタマン、GPU不足を明らかに、優秀な人材が退社

>>:  AIツール:音楽から生成される画像の未来を探り、

ブログ    
ブログ    
ブログ    

推薦する

李蘭娟氏との対話:人工知能は流行病を「すべて捕捉」し、医療をより正確にする

[[353851]] 「新型コロナウイルス感染症の突然の発生は、厳しい課題、不確実性、状況の進展の複...

...

...

データアーキテクチャはAIと医療の未来を推進する上で重要

COVID-19パンデミックは、医学的発見のスピードの重要性だけでなく、その加速を支援するデータサイ...

量子畳み込みネットワークにおける「不毛のプラトー」現象が解決され、新たな研究により量子AIの大きな問題が克服された

量子コンピュータの出現は、コンピュータ分野に多くの進歩をもたらしました。量子コンピュータ上で実行され...

...

...

AI投資を最大限に活用するための6つのステップ

人工知能は、将来の発展にとって大きな破壊的技術の 1 つであるとよく考えられています。これにより、多...

機械学習は、企業がサイバー脅威と戦うのにどのように役立ちますか?

私たちの忙しいデジタル生活の中で、サイバー脅威はより高度化し、頻繁に発生しています。従来の方法だけで...

人気の「GPT-4 MIT学部数学フルスコア」論文が不正、データセット自体に問題あり

過去 2 日間で、GPT-4 が MIT EECS と数学の学部試験に満点で合格したという論文が T...

...

Google の大きな動き!検索結果からAIが生成したスパムをクリーンアップします

3月6日火曜日(米国時間)、Googleは、検索結果に蔓延するAI生成のスパムを排除し、ユーザーが検...

北京大学の法律モデルChatLawがサーバー爆発:張三の裁判方法を教えます

大型モデルが再び「爆発」した。昨夜、法律モデルChatLawがZhihuのホット検索リストのトップに...

Didiは最初の試みで惨敗した。自動運転は本当に良い市場なのか?

道路交通は常に人々の関心事であり、テクノロジーの時代において、人々は自動運転に大きな期待を寄せていま...