数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気:AIを使用してAIを微調整、Microsoftの中国人チームが制作

数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気:AIを使用してAIを微調整、Microsoftの中国人チームが制作

AI生成の指示を使用してAlpacaモデルを微調整すると、数学的能力はChatGPTを超える——

Microsoft の最新のオープン ソース ビッグ モデル WizardMath が登場しました。

下の図に示すように、GSM8k データセットをテストした結果、WizardMath の数学的能力は ChatGPT、Claude Instant 1、PaLM 2-540B などの多数の大規模モデルを直接上回りました。

そして、パラメータの数はわずか 700 億で、後者の 3 つよりもはるかに少ないです。

HuggingFace は、オンラインでプレイ可能な 3 つのバージョン (それぞれ 7B、13B、70B のパラメータ) をリリースしており、さまざまな数学の問題を直接投入して試すことができます。

たとえば、次の 4 次多項式方程式を解きます。

あるいは簡単な計算:

あるいは、ラグランジュ方程式を少し修正した導出は次のようになります。

すべて正しいです(プロセスにそれほど時間がかかりません)

一部のネットユーザーは著者にこう語った。

結果は本当に素晴らしいです。オープンソース LLM に貢献していただきありがとうございます。

現在、関連するコードや再現方法、論文などもオープンソース化またはオンライン化されており、GitHubではわずか数日間で4.8kのスターを獲得しています。

それで、WizardMath はどうやってそれを実現するのでしょうか?

AI生成の指示で大規模モデルの機能を強化

OpenAI の大規模モデル (InstructGPT、GPT-4 など) は、実際の人間のユーザーによって生成されたオープンドメインの指示データを使用して微調整されたこともあり、さまざまな複雑で多様なタスクの実行に大きな成功を収めています。

しかし、この会社のように誰もがこのような指示データセットにアクセスできるわけではありません。

まず、注釈付けプロセス全体は非常にコストがかかり、時間がかかります。また、難易度の高い指示を十分な割合で手動で作成することは困難です。

そのため、比較的低コストで大規模なオープンドメイン命令自動生成方法の開発が、現在の命令チューニング言語モデルの鍵となっている。

ここで、著者らは自分たちの方法を Evol Instruction と名付けました。

これは、人間に代わって AI を使用し、さまざまな難易度レベルをカバーするオープンドメインの指示を自動的に生成する新しいアプローチです。

具体的には、Evol 命令は命令進化器と命令削除器に分かれています。

命令進化器は、深い進化 (青い線) または広い進化 (赤い線) の 2 つのパスを通じて、単純な命令をより複雑な命令にアップグレードしたり、まったく新しい命令を作成したりできます。

具体的にどれを実装すべきでしょうか?ランダムに選択してください。

その中で、ディープ進化の具体的な「進化方法」は、以下の5種類の操作を通じて完成されます。

制約を追加し、深め具体化し、推論ステップを増やし、入力を複雑にします

すべての指示は AI によって完了されるため、エラーが発生する場合があります。したがって、失敗した命令を除外するために命令エリミネータが使用されます。

以下は具体的な例です。この方法は「1+1=?」から始まり、最終的には上記の手順を経てかなりの数の新しい命令を自動的に生成します。

この生成プロセスを繰り返すことで、最終的に十分な数の命令を取得し、それらをマージしてランダムにシャッフルし、難易度が均一に分布した命令セットを形成して、基本的な大規模モデルを微調整できるようになります。

ここで、著者らは、Alpaca のトレーニング データ (手動で作成された 175 個のシード命令のみで生成) を初期データセットとして選択し、ChatGPT の API を使用して 4 回の進化サイクルを実行し、最終的に 250,000 個の命令を取得しました。

Vicuna の 7 万の実際のユーザー データ (ShareGPT) と公平に比較​​するために、著者らはこれらの 25 万のデータから同量のサンプルを抽出し、LLaMA 7B モデルをトレーニングして、最終的に WizardLM を取得しました。結果は、WizardLM が Vicuna よりも大幅に優れたパフォーマンスを示したことを示しました。

(アルパカ: LLaMa-7B に基づくスタンフォードの微調整モデル、ビクーナ: LLaMa-13B に基づくカリフォルニア大学バークレー校の微調整モデル)

さらに、より複雑なテスト命令の場合、人間は ChatGPT よりも WizardLM の出力を好みます。これは、この方法により LLM の複雑な命令を処理する能力が大幅に向上することを示しています。

これを基に、著者はEvol Instructionを使用して数学分野に関連する多くの命令を生成し、その後アルパカモデルを微調整してWizardMathを取得しました。

結果は冒頭に示した通りです。GSM8kデータセットで測定されたその数学的能力は、ChatGPT、Claude Instant 1、PaLM 2-540Bなど、多くの大規模モデルを上回り、5400億のパラメータを持つGPT-4、Claud1.3と2.0、Flan-PaLM 2に次ぐ5位にランクされています。

類推により、筆者はアルパカに加えてコーディングスキルに特化したWizardCoderも取得し、その効果はClaudeやBardを上回りました(詳細は記事末尾のアドレスをクリックしてください)。

チームについて

この記事には 9 人の著者がいますが、全員が中国人です。

第一著者は3名です。

Can Xu 氏は、Microsoft Asia Internet Engineering Institute の S+D NLP グループの上級応用科学者です。以前は、Microsoft XiaoIce Research Group および Microsoft Asia Research Institute でチャットボット システムに携わっていました。

Microsoft Research の科学者であるQingfeng Sun は、自然言語処理と情報検索に重点を置いています。彼は効率的な検索システムの構築に精通しており、Microsoft Bing と Office 365 にコア ディープ モデルを提供してきました。

Kai Zheng は、Microsoft Research の科学者です。彼の研究対象は、自然言語処理、検索、推奨ランキングなどです。また、Microsoft Bing と Office 365 のコア ディープ モデルにも貢献しています。

責任著者は、マイクロソフトのグローバルパートナー、副社長、元マイクロソフトリサーチアジアの主任科学者である江大新氏です。同氏はマイクロソフトで16年以上勤務し、かつてはマイクロソフトのBing検索エンジンやCortanaスマートアシスタントの自然言語理解部門の責任者を務めていました。同氏が大手モデル事業を立ち上げるために辞職したことが最近明らかになりました。

もう一人の著者は北京大学の学生である Jiazhan Feng です。この共著論文は、彼が Microsoft でインターンシップをしていたときに作成されました。

プロジェクトのホームページ: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath。

論文アドレス: https://arxiv.org/abs/2304.12244 (WizardLM) https://arxiv.org/abs/2306.08568 (WizardCoder)。

<<:  年間5億ドルの損失で、OpenAIは2024年に破産するのでしょうか?アルタマン、GPU不足を明らかに、優秀な人材が退社

>>:  AIツール:音楽から生成される画像の未来を探り、

推薦する

ジェフ・ディーンの大規模マルチタスク学習SOTAは苦情を受け、再現には6万ドルかかる

2021 年 10 月、Jeff Dean が新しい機械学習アーキテクチャである Pathways ...

...

自動運転:距離推定にステレオビジョンをどのように活用するのか?

自動化システムでは、ディープラーニングとコンピュータービジョンが広く普及し、あらゆる場所で利用されて...

2011 コンピュータソフトウェア試験プログラマー: アルゴリズム分析の基礎学習

コンピュータの問題解決のプロセスにおいて、データ構造とアルゴリズムはプログラムの 2 つの主要要素で...

企業がビッグデータの可能性を最大限に引き出す方法

専門家は、2025 年までにデータ ユニバース、つまりデータ ユニバースの規模が 180 ゼタバイト...

...

2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

正月休みが終わり、心身ともに仕事に復帰できましたか?新年を迎え、私のように、お金を稼ぐために働きたい...

誰もが知っておくべきAIのパイオニア14人

[51CTO.com クイック翻訳] 世界経済フォーラムは毎年、世界中のテクノロジーの先駆者について...

顔認証は必見!顔のなりすまし防止、クロスポーズ認識などを実現する方法を学ぶための 5 つの論文 (リンク付き)

[[281197]] [はじめに] 顔認識はコンピュータビジョンにおける最大の研究分野の一つです。...

...

...

GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

NVIDIA の RAPIDS cuDF は、データの読み込み、結合、集約、フィルタリング、その他...

8つの予測分析ツールの比較

予測分析ツールとは何ですか?予測分析ツールは、人工知能とビジネスレポートを融合します。これらのツール...

アルゴリズムエンジニアとして働くために養豚場に行く?月20,000

[[282855]]皆さんご存知の通り、今年の「ブラザーツー」の値段は大変高く、信じられないほど高...

海雲捷迅2018ビッグデータ博覧会ツアー——2018ビッグデータ博覧会人工知能世界大会決勝戦が終了

5月25日、2018年中国国際ビッグデータ博覧会人工知能世界大会決勝戦が予定通り貴陽で開催され、世界...