すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場

すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場

最近、大規模言語モデル(LLM)の継続的なリリースにより、LLMランキング競争が熱を帯びてきており、研究者たちは新しいLLM評価システムで自身のモデルのスコアを継続的に更新しようとしています。

中でも、スタンフォード大学が発表した新しい大規模言語モデルランキングであるAlpacaEvalは、非常に人気があります。これは、より高速で信頼性の高いLLMに基づく全自動評価ベンチマークです。 GPT-4、ChatGPTなど、多くの有名なモデルがリストに載っています。

少し前に、マイクロソフトの中国チームがリリースしたWizardLM(微調整された7B LLaMAモデル)が、数多くのモデルの中で4位を獲得しました。それより上位のモデルは、GPT-4、Claude、ChatGPTでした。WizardLMのパフォーマンスは依然として非常に優れていることがわかります。

最近、WizardLM チームは WizardCoder-15B の新しい大型モデルをリリースしました。その理由として、研究では、StarCoder などのコードクラスを生成する大規模言語モデル (Code LLM) が、コード関連のタスクで優れたパフォーマンスを達成したと述べています。しかし、既存のモデルのほとんどは、命令の微調整なしに、大量の生のコードデータで事前トレーニングされているだけです。そこで本研究では、コード領域にEvol-Instruct(難易度の異なる命令を生成する)アプローチを適用することで、コードLLMに洗練された命令の微調整を提供するWizardCoderを提案する。

HumanEval、HumanEval+、MBPP、DS1000 の 4 つのコード生成ベンチマークにおいて、WizardCoder は他のすべてのオープン ソース コード LLM を大幅に上回ります。さらに、WizardCoder は、HumanEval および HumanEval+ において、Anthropic の Claude や Google の Bard などの最大のクローズドソース LLM よりも優れたパフォーマンスを発揮します。

  • 論文アドレス: https://arxiv.org/pdf/2306.08568.pdf
  • コードアドレス: https://github.com/nlpxucan/WizardLM

方法論の面では、この研究はWizardLMが提案したEvol-Instruct法に触発されたと述べています。さらに、この研究では、コード命令をより複雑にして、コード事前トレーニング済み大規模モデルの微調整効果を向上させることも試みました。

コード生成の分野では、統一されたコードプロンプトテンプレートは次のとおりです。

この記事で使用されている 5 つのタイプは次のとおりです。

この研究では、WizardCoder をトレーニングするために以下のプロセスを採用しました。当初、彼らは StarCoder 15B をベースとして使用し、Evol-Instruct によって進化したコード命令に従うトレーニング セットを使用して微調整を行いました。微調整プロンプト形式の概要は次のとおりです。

WizardCoder のパフォーマンスはどうですか?

クローズドソースモデルとの比較。 GPT4、Claude、Bard などのコード生成用の SOTA LLM は、主にクローズド ソースです。ただし、これらのモデル API にアクセスするのは困難です。この研究では、LLM-Humaneval-Benchmarks から HumanEval と HumanEval + のスコアを取得するという代替アプローチを採用しました。下の図 1 に示すように、WizardCoder は Claude-Plus (59.8 vs 53.0) と Bard (59.8 vs 44.5) を上回り、3 位にランクされています。

WizardCoder モデルのサイズはこれらのモデルに比べてはるかに小さいことに注意してください。さらに、WizardCoder は、細かく調整された命令を備えた他のオープン ソース LLM に比べて大きな利点があります。

オープンソース モデルとの比較。表 1 は、HumanEval および MBPP ベンチマークにおける WizardCoder と他のオープン ソース モデルとの包括的な比較を示しています。表 1 の結果は、WizardCoder がすべてのオープン ソース モデルに比べてパフォーマンス面で大きな優位性を持っていることを示しています。

要約すると、図 1 と表 1 の実験結果から、次の結論を導き出すことができます。

  • WizardCoder は、Claude、Bard、PaLM、PaLM-2、LaMDA などの最大のクローズドソース LLM よりもはるかに小さいにもかかわらず、それらよりも優れたパフォーマンスを発揮します。
  • WizardCoder は、StarCoder、CodeGen、CodeGee、CodeT5+ を含むすべてのオープン ソース コード LLM よりも優れています。
  • WizardCoder は、InstructCodeT5+、StarCoder-GPTeacher、Instruct-Codegen-16B など、命令の微調整によりすべてのオープン ソース コード LLM を大幅に上回ります。

次の図は、DS-1000 ベンチマークにおけるさまざまなモデルの結果を示しています。

<<:  CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

>>:  AIコンテンツゼロ!純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究

ブログ    
ブログ    

推薦する

自然言語処理の核心:シーケンス学習

人生におけるすべてのことは時間と関連しており、連続性を形成しています。シーケンシャルデータ(テキスト...

世界的なサプライチェーンの混乱はロボットの導入をどのように促進するのでしょうか?

企業がより強力な管理を維持し、コストのかかる混乱を回避しようとする中、製造拠点の国内移転とサプライチ...

魂への窓!人工知能は網膜をスキャンして心臓発作を予測できる

ビッグデータダイジェスト制作眼鏡をかければ心臓発作の危険があるかどうかがわかるなんて、驚きですよね?...

LLM にとってベクター データベースが重要なのはなぜですか?

翻訳者 |ブガッティレビュー | Chonglou Twitter 、 LinkedIn 、またはニ...

RLHF が LLM トレーニングの鍵となるのはなぜですか? AI専門家が5つの代替案を検討し、Llama 2のフィードバックメカニズムのアップグレードを説明

ChatGPTが主導する大規模言語モデルの時代において、避けては通れないトピックが「人間のフィードバ...

重要インフラのサイバーセキュリティリスク管理における AI の影響

AIがサイバー攻撃から重要なインフラを守るためにどう役立つか 電力網、水道システム、交通網などの重要...

...

転移学習とクロスドメイン推奨、およびクロスドメイン推奨のソリューション

この記事では、主にクロスドメインの推奨事項について詳しく紹介します。内容は以下のとおりですが、これら...

5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た

自動運転と5Gの産業発展は大きな注目を集めており、韓国企業は最近、両者を組み合わせた効果を模索してい...

3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。

GPT-4 は、詳細かつ正確な画像の説明を生成する強力で並外れた能力を実証しており、言語と視覚処理...

...

メタバースの目!メタの機械式バイオニックアイの特許が明らかになり、バイオニック人体に搭載される予定

ロボットの皮膚、空気圧触覚手袋... Meta は将来のメタバースに、よりリアルな触覚インタラクショ...

製造業におけるAI: インテリジェントロボットには次の4つの機能が必要です

インテリジェントロボットはインテリジェント製品の代表的なものです。知能ロボットには、少なくとも以下の...

C# のデータ構造とアルゴリズムにおけるキューの簡単な分析

C# のデータ構造とアルゴリズムのキューは、リストの先頭での削除操作とリストの末尾での挿入操作のみを...

速報、AI専門家のJing Kun氏がBaiduを退社! CIOの李英がXiaoduのCEOに就任

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...