最近、大規模言語モデル(LLM)の継続的なリリースにより、LLMランキング競争が熱を帯びてきており、研究者たちは新しいLLM評価システムで自身のモデルのスコアを継続的に更新しようとしています。 中でも、スタンフォード大学が発表した新しい大規模言語モデルランキングであるAlpacaEvalは、非常に人気があります。これは、より高速で信頼性の高いLLMに基づく全自動評価ベンチマークです。 GPT-4、ChatGPTなど、多くの有名なモデルがリストに載っています。 少し前に、マイクロソフトの中国チームがリリースしたWizardLM(微調整された7B LLaMAモデル)が、数多くのモデルの中で4位を獲得しました。それより上位のモデルは、GPT-4、Claude、ChatGPTでした。WizardLMのパフォーマンスは依然として非常に優れていることがわかります。 最近、WizardLM チームは WizardCoder-15B の新しい大型モデルをリリースしました。その理由として、研究では、StarCoder などのコードクラスを生成する大規模言語モデル (Code LLM) が、コード関連のタスクで優れたパフォーマンスを達成したと述べています。しかし、既存のモデルのほとんどは、命令の微調整なしに、大量の生のコードデータで事前トレーニングされているだけです。そこで本研究では、コード領域にEvol-Instruct(難易度の異なる命令を生成する)アプローチを適用することで、コードLLMに洗練された命令の微調整を提供するWizardCoderを提案する。 HumanEval、HumanEval+、MBPP、DS1000 の 4 つのコード生成ベンチマークにおいて、WizardCoder は他のすべてのオープン ソース コード LLM を大幅に上回ります。さらに、WizardCoder は、HumanEval および HumanEval+ において、Anthropic の Claude や Google の Bard などの最大のクローズドソース LLM よりも優れたパフォーマンスを発揮します。
方法論の面では、この研究はWizardLMが提案したEvol-Instruct法に触発されたと述べています。さらに、この研究では、コード命令をより複雑にして、コード事前トレーニング済み大規模モデルの微調整効果を向上させることも試みました。 コード生成の分野では、統一されたコードプロンプトテンプレートは次のとおりです。 この記事で使用されている 5 つのタイプは次のとおりです。 この研究では、WizardCoder をトレーニングするために以下のプロセスを採用しました。当初、彼らは StarCoder 15B をベースとして使用し、Evol-Instruct によって進化したコード命令に従うトレーニング セットを使用して微調整を行いました。微調整プロンプト形式の概要は次のとおりです。 WizardCoder のパフォーマンスはどうですか?クローズドソースモデルとの比較。 GPT4、Claude、Bard などのコード生成用の SOTA LLM は、主にクローズド ソースです。ただし、これらのモデル API にアクセスするのは困難です。この研究では、LLM-Humaneval-Benchmarks から HumanEval と HumanEval + のスコアを取得するという代替アプローチを採用しました。下の図 1 に示すように、WizardCoder は Claude-Plus (59.8 vs 53.0) と Bard (59.8 vs 44.5) を上回り、3 位にランクされています。 WizardCoder モデルのサイズはこれらのモデルに比べてはるかに小さいことに注意してください。さらに、WizardCoder は、細かく調整された命令を備えた他のオープン ソース LLM に比べて大きな利点があります。 オープンソース モデルとの比較。表 1 は、HumanEval および MBPP ベンチマークにおける WizardCoder と他のオープン ソース モデルとの包括的な比較を示しています。表 1 の結果は、WizardCoder がすべてのオープン ソース モデルに比べてパフォーマンス面で大きな優位性を持っていることを示しています。 要約すると、図 1 と表 1 の実験結果から、次の結論を導き出すことができます。
次の図は、DS-1000 ベンチマークにおけるさまざまなモデルの結果を示しています。 |
<<: CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?
>>: AIコンテンツゼロ!純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究
[[416227]]ビッグデータの時代において、データは人類の生産、生活などに多大な利便性をもたらす...
時間と空間を結びつけるのは速度であり、エネルギーと質量を結びつけるのも速度です。事実と価値を結びつけ...
01 「フルスタック自主開発」は小さな農民経済過去2年間、私はさまざまな機会に、さまざまなサプライ...
Q: 対称暗号化アルゴリズムと非対称暗号化アルゴリズムの違いは何ですか? 特に暗号化、署名、ハッシ...
AI は、通常は人間の知能を必要とする活動を実行できるアルゴリズムを研究および開発するコンピュータ...
第 4 次産業革命の時代を迎え、人工知能 (AI) は急速に進歩し続けており、生成型 AI がイノベ...
偽造品、アルゴリズムの偏り、その他の問題が私たちの日常生活に及ぼす影響過去数年間、人工知能は私たちの...
産業インテリジェンスの継続的な発展に伴い、産業インターネットは産業インテリジェンス発展のための重要な...
米国のピュー・リサーチ・センターは2008年に、主に以下のような2020年のライフスタイルを予測しま...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
著者 | 嘉宏、舜慧、郭良 他ディープラーニングの時代では、コンピューティングパワーの需要と消費が増...
[[406170]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...