国内外のオープンソースモデルを競うLlama-2の初の総合評価

2023年7月を迎え、大規模言語モデル（LLM）の開発は新たな段階に入り、オープンソースが話題になっています。

7月6日、上海人工知能研究所とSenseTimeは共同でShusheng Puyuオープンソースシステム（https://github.com/InternLM）をリリースしました。これは、Shusheng Puyuの軽量版（InternLM-7B）をオープンソース化しただけでなく、データ、トレーニングから評価までのフルチェーンツールシステムのオープンソース化を先導し、完全に無料の商用ライセンスを提供しました。
7月14日、Zhipu TechnologyはChatGLM2-6Bを商用利用のために無料で公開しました。
7月19日、Meta はより強力な Llama-2 をオープンソース化し、より緩やかな商用ライセンスを提供しました。

オープンソース言語モデルの新たな波に直面して、チューリング賞受賞者のヤン・ルカン氏はTwitterで次のようにコメントした。

これにより、LLM 市場の状況は変化するでしょう。

しかし、オープンソースモデルのパフォーマンスは業界の熱い期待に応えることができるでしょうか?

Llama-2シリーズのオープンソースモデルを入手した後、OpenCompass （https://opencompass.org.cn）を通じて総合的な評価を実施しました。

ラマ2の強さは？

Llama-1 と比較して、Llama-2 には多くの技術的な改善が加えられており、モデルのパフォーマンス、推論効率、セキュリティが効果的に向上しています。具体的には、重要な改善点は次のとおりです。

モデルアーキテクチャでは、Group-Query-Attention (GQA) を使用してモデルの推論効率を向上させ、コンテキストの長さを 2K から 4K に倍増しました。
事前トレーニングコーパスは 1.4T トークンから 2T トークンに増加しました。
教師あり微調整 (SFT) 段階では、データセットの品質に重点が置かれます。より少ないが高品質の SFT データを使用すると、何百万もの公開 SFT データを使用する場合と比較して、効果が大幅に向上します。
モデルの安全性を向上させるために、3 つの安全トレーニングテクノロジ (Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation) が導入されました。

前世代と比較して、パフォーマンスは大幅に向上しましたが、ChatGPTに匹敵するのはまだ困難です。

では、Llama-2 の全体的な機能は何でしょうか?

公式の技術レポートには約 20 のデータセットに関するテスト結果が示されていますが、評価機能の次元はまだ限られており、比較されたモデルは十分に包括的ではありません。

ここでは、オープンソースの評価ツールである OpenCompass を使用して、Llama-2 がリリースしたさまざまなモデルを40 を超える評価セットで包括的に評価し、規律、言語、知識、理解、推論という 5 つの側面から大規模モデルの機能を包括的に測定します。

結果は次のレーダーチャートにまとめられます。

次の表は、いくつかの代表的な評価セットにおける Llama、Llama-2、ChatGPT のパフォーマンスを示しています。

より包括的かつ詳細な評価結果については、https://opencompass.org.cn をご覧ください。

前世代モデルと比較して、全面的に改良されました。

総合的な能力の観点から見ると、 Llama-2-70B (緑)はLlama-1-65B (紫)よりも優れており、Llama-1 と比較して言語、知識、推論、理解、規律などの能力の面で明らかな改善が見られます。たとえば、総合試験セットの MMLU スコアは 63.71 から 69.75 に増加し、GSM8K スコアは 54.51 から 63.46 に増加しました。

ダイアログと台座モデルは基本的に同じです。

微調整され調整されたモデルLlama-2-70B-Chat（黄色）は、ベースモデルLlama-2-70B（緑）と基本的に同じ総合能力を備えています。ベースと比較すると、言語、推論、理解のパフォーマンスが向上しましたが、総合的な主題能力と知識能力はわずかに低下しています。たとえば、翻訳評価セット Flores とコード評価セット HumanEval では、Chat モデルの相対的な改善はそれぞれ 40% 以上と 20% を超えていますが、MMLU と TrivialQA では相対的に約 10% 減少しています。

ChatGPT とはまだ大きな差があります。

ChatGPT-0613（青）と比較すると、 Llama-2-70B-Chat（黄）は、特に推論能力、理解力、包括的な主題能力において、まだ追いつく必要があります。数学評価セット MATH とコード評価セット HumanEval の間のギャップは 2 倍以上です。

中国語の能力は明らかに弱い

Llama のトレーニングコーパスでは、中国語が占める割合が比較的小さく、微調整の段階で中国語に対する最適化が行われなかったため、現在の Llama-2-Chat は中国語の問題に関してまだ不十分です。

典型的な例としては、中国語の質問に対しても、モデルは英語で答えるというものがあります。

Llama-2 の中国語と英語の機能をより深く理解するために、OpenCompass から中国語と英語のデータセットを選択し、個別に分析しました。

結果は次のようになります:

Llama-2 は、英語能力、知識レベル、理解力の点ですでに ChatGPT に近いレベルにあります。
Llama-2 は、中国の能力のあらゆる面で ChatGPT より劣っています。この結果は、Llama-2 自体が、中国語のアプリケーションを直接サポートするためのベースモデルとしては特に良い選択ではないことを示しています。
推論能力の面では、中国語でも英語でも、Llama-2 は ChatGPT とまだ大きな差があります。このことから、大規模なモデルの場合、推論能力を向上させることは基本的な言語スキルを向上させることよりもはるかに難しいことがわかります。

安全な配置はモデルを過度に慎重にする

Llama-2 の主な特徴は、トレーニング中に比較的完全なセキュリティアライメントソリューションを使用することで、値のアライメントとセキュリティが大幅に向上することです。

しかし、テスト中に、Llama-2 はセキュリティとモデル機能の間で特に良いバランスをとっていないこともわかりました。モデルは非常に慎重で、多くの一般的な質問に回答することを拒否しました。

国産モデルも劣らない

ここ数カ月、国内の大型モデルは急速に発展しており、多くの企業や研究機関が独自の大型モデルを発表しており、その中には数千億のパラメータを持つものもある。

では、国内の大型モデルはLlama-2と比べてどのように機能するのでしょうか?多くの友人がこの件について懸念しています。

重量級モデルの比較

国内機関が公開している70B以上のモデルは、一般的にまだオープンソース化されておらず、内部テストAPIを通じて限定的なサービスを提供しているモデルも多く、多くの国内モデルの完全な評価データを入手することは依然として困難です。

OpenCompassでは、上海人工知能研究所とSenseTimeが複数の大学と共同でリリースした、数千億のパラメータを持つInterLM-104Bモデルがすでに総合的な評価結果を得ている。

この結果に基づいて、 Shusheng PuyuとChatGPTのパフォーマンスをLlama-2と比較しました。

重量級モデルの比較では、Shusheng Pu Yu はほとんどの主流の評価セットで Llama-2 や ChatGPT を上回り、優れたパフォーマンスを発揮しました。具体的には、InternLM-104B は 43 の評価セットのうち 34 で ChatGPT を上回り、43 の評価セットのうち 41 で Llama-2-70B を上回りました。

中国語の試験はまだ先です。

中国語テスト評価セット CEval と大学入試評価セット GAOKAO-Bench の両方において、InternLM-104B は Llama2-70B を大幅に上回りました。

言語能力に若干優位性あり:

語彙理解、イディオム、翻訳などの評価セットを含む中国語と英語の基本的な言語タスクに関しては、InternLM-104B が優位であり、中国語の評価セットではその差はさらに大きくなります。

読解力の「学者」は名にふさわしい:

中国語と英語のさまざまな読解力評価セットにおいて、InternLM-104B は明らかな利点を示し、テキストセグメントから重要な情報を要約して理解する点で優れていました。

優れた推論能力:

常識的推論、数学的推論、総合的推論のさまざまなデータセットにおいて、InternLM-104B は比較的安定したパフォーマンスを発揮し、Llama2-70B よりも一定の優位性があります。

クイズゲームは均等に分かれています:
BoolQ、CommonSenseQA、TrivialQA、NaturalQuestion などの知識質問応答評価セットでは、2 つのモデルのパフォーマンスは同等であり、知識レベルに大きな違いがないことが示されました。

コーディング能力はまちまちです。

InternLM-104B と Llama2-70B のコーディング機能は同等であり、HumanEval および MBPP データセットでは勝敗が決まります。

軽量モデルの比較

重量級トラックで皆が互いに競い合っている一方で、7B 重量級の軽量級トラックでのオープンソースモデルの競争も非常に活発です。

数多くの国内オープンソースモデルの中でも、百川知能がリリースしたBaichuan-7B 、清華大学とZhipu AIがリリースしたChatGLM2-6B 、上海人工知能研究所がリリースしたInternLM-7Bなどの優れたモデルが業界で広く注目を集めています。

私たちはこれらの国産モデルとLlama-2-7Bの包括的な評価と比較を実施しました。

次の表は、いくつかの代表的な評価セットにおけるこれらの 7B スケールモデルのパフォーマンスを示しています。

結果は、Llama-2が知識能力において明らかに優位性を持っていることを示しています。

しかし、科目、言語、推論、理解力の面では、InternLM と ChatGLM2 はどちらも Llama-2 を上回っており、InternLM の優位性は非常に明白です。

商用利用が無料になると

数か月前、Llama のオープンソースがコミュニティに火をつけ、多くの開発者や研究者に恩恵をもたらし、アルパカファミリー全体が誕生しました。残念ながら、そのプロトコルは商用利用を制限しており、企業は利用できません。

7月6日、世界人工知能大会で、Shusheng Puyuオープンソースシステムが正式にリリースされ、InterLM-7Bがオープンソース化され、無料の商用ライセンスが提供されました。

その後、開発動向やコミュニティの要請に応じて、ChatGLM2-6BやLlama2などのオープンソースモデルが次々と無料の商用利用に向けて推進されました。

オープンソースコミュニティの火花が業界に活気をもたらし、大規模モデルの実用化のハードルをさらに下げると信じています。

<<: Alibaba Cloudは、Llama2トレーニングの展開を全面的にサポートする最初の企業であり、企業が独自の大規模モデルを迅速に構築できるように支援します。

>>: Nature の論文が xAI の目標を検証、人間の認知 AI が宇宙の本質を探る、マスク氏: 黙ってろ、金やるぞ!

ワクチン生産を加速するには？答えは医学ではなくテクノロジーにある

ブログ

国内外のオープンソースモデルを競うLlama-2の初の総合評価

ラマ2の強さは？

前世代と比較して、パフォーマンスは大幅に向上しましたが、ChatGPTに匹敵するのはまだ困難です。

中国語の能力は明らかに弱い

安全な配置はモデルを過度に慎重にする

国産モデルも劣らない

重量級モデルの比較

軽量モデルの比較

商用利用が無料になると

ワクチン生産を加速するには？答えは医学ではなくテクノロジーにある

AIコピーライティングの11のメリット

ByteDance の新しい具現化された知能の成果: 大規模なビデオデータでトレーニングされた GR-1 は、複雑なタスクを簡単に処理します

Googleを超えろ！世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

モデルA: おかげさまで0点にならずに済みました。モデルB: 私も同じです。

大学受験出願関連アプリは会員料金が高く、AIアプリは信頼できない

推薦する

AsiaInfoが中国聯通のネットワークAIフォーラムに参加し、自動運転ネットワークの革新研究拠点の設立を開始

資金調達は引き続き好調：6月の自動運転分野における資金調達活動の概要

Googleの新しいAIツールはAppleのバッチ処理ツールに似ている

最高裁判所は顔認識に関する司法解釈を発表し、無作為の「顔スキャン」に「ノー」と述べた。

LEACHプロトコルのアルゴリズムと特徴

IT 業界で最も過小評価されている 6 つのテクノロジーと、まだ廃れていない 1 つのテクノロジー

韓国はLK-99の室温超伝導は証明できないと信じており、国内チームは拡張された材料が魔法のような特性を持っていると信じている

考えてみると恐ろしいですね！人工知能は、成功率70％で人間の行動を操作することを学習したと疑われている。

ファイアウォールは再び進化します。よりスマートで安全になりましたか?

人工知能は匿名のチェスプレイヤーの身元を確認でき、プライバシーの脅威となる