GPT-4 に追いつく!李開復のYi-34Bの新しい結果が発表されました：勝率94.08％はLLaMA2などの主流の大型モデルを超えています

GPT-4に次ぐ、李開復のYi-34B-Chatの最新成果が発表されました——

アルパカ認定モデル部門では、勝率94.08%でLLaMA2 Chat 70B、Claude 2、ChatGPTを上回りました！

写真

それだけでなく、カリフォルニア大学バークレー校が主導する LMSYS ORG ランキングでも、Yi-34B-Chat は Elo スコア 1102 で最新のオープンソース SOTA オープンソースモデルにランクされ、そのパフォーマンスは GPT-3.5 と同等でした。

各種の大型モデル評価の中で、Berkeley LMSYS ORGランキングは、ユーザー体験に最も近い「チャットボットアリーナ」という特別な評価モードを採用しています。評価プラットフォーム上で多数の大型言語モデルがランダムに1対1のバトルを繰り広げ、実際のユーザーによるクラウドファンディングでオンラインのリアルタイムブラインドテストと匿名投票を実施します。11月には、合計25,000件の実際のユーザー投票に基づいて、20の大型モデルの合計スコアが算出されました。

Elo スコアが高いほど、実際のユーザーエクスペリエンスでモデルのパフォーマンスが優れていることを意味します。これは、多数の大規模なモデル評価セットの中で「真実の瞬間」を最もよく示す、ユーザー指向のエクスペリエンス対決であると言えます。

写真

△LMSYS ORGリスト（2023年12月8日公開）

中国語の言語機能に関しては、Yi-34B-Chat の微調整モデルも同様に印象的です。 SuperCLUE は中国語能力のランキングであり、基礎能力、専門能力、中国語特有の能力という 3 つの異なる側面からモデルの能力を評価します。

11月末に発表された「SuperCLUE中国大型モデルベンチマーク評価レポート2023」によると、11月下旬に初公開されたYi-34B Chatは、多くの優秀な国産大型モデルと同等の「優秀リーダー」象限に急速に進出しました。複数のベンチマーク評価における「SuperCLUE大型モデルマッチ勝率」の重要指標において、Yi-34B-Chatは31.82％の勝率を達成し、GPT4-Turboに次ぐ2位となりました。

△中国版SuperCLUEランキング（2023年11月28日発表）

会話シーンテスト

Yi-34B-Chat モデルはさまざまな会話シナリオでどのように機能しますか?より直感的な問題のデモンストレーションを見てみましょう。

たとえば、Yi-34B-Chat に次の質問を「フィード」します。

Transformer モデル構造は AGI につながるのでしょうか?

写真

Yi-34B-Chat の回答が合理的かつ根拠のあるものであることは容易にわかります。

次：

あんこの色の口紅を皆さんにお勧めするために、小紅書のコピーを作成してください。

写真

その答えは、小紅書における現在の主流の商品販売スタイルと非常に一致していると言える。

中国語の理解に関しては、もう一つ疑問があります。

シャオ・ワンがリーダーに贈り物をした後。リーダーは言いました。「シャオ・ワン、これはどういう意味ですか？」シャオ・ワン：「これはちょっとした感謝の気持ちです。」リーダー：「それだけでは十分ではありません。」シャオ・ワン：「これはちょっとした贈り物です、ちょっとした贈り物です。」リーダー：「シャオ・ワン、あなたは本当に興味深い人です。」シャオ・ワン：「他に何か意味があるわけではありません。」リーダー：「それなら私はとても恥ずかしいです。」シャオ・ワン：「はい、恥ずかしいです。」これは正確にはどういう意味ですか？

写真

非常に「複雑な」中国語でも、Yi-34B-Chat は正確に習得していることがわかります。

Zero One Everythingによると、Yiシリーズの強力な基盤の貢献に加えて、Yi-34B-Chatモデルの有効性は、AIアライメントチームが採用した一連の革新的なアライメント戦略からも恩恵を受けているという。慎重に設計された指示の微調整プロセスを通じて、モデルの人間のニーズを理解して適応する能力が強化されるだけでなく、有用性、誠実さ、無害性などの人間の価値観にも沿うようになります。

強力なベース設定の下で、チームは、単一機能の強化と複数機能の統合という 2 つの段階をカバーする軽量の命令微調整ソリューションを採用しました。
その中で、個々の能力には、一般的な指示の遵守、創造的なコンテンツの生成、数学、推論、プログラミング、汎 COT、会話によるインタラクションなどが含まれます。多数のアブレーション実験を通じて、単一の機能の構築とモデルの複数の機能の統合における当社独自の認知経験をまとめました。

データの量と質の面では、一方では、強力なベースモデルに基づくチームは、モデルの特定の単一機能を刺激するために少量のデータ（数個から数百個の項目）のみを必要とします。他方では、データの品質は量よりも重要であり、少量の高品質のデータは大量の低品質のデータよりも優れています。モデルの能力を超えた「低品質」データに焦点を当てることで、モデルの「幻覚」が軽減されます。

指示の多様性と難易度の点では、チームは各能力項目の下にタスクシステムを構築することでトレーニングデータ内の指示のバランスの取れた分散を実現し、モデルの一般化を大幅に向上させました。複合命令構築と命令難易度進化により、モデル効果が向上するだけでなく、データ量の需要も大幅に削減されます。

スタイルの一貫性に関しては、トレーニングデータのスタイルがモデルの収束速度と能力の上限への接近度合いに影響を与えることを発見したため、チームは応答スタイルを統一しました。たとえば、軽量SFTの場合、スタイルの不一致によって悪化するモデルの「メモリ」現象を回避するために、CoTの応答スタイルの設計に重点を置きました。

マルチ機能統合段階では、グリッド検索法を使用してデータ比率とハイパーパラメータ設定を決定し、ベンチマークテストの結果と独自に構築した評価セットを通じて検索プロセスをガイドし、モデルのマルチ機能統合を正常に達成しました。

それだけでなく、Yi モデルのオープンソース化の最初の 1 か月のデータも印象的でした。

Hugging Faceコミュニティのダウンロード数は168,000件、MoDaコミュニティのダウンロード数は12,000件です。 GitHub で 4900 以上のスターを獲得しました。

その優れた性能により、多くの有名企業や機関がYiモデルベースに基づいて微調整されたモデルをリリースしており、例えばCheetahのOrionStarがリリースしたOrionStar-Yi-34B-Chatモデルや、南方科技大学の認知コンピューティングおよび自然言語研究センター（CCNLセンター）と広東・香港・マカオ大湾区デジタル経済研究所（IDEA研究所）が共同でリリースしたSUS-Chat-34Bなどがあり、いずれも優れた性能を誇っています。 AMD と Hugging Face が共同で実施した GPU アクセラレーションによる大規模モデル実験でも、Yi-6B がサンプルプロジェクトとして選ばれました。

著名な技術ライターのスー・ヤン氏は、最近見たHugging Faceリストでは、トップ30のうち半分以上がYiや他のユーザーによって微調整されたYi-34Bの派生型だったと述べている。当初リストの上位を占めていた68Bと70Bのモデルは、今ではわずか数個になっている。「この観点から見ると、オープンソースエコシステムに対するYiの貢献は依然として非常に大きい」

実際のユーザーからのフィードバック

Yi-34B がオープンソースとしてリリースされた後、開発者の Eric Hartford 氏はこのモデルに小さな問題があることを発見しました。

彼はメールにこう書いた。

素晴らしいモデルを提供していただきありがとうございます。 Yi モデルは、2 つのテンソルの名前が変更されていることを除いて、LLaMA モデルとまったく同じアーキテクチャを使用します。 LLaMA アーキテクチャには多くの投資とツールが投入されているため、テンソル名の一貫性を維持することは重要です。エリックは、易が広く普及する前にテンソル名を復元することを提案しました。

Zero One Everythingは、命名問題の怠慢により開発者に不便をかけたことを認識し、Eric氏や他の開発者に説明して心から謝罪し、モデルとコードをさまざまなオープンソースプラットフォームに迅速に再提出し、オープンソースコミュニティ向けのバージョンアップデートを完了しました。

しかし、エリック自身は、自分の提案が中国で誤解され、Yi モデルが LLaMA を「盗作」したのではないかという世間の疑念を引き起こすとは予想していませんでした。

実際、モデルの核となる技術的な強みはアーキテクチャに基づいています。データトレーニングを通じて得られるパラメータとコードは、オープンソースコミュニティで一般的に使用されている LLaMA アーキテクチャに基づいています。

Zero One Everythingチームによれば、彼らはゼロから始めて、高品質のデータセット、独自に開発したトレーニング科学、AIインフラを使用して、Yi-34Bを含む一連のモデルを作成したという。比較実験を行うために、いくつかの推論パラメータの名前が変更されました。当初の出発点は、ソースを故意に隠すことではなく、モデルを完全にテストすることでした。

この世論の嵐の中心にいるエリックは、X（ツイッター）にもこう書いている。

彼らは何も嘘をつきませんでした。すべてのモデルは互いにアーキテクチャを借用しています。このアーキテクチャが学術研究の成果であり、論文として発表され、誰でも自由に使用できるという事実は、Yi 氏のチームの成果を決して損なうものではありません。独自に作成したデータセットを使用して Yi をゼロからトレーニングしたため、オープンソース分野への彼らの貢献は称賛に値します。

写真

そして彼はこう付け加えた。「Llama アーキテクチャを使用することには何の問題もありません。トレーニングが鍵です。Yi はこれまで入手可能な最高のモデルを提供してくれました。不満はありません。」

現在、Eric 氏は Yi-34B の熱心なファンになっています。彼は Yi-34b-200k データセットを使用して他のモデル製品をトレーニングし、その非常にスムーズなトレーニング体験に驚嘆しています。

デジタル起業家、開発者、テクニカルライターの Su Yang 氏は、次のように述べています。

私自身、大型モデル製品のヘビーユーザーです。コードアシスト生成には Tabnine や Copilot を長年使用してきたほか、Chat にお金を出して使い始めた最初のプレイヤーの一人でもあります。基本的には、各メーカーのモデルが発売されたら社内テストに申し込んで、実際のモデルの実力を体験します。仕事でモデルに触れて使う機会があることに加え、10年以上コードに触ってきた独立開発者として、モデルがどこまで発展できるのか個人的にとても興味があります。
Yi-34B には、当時の Huggingface リストの 1 位、少数の友人からの「いいね」や「苦情」、さまざまなグループの画面に溢れるメッセージなど、いくつかのチャンネルがあることを知りました。

写真

私は開発者であり、エンドユーザーでもあるので、このモデルが機能するかどうか非常に興味があります。言い換えれば、モデルが機能する場所と機能しない場所を知りたいということです。特に、リストのスコアが非常に高く、疑問の声が非常に大きいのではどうでしょうか?推測したり、さまざまな意見を聞いたりするよりも、実際に自分で試してみる方が良いでしょう。
そこで、自宅のローカルマシンを使用して、純粋な CPU 環境と CPU と GPU の混合環境でモデルをテストしてみたところ、予想以上に良い結果が得られました。
特に、コミュニティで微調整されたバージョンは、ニュースや調査レポートの要約、および非構造化情報内のエンティティの識別と抽出において非常に優れたパフォーマンスを発揮します。以前、公式チャットバージョンがまだリリースされていなかったとき、コミュニティからのチャットバージョンは会話の過程で非常にうまく機能し、一般的な歴史に関する質疑応答も非常に良好でした。もちろん、Zero One がトレーニングプロセス中にセキュリティ上の理由からコーパスをフィルタリングしすぎたため、一部のローカライズされたコンテンツがまだ十分な深さではない可能性があります。
また、これは私だけの個人的な体験ではありません。海外にも同じ思いを持ったユーザーがおり、「海外フォーラム」Redditで感想をシェアしています。自分で検索してみて下さい。
私は時々 HF リストを閲覧しています。最新のトップ 30 のうち、半分以上は Yi や他のユーザーによって微調整された Yi-34B の派生型です。当初リストのトップだった 68B と 70B モデルは、現在ではわずか数個にまで減少しています。これは、Yi のオープンソースエコシステムへの貢献が依然として大きいことを示しています。
34B の一般ユーザーは、努力すれば比較的低コストで実行できます。68 および 70B のモデルでは、ローカルで実行するためにより多くのリソースが必要です。しかし実際には、現在のスコアは 34B とそれほど変わらず、平均で 3 ～ 4 ポイント程度ですが、パラメータの数は 2 倍になっています。つまり、企業が導入して活用する場合には、必要なコストを大幅に節約できることになります。
現在、国産の大型モデルは既にオープンソースリストの第一層に位置しているが、クローズドソースモデル、特に海外モデルにまで競争範囲が拡大すると、まだまだ道のりは長い。現在の一般的な経験では、オープンソースモデルは最大でも GPT-3.5+ レベルです。
国産の大型モデルもすぐにトップクラスに追いつくだろうと個人的には思っています。
しっかりした基礎を持ち、勤勉で努力家な多くの中国の大学生と同じように、彼らは正しい方法を用いるという前提の下、努力を通じて、より良い学習環境に継続的に入り、成績を絶えず更新し、目覚ましい学業成績を達成することができます。実際、中国人に対して非常に厳しい「アイビーリーグ8」の大学でも、中国人留学生は増えているのでしょうか？
しっかりとした基盤があり、正しいオープンソースのルートと方法に従い、ローカルへの適応と調整をうまく行えば、希望はあります。

参考リンク:
[1] https://huggingface.co/01-ai/ [2] https://www.modelscope.cn/organization/01ai

>>: