国産大型モデルの推論能力がGPT-3.5を超えた！ OpenAI評価リストの第1層に入る

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

OpenAIのオープンソース数学データセット、中国メーカーの新たな成果が彼らを最前線に押し上げました！

ちょうど9月16日、国産の大型モデルが権威ある推論評価セットGSM8Kで初めて正解率80%を達成し、GPT-3.5 （57.1%）やLLaMA2-70B （56.8%）を大きく上回った。

そして、このメーカーが大型モデルリストで新たな世界記録を樹立したのは今回が初めてではない。

その背後にある会社は、ビッグモデル技術の激動の世界で頻繁に言及されており、ますます注目を集めています。

さっそく説明しましょう。それは、崑崙万為が作った天宮モデルに他なりません。

これはどうやって行うのですか?詳しく見てみましょう。

大規模モデル推論能力ベンチマークはトップクラスにランクイン

今回、天宮ビッグモデルを有名にしたのは、大規模モデルの数学的推論能力評価ベンチマークであるGSM8Kです。

GSM8K は OpenAI によってリリースされました。小学校レベルの高品質な数学の問題 8,500 問を網羅したデータセットです。4 つの設計原則があります。

高品質、多様性、中程度の難易度、自然言語によるソリューション。

そのため、このモデルは現在、さまざまな大規模モデルの推論能力をテストするためのベンチマークとして一般的に使用されています。

先月、マイクロソフトと中国科学院は共同でWizardMathに関する研究を発表しました。この研究では主に、市場で主流となっているオープンソースおよびクローズドソースの大規模モデルをGSM8Kと別の一般的な数学ベンチマークでパフォーマンステストしました。

クローズドソースモデルの中では、GPT-4 が 92% の精度率で最高のスコアを獲得しました。GPT-3.5 の精度率は 57.1% でした。

オープンソースモデルでは、パラメータサイズの異なる LLaMA-2 が 56.8% という最高の精度を記録しましたが、最高スコアは Microsoft の WizardMath-70B で、精度は 81.6% でした。

それで、Tiangong モデルのパフォーマンスはどうでしょうか?

正解率は80%です。

この結果は、垂直数学分野で最も強力なオープンソースモデルであるWizardMath-70Bよりも1.6%低く、540Bパラメータを持つChatGPTやPaLM-2とほぼ同じです。

そして、さまざまなサイズの GPT-3.5 および LLaMA2 を大幅に上回ります。

同時に、Xiaomiの公開中国語数学テストセットCmathでは、Tiangongモデルの平均精度は76.8％（ChatGPT 74.8％）でした。

検証のために、いつものように、Tiangong モデルと GPT-3.5 は GSM8K テストセットからの同じ英語のテスト問題に直面しました。

ラウンド1

Q : ウェンディさんは、鶏の健康維持のために、毎日、種子、ミールワーム、野菜などが入った混合飼料を各鶏に 3 カップずつ与えています。彼女は鶏たちに一日三回餌を与えます。朝、彼女は鶏に15カップの餌を与えます。午後には、彼女は鶏たちにさらに25カップの餌を与えます。

ウェンディが鶏を 20 羽飼っている場合、1 日の最後の食事として何カップの餌を与えればよいでしょうか。

天宮モデルは、ひよこが一日中満腹になるように、一日の最後の食事で20カップの餌を与えるべきだと答えました。

GPT-3.5回答: ウェンディは、その日の最後の食事として、ひよこに 21 カップの餌を与える必要があります。

OK、GPT-3.5はこのラウンドで負けました。

第2ラウンド

Q: ドッファー姉妹は、動物保護施設から引き取った7匹の子猫を連れて車で帰宅中、母親から電話があり、飼い猫のうち2匹がちょうど出産したと告げられたそうです。母猫によると、パッチー猫は引き取られた子猫の3倍の数を産み、もう一匹の猫トリクシーは12匹を産んだという。

ドッファー家には今何匹の子猫がいますか？

天宮モデルの答え: もちろん子猫は40匹います。

GPT-3.5回答: Dofer 家には現在 33 匹の子猫がいます。

第二ラウンドはTiangong Modelが優勝したようです。

第3ラウンド

Q : ファルボ山の高いところに巨大なドラゴンが座っており、1,000 フィート以内にあるすべてのものに火を吐きます。ポリーはドラゴンを鎮圧する武器を 400 マイルも投げることができますが、サファイアを持っていると、宝石を持っていないときよりも 3 倍遠くまで槍を投げることができます。

宝石を持っている場合、ポリーはドラゴンの炎の範囲外にどれくらい離れて立ち、金色のジャベリンでドラゴンを攻撃できますか?

Tiangong モデルによって提供されるソリューションは次のようになり、生成された答えは 200 フィートです。

GPT-3.5によって与えられた解もここにあり、最終的な答えも 200 フィートです。

今回は両者とも引き分けに終わった。

しかし、GPT-3.5と比較すると、Tiangongモデルの問題解決のアイデアはより単純で直接的であり、問題解決のステップは少なく、短いことがわかります。

一般的に言えば、最近主流の大手モデルが評価結果を公表することはあまり一般的ではないが、崑崙万為は次のように声明を出している。

まだ内部テスト段階ですが、天宮モデルは評価結果を公表しただけでなく、ユーザー体験のためのオンラインベースを展開することも発表しました。

さらに重要なのは、天宮モデルにより、研究者や開発者が API を申請して上記の結果を検証できる点です。

PS申請方法：

ご応募の際は、「お名前」「携帯電話番号」「所属団体・部署」をご記入の上、公式メールアドレス[email protected]までご送信ください。

承認されると、テスト API と関連情報を含む返信メールが 3 営業日以内に届きます。

（締め切りは9月27日0:00）

複数のリストでトップにランクイン

Tiangong モデルは、GSM8K に加えて、別の推論評価ベンチマークである HumanEval、および 2 つの一般評価ベンチマークである MMUL と C-Eval でも優れたパフォーマンスを発揮しました。

△公開テストデータに基づいて収集および分類

HumanEvalも OpenAI から提供されています。これは、Codex モデルの有効性を評価するために OpenAI によって作成されたデータセットです。

このデータセットにより、研究者は Codex モデルを評価し、コード生成におけるその精度と有効性を理解することができます。

このデータセットでは、Tiangong モデルのスコアは 37.2% でした。

MMLU はカリフォルニア大学バークレー校などによって設立され、科学、工学、数学、人文科学、社会科学の分野における 57 の科目を統合しています。

その主な目的は、モデルの英語における学際的な専門知識を徹底的にテストすることです。天宮モデルのスコアは65%です。

C-EVALベンチマークは、上海交通大学、清華大学、エディンバラ大学が共同で作成したもので、さまざまな業界分野の 52 の分野を網羅した中国語モデルの総合的なテスト評価セットです。

Tiangong モデルのスコアは 65 で、GPT-3.5 のスコア 54.4 を上回りました。

優れた成果を上げた天宮モデルは今年4月に発売された。

AI 生成機能は、コピーライティング、知識質問と回答、コードプログラミング、論理的推論、数学的計算など、多様なニーズに対応できます。

4月に発売され、9月にこのような結果を達成しました。崑崙万為はダークホースの天宮モデルをどのように育てたのでしょうか?

まずはモデルの強みについてお話しましょう。

これはデュアル10億スケールモデルです（Tiangongの1兆スケールの事前トレーニング済みベースモデルと1兆スケールのRLHFモデルを参照）。現在のバージョンでは、10,000語以上のテキスト会話をサポートし、20ラウンド以上のユーザーインタラクションを実現できます。

両者の「強力な組み合わせ」により、天宮モデルの優位性が際立ちます。

モデル層に加えて、大規模モデルの強度を蓄積する 3 つの主要コンポーネントは、アルゴリズム、計算能力、およびデータに他なりません。

アルゴリズム層に関しては、Tiangong モデルにも独自の秘密があります。

一般的に、市場に出回っている大型モデルでは、Transformer アーキテクチャが採用されていることが多いです。これを基に、Tiangongチームはモンテカルロ探索木アルゴリズムを初めて導入しました（これはAlphaGoの背後にあるアルゴリズムでもあります）。

Tiangong モデルの背後にある計算能力は、中国最大の GPU クラスターの 1 つに基づいています。

強力なコンピューティングパワーは、天文学的な量のデータによって強力にサポートされています。「オープンソースの力」を活用する戦略に従って、Tiangong は最終的に数十兆のデータから 3 兆語近くのデータをクリーンアップして選別しました。

現在、天宮ビッグモデルは、推論と一般知識の複数のリストで開花しており、その背後にある計算能力、アルゴリズム、データの確固たる蓄積により、天宮ビッグモデルはもはやモデル規模の優位性を持っているだけでなく、技術革新と推論性能においても新たな突破口を開いたと考えられます。

国産大型モデルが避けられないタフな性格

実際、推論能力は GPT-3.5 や LLaMA2 をはるかに上回っています。Kunlun Wanwei と Tiangong Model が驚くべき結果を達成したのは今回が初めてではありません。

少し前、天宮大型モデルマルチモーダルチームの Skywork-MM は、他の大型モデル(> 100M)のデータ量よりもはるかに小さい約 50M のグラフィックデータを使用し、マルチモーダルリストのトップになりました。

△ MMEは知覚リストで1位、認知リストで2位、総合リストで1位にランクされました

崑崙万為から大きな注目を集めたもう一つのニュースは、AI専門家のYan Shuicheng氏の入社だった。

彼は天工智能科技の共同CEOと2050グローバル研究所の所長を務めており、シンガポール、ロンドン、シリコンバレーに2050グローバル研究所の研究センターを設立し、いくつかの分野で段階的に研究を進めていきます。

次世代基盤モデルの基礎研究・開発
エージェント開発およびインテリジェントエージェントの進化に関する研究。
生物知能などの最先端技術分野の探究。

Yan Shuicheng 氏は、Kunlun Wanwei に参加した理由を次のように語りました。

汎用人工知能の分野では、研究、開発、製品が完全なチェーンを形成しており、どれか一つが欠けてもいけません。この3つが完全につながって初めて、研究は最大の価値を発揮することができます。
中国には、研究、開発、製品を一体化できるプラットフォームがほとんどありません。崑崙万為は、AIビッグモデル、AIアニメーション、AIソーシャルネットワーキング、AIゲーム、AI検索、AI音楽の6つの主要な方向性を打ち出しています。同時に、崑崙万為のコアビジネスはグローバル市場をターゲットにしており、その能力マトリックスとエコシステムは非常に想像力に富んでいます。

大型モデルのトレンドが急増しています。

今年初めから、国内の大型モデルの開発の勢いは急速に進み、ますます多くの人材が参加するようになり、さまざまな大型モデルが継続的に反復・アップグレードされ、より強力な機能を備えて登場し、より幅広い応用シナリオに適応できるようになりました。

クンルンワンウェイは、ビッグモデルの変革において、戦略を重視し、頻繁に行動し、ビジネスシナリオも持っています。

崑崙万為とその天宮大型模型は、大型模型界において避けて通れない強敵キャラクターとなっていると言っても過言ではありません。

<<: iPhoneのトランスフォーマーを公開: GPT-2アーキテクチャをベースにした単語セグメンターには、MITの卒業生が制作した絵文字が含まれています。

>>: