百度文心ビッグモデル4.0速報:万華訓練史上最大のパラメータ、早くても来週にお会いしましょう

百度文心ビッグモデル4.0速報:万華訓練史上最大のパラメータ、早くても来週にお会いしましょう

昨日10月9日、財連社は、百度の文心ビッグモデル4.0が集中的なトレーニングを受けており、リリースの準備がほぼ整っていると報じた。今日、IT Home は、基盤となるアーキテクチャ、インフラストラクチャ、トレーニング データ セット、コストなどの重要な情報を含む Wenxin 4.0 の詳細も知りました。

まず核心的な結論から始めましょう。

  • 1. 昨日の暴露は基本的に真実でした。現在、Wenxin Model 4.0 は実際に小規模なトラフィックベースでテストされていることが分かっています。
  • 2. Wenxin 4.0 のパラメータ数は、公開されているすべての LLM のパラメータ数より多く、Wanka クラスターを使用してトレーニングされた中国初の大規模モデルでもあります。
  • 3. 推論コストは Wenxin 3.5 と比較して大幅に増加しており、約 8 ~ 10 倍と言われています。 (大型モデルは本当に高価です)

次に、啓示の詳細を見てみましょう。

Wanka Cluster によってこれまでにトレーニングされた最大のパラメーター モデル?

IT Homeが入手した情報によると、文心モデル4.0のパラメータ規模は、パラメータが公開されているすべてのLLMよりも大きく、文心モデル4.0のパラメータ規模は兆レベルを超えると予想されるという

このパラメータ量だけ見ると、それほど悪くないと思う人も多いでしょう。何しろ、現在公開されている情報によると、GPT-4のパラメータ数はすでに約1兆8千億にも上ります。しかし、内部告発者はさらに、Wenxin Model 4.0はまだ単一のモデルであり、GPTや他の多くの大規模言語モデルで使用されている混合エキスパートモデル(MoE)を採用していないと述べました。

以前、「天才ハッカー」ジョージ・ホッツ氏は、GPT-4がハイブリッドモデルを採用している理由は、モデルのパラメータスケールを2200億以上にすることが不可能だからだと明かした。 OpenAI はモデルの改善を望んでいますが、トレーニングに時間がかかると、効果は減少します。

したがって、Baidu が単一のモデルでブレークスルーを達成できたとしても、モデルの機能も大幅に向上するかどうかは、実際にリリースされて初めてわかることになります。

これほど多数のパラメータを持つモデルには、大量の計算能力が必要になります。現在のニュースでは、 Wenxin 4.0 は Wanka AI クラスターでトレーニングされており、これは Wanka 規模のクラスターを使用してトレーニングされた中国初の大規模言語モデルと見なされるべきです。

万華クラスターのコンセプトとは?現在中国では、ファーウェイとアリババのみが万華AIクラスターを構築したことを明らかにしていますが、それに基づいた具体的なモデルが発売されたという話はまだありません。

これは、Wanka クラスターを構築するのは簡単ではなく、それを最大限に活用するのはさらに難しいことを示しています。分析によると、PaddlePaddle の深い統合のおかげで、このような規模のモデルを Wanka クラスターに基づいてトレーニングできるのです。

コストが高騰し、一般向けに少量の検査が実施されている

トレーニングコストが増加しているだけでなく、Wenxin 4.0の推論コストも3.5と比較して大幅に増加していることが明らかになりました。IT Homeはまだ1000トークンあたりの具体的な推論コストを入手していませんが、以前の約8〜10倍であると噂されており、これはまだ高使用率(MFU)条件下です。利用率が低い場合、コストは増加し続けると予想されます。

最後に、 Baiduの社内従業員によると、実際に少量のトラフィックでWenxin Model 4.0の秘密のテストを開始したとのこと。少数のWenxin Yiyanユーザーがすでに最新バージョンのモデルを使用しており、早ければ来週にも正式に発表される予定だ。

多くの人々は、この声明の方が信頼性が高いと信じており、テクノロジーコミュニティにおける最近のいくつかの暴露からもいくつかの手がかりを見ることができます。おそらく、Wenxin Yiyan で質問するときは、Wenxin モデル 4.0 を使用しているのでしょう。生成された結果が GPT-4 と競合できるかどうかはわかりません。

IT Home は、上記の情報は公式に確認されたものではなく、その正確性は各自が判断すべきであることを改めて強調します。

<<:  新しいAI技術がアルツハイマー病の薬のターゲット発見に役立つ

>>: 

ブログ    

推薦する

小さな機械学習: 次の AI 革命

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

TensorRT が顔認識を高速化する方法

[[329844]]顔認識のリアルタイム パフォーマンスを向上させるために、私たちのチームは従来のニ...

AIが新たな成長エンジンに。アマゾン ウェブ サービスの技術的手法に耳を傾けてみよう

AI は数年前にテクノロジーの世界で人気を博しましたが、今では何千もの業界で革新と徹底的な応用が行わ...

お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

機械学習システムを分類する 1 つの方法は、一般化の程度によって分類することです。ほとんどの機械学習...

Ctrip旅行言語モデルシステムの紹介と応用

著者についてCtrip の自然言語処理と大規模言語モデル アルゴリズムの専門家である Terry は...

AIと機械学習のサイバーセキュリティという新興分​​野で考慮すべき3つのこと

[[343105]] [51CTO.com クイック翻訳] サイバー脅威の複雑さと数は時代とともに進...

ディープラーニングを使った顔認証

[[390275]]今日は、ディープラーニングを使用して顔認証アルゴリズムを作成します。 私たちのタ...

...

肖亜青工業情報化大臣:我が国はAI発明特許の取得数で世界一である

[[410183]] 7月8日のニュース 2021年世界人工知能大会の開幕式で、工業情報化部の肖亜青...

Aurora の 1 億ドルの買収の背後にあるもの: RISC-V の創始者が「中国製チップ」を開発するという野望

2月27日、米国の著名な自動運転企業であるAuroraは、ライダーチップ企業OURSを1億ドルで買収...

大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で変化の波を引き起こしていま...

...

感情AIが企業のITリーダーに希望をもたらす

感情 AI、つまり感情コンピューティングは、AI の次の大きなトレンドになる可能性があります。企業は...

AIは自メディア記事の質を知っている。これがWeChatの自動評価アルゴリズムだ

セルフメディアの時代において、すべてのパブリックアカウントは、自分の記事をより多くの人に見てもらえる...

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

6月19日のニュース:AI産業の急速な発展に伴い、テクノロジー業界のAI人材に対する需要も高まってい...