中国電信が星辰AIビッグモデルをソース公開：LLM研究開発を完了し、オープンソース化した初の中央企業

予期せぬことに、オープンソースのビッグモデルファミリーに特別なプレーヤーが登場しました。

国営企業から見ると、アイデンティティはオペレーターです。

それはいったい誰なのでしょうか？

中国電信。

諺にもあるように、「音を出さなければ、音を出した時に素晴らしいことになる」のです。

中国電信グループが設立した中国電信人工知能技術有限公司は、独自に開発したアルゴリズムと入念に作成された高品質のデータセットを備えたStar AIビッグモデルをリリースしました。

現在のオープンソースバージョンは、有名な大規模モデルリスト CSL で 5 位にランクされており、GAOKAO は 7 位、AGIEval は 8 位にランクされています。

どんなコンセプトですか?彼らはテクノロジー企業が輩出したプロ選手たちと同じ立場にいる。

現在、コードとモデルは Github、Gitee、HuggingFace で公開されており、中国電信は大規模なモデルの研究開発とオープンソース化を完了した最初の中央企業となっています。

さらに、つい最近、AIフェローのグランドスラム科学者であるLi XuelongがTelecomのCTOに就任しました。

では、中央企業・事業者として初めて大型模型を提出した同社の大型模型の研究開発には、いったい何がすごいのだろうか。

通信モデルはどのようなものですか?

中国電信は、昨年5月中旬にはすでに、数十バージョンのモデルトレーニングと最適化を経て、数百億のパラメータを持つStar AI大規模モデルの安定バージョンのトレーニングを完了しました。

昨年7月の人工知能技術カンファレンスで正式リリースされ、事業者としては初となる。

その後すぐに、さらなる反復作業を経て、11月にXingchen AIモデルの1000億パラメータバージョンがリリースされました。

最大96kのコンテキスト推論をサポートし、長文テキストの生成および理解能力は第 1 世代より 30% 向上しています。

さらに、モデルの幻覚問題が 40% 削減され、モデルの量子化において画期的な進歩が遂げられました。トレーニングビデオメモリが 50% 削減される一方で、推論速度は 4.5 倍に向上しました。

具体的には、Xingchen AI ビッグモデルには次のような一般的な機能があります。

一般知識の質問への回答、文章作成、テキスト翻訳の洗練/構造化タスク、論理的推論、数学、支援コード生成...

モデル自体は、マーケティングプロモーション、PPT 制作、評価分析、業界分析など、誰でも簡単に使用できる約100 のプロンプトテンプレートタスクを提供します。

その中でも、Xingchen AI モデルが最大の特徴、あるいは優れているのは、長文テキストの作成です。

ユーザーのプロンプトに基づいて、平均語数が 1,500 語を超える、完全な構造と明確なロジックを備えた記事を正確に生成できます。

統計によると、テレコム業界において、このタスクに対するXingchen AIビッグモデルの有効採用率は85.7%に達し、国内の他の多くのビッグモデルと比較して非常に優れています。

Xingchen AI ビッグモデルには、長文テキスト作成のハイライトに加えて、より複雑でマルチシナリオのタスクを解決できる強力なプラグイン機能も備わっています。

たとえば、検索プラグインは、さまざまな常識的な質問と回答をサポートし、ソースをマークし、結果をより正確にするために使用されます。

プラグインの具体的な呼び出しにおいて、Telecom は非常に詳細なデータ形式を設計しました。これにより、モデルはユーザーのタスクを深く理解し、厳密なプロセスに従って推論を実行し、最終的に答えを得ることができます。

思考チェーン技術と組み合わせると、Xingchen AI ビッグモデルの機能をさらに向上させることができます。

星辰AIビッグモデルは、中国電信および外部の企業・機関顧客の業務に最初に導入され、ネットワーク障害分析や顧客サービスに大きな価値を示したと報告されています。

前者については、Xingchen AI ビッグモデルは、大量の障害データを学習および分析することで潜在的な問題を迅速に特定し、効果的なソリューションを提供できるため、ネットワークの運用と保守の効率と品質が向上します。

後者については、新世代のインテリジェントカスタマーサービスシステムを星辰AIビッグモデルに接続した後、その対応能力が大幅に向上し、問題カバー率は95％を超えました。また、顧客サービスを自動的かつ正確に要約できるため、サービスプロセスをさらに最適化し、ユーザー満足度を向上させることができます。

このオープンソースでは、中国電信がまず外挿長32kの100億パラメータバージョンをリリースし、基礎となるコードやアルゴリズムロジックなどがすべて公開されました。

誰でもビッグモデルを直接呼び出したり、独自のビジネスニーズに応じてビッグモデルを微調整またはカスタマイズしたりできます。ディープスピードの微調整フレームワーク、int8&&int4 モデルの量子化、Ascend カードのトレーニングとプッシュがサポートされています。

または、独自のナレッジベースまたはデータをロードして、ビジネスニーズに沿った、よりパーソナライズされた理想的な結果を調整することもできます。

具体的には、以前紹介したものとは異なり、チャイナテレコムは星辰AIビッグモデルの機能をさまざまなカテゴリに分類し、今回は合計5つの細分化されたビッグモデルをオープンソース化しました。

最も基本的なスターセマンティックモデルに加えて、次のものも含まれます。

Xingchen Voice Big Modelは、キーワード検出、超自然音声合成、音声認識、音声翻訳、音声匿名化、AI合成、音声生成の7つの主要なアルゴリズム機能を備えています。音声会議の議事録編集やインテリジェント音声ロボットなどのシナリオで使用できます。

Xingchen マルチモーダル大規模モデルは、テキストから画像、画像から画像をサポートしており、コンテンツ作成、広告マーケティングなどに使用できます。

Qiming Network Big Model は、ネットワーク運用を専門とし、クラウドネットワーク運用分野における専門知識の探求に重点を置いています。
星子午線の大規模モデルは、データ分析とレポート生成に重点を置いています。

かなり包括的であると言えます。

アルゴリズムは完全に独自開発されており、その主な利点はデータにあります。

それは少し驚き、予想外のことでした。通信事業者として、中国電信は大規模モデル開発の技術作業に前向きな姿勢を取り、完全に自社開発のアプローチを採用しました。

その背後には800人の研究開発チームがあり、そのうち54.9%以上が修士号や博士号を取得しています。

モデル構造、データの前処理、モデルの事前トレーニング、人間の好みの調整、錯覚の軽減を最適化し、通信そのものの「魂」を注入しました。

具体的には、モデル構造設計の面では、チームはデコーダーのみのアーキテクチャを採用し、回転位置エンコーディング（RoPE）を改良し、適応補間を備えたNTK対応+LogNアルゴリズムと組み合わせることで、モデルの外挿能力が大幅に向上し、超長コンテキスト（96k）の理解をサポートできるようになりました。

モデルのトレーニングでは、安定性を確保するために、チームは Embedding LayerNorm アルゴリズムを使用し、埋め込みレイヤーに RMSNorm レイヤーを追加し、各 Transformer サブレイヤーの前に RMSNorm レイヤーを追加しました。

トレーニングと推論の速度を向上させるために、従来の GELU 活性化関数の代わりに SwiGLU 活性化関数を使用し、隠れ層のサイズを 4d ではなく 8/3d に設計しました。

RoPE と FlashAttention-V2 を組み合わせることで、モデルのトレーニング速度がさらに 20% 以上向上します。

微調整段階では、チームは埋め込み層にノイズ摂動を追加して、過剰適合を軽減し、モデルの質問応答品質をさらに向上させました。

人間の指示の調整にも多大な労力が費やされました。一連の BGE ベクトル化 + クラスタリングと人間のラベル付け手法を経て、チームは人間の好みに基づいた完全かつ包括的なソートデータを取得しました。

次に、PPO、RRHF、DPO など、人間の好みを分類するデータのトレーニング戦略をいくつか試し、最終的に人間の好みの調整を実現するためのトレーニングに DPO を選択し、モデルによって生成される回答のセキュリティと標準化を向上させました。

最後に、大規模モデルの幻覚の問題に対応するために、中国電信の研究開発チームは、キー情報注意強化技術、マルチラウンド知識記憶および強化技術、知識グラフ強化技術、知識トレーサビリティを含む完全なソリューションセットも提供し、最終的に大規模モデルの幻覚を 40% 削減しました。

——技術的な取り組みについてたくさんお話ししましたが、テレコムが大規模なモデルを構築することにはどのような利点があるのでしょうか?

最も重要なのはデータです。

大規模モデルのパフォーマンスにとってデータの重要性は自明です。しかし、現時点では、中国のインターネットデータは、データサイロやAIによる汚染などの問題により、入手が難しく、品質も低いです。

ここでは、百科事典、書籍、司法、医療などの分野からの大量の一般データに加えて、テレコムは独自のビジネスを通じて大量の業界データも蓄積しています。

これは、通信ビッグモデルの中国語トレーニングデータが25TBを超え、中国語トークンの総量が8兆を超えることを意味します。

このデータバッチは、Knesey-Ney テクノロジを使用してフィルタリングされ、Minihash+Jaccard を使用して重複が排除され、数百人からなる専門のラベル付けチームによって手動でラベル付けされた後、非常に高品質のデータセットに変換され、Xingchen AI 大規模モデルアルゴリズムのトレーニングのための強固な基盤が築かれました。

（ちなみに、China Telecom もデータのほとんどをオープンソース化する予定であり、これは期待に値する。）

データセットは利用可能であり、また、計算能力も不足していません。

大規模モデルトレーニングの膨大なコンピューティングパワー要件を満たすために、中国電信は「2+31」天一クラウドレイアウトに基づく国家規模の4レベル超大規模コンピューティングパワーベースを構築しました。

簡単に言えば、グループの 2 つのコアコンピューティングクラスター(約 10,000 個の GPU を含む)と 31 の省コンピューティングクラスター(同じく約 10,000 個の GPU)がクラウド、エッジ、エンド上で連携し、コンピューティングリソースの全国的な調整されたスケジュール設定と管理、AI 機能のワンクリック配信、複数の大規模モデルの同時トレーニングを実現します。

最後に、チャイナテレコムは、前述の自社開発・最適化された一連のコアアルゴリズムを基盤として、 「デジタルアルゴリズム」という3つの強力な裏付けを備えたスタービッグモデルの成績表を発表しました。

今回、私たちはそれを惜しみなくオープンソース化し、プロのプレイヤーとともに、テストのために一般の人々に直接手渡すことを敢えてしました。

そこで質問です。

なぜ中央企業として初めて大型モデルをリリースしたのか？

まず第一に、それは態度の問題です。

中国電信は、ビッグモデルと AI テクノロジーの基盤とレイアウトを備えています。

中国電信は、昨年11月に開催されたデジタルテクノロジーエコシステムカンファレンスで、星辰AIビッグモデルのほか、12の業界ビッグモデルを発表し、カスタマイズサービスを提供する「星辰MaaSエコシステムサービスプラットフォーム」を立ち上げた。

すぐに使用できるビッグモデル制作アプリケーションパイプライン製品「Hui Ju」のほか、さまざまな基本的なビッグモデル、開発環境、データトレーニングツールなどが事前に設定されており、Telecomが自らビッグモデルを制作できるだけでなく、他社のビッグモデル開発を支援する機能も提供できます。

これらすべては、チャイナテレコムが10年にわたって行ってきたAI能力構築に基づいています。

ソフトウェアアルゴリズムの分野では、中国電信の顔認識、動作検出、物体追跡検出などの多くの技術が世界的な賞を受賞しています。デジタルヒューマン技術をサポートするインテリジェントカスタマーサービス製品も、国際コンテストDCASE2023タスクAトラックで3位を獲得しました。また、ファーウェイと共同でAI高性能推論フレームワークUniStreamもリリースしました。

これは、China Telecom の強固な AI 基盤能力を明確に示しています。

第二に、才能のある人や素晴らしい人がいるということです。

前述の通り、中国電信はスターAIモデルの構築に向け、急速に800人近い研究開発チームを結成した。チームメンバーは清華大学、北京大学、スタンフォード大学、コロンビア大学など国内外のトップ大学出身者で、平均年齢は31.79歳。

そのうち、純粋な技術者が75％を占め、修士号や博士号を持つ人材が54.9％以上を占めています。この人材の波は、テレコムが社内外の業務で外部アルゴリズム機能を置き換え、コアアルゴリズム機能の独立した制御を実現するのに役立っています。

中国電信は幅広い基礎的人材を採用するだけでなく、昨年末にCTO兼主任科学者として中国電信にフルタイムで入社した李雪龍氏を含む大物人材も抱えている。

AI分野におけるフェロー・グランドスラム受賞者であり、「マルチモーダル認知コンピューティング」の創始者として、テレコム人工知能研究所を率いて、基礎研究と最先端の研究を継続していきます。

最後に、チャイナテレコムは AI やビッグモデルだけに投資しているのではなく、同業他社よりも優位に立っていることもわかりました。

例えば、量子通信分野では、中国電信は最近、「量子優位」機能を備えた「天眼」量子コンピューティングクラウドプラットフォームを立ち上げました。また、国内最大で最もユーザーフレンドリーで最も包括的な量子セキュア通信メトロポリタンエリアネットワークをすでに開設しており、中央企業が最初に開始した7つの量子通信業界標準（グループ標準を含む）のうち5つの策定を主導しました。

例えば、新世代の情報通信技術では、中国電信が消費者向け5G端末で双方向の音声とテキストメッセージをサポートする世界初の運用グレード製品を発売しました。

中国電信は伝統的な通信事業者であるにもかかわらず、常にテクノロジーを重視しており、テクノロジーへの投資は私たちが想像する以上に深いものであることがわかります。

そこで、この段落で提起された質問に対して、

なぜ中国電信が中央企業として初めて大型モデルを発表したのか？

答えは明らかです。

<<: 自動駐車を徹底研究！業界標準の動向、評価指標、システム紹介まであらゆる角度から収集！

>>: ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること