「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今年、OpenAIが発表した自然言語モデルGPT-3が大きなセンセーションを巻き起こしました。

これはこれまでで最大の NLP モデルであり、1,750 億のパラメータが含まれています。トレーニングだけでも数万の GPU が必要で、460 万ドルの費用がかかりました。

しかし、GPT-3は英語のコーパスに基づいてトレーニングされており、オープンソースではありません。業界では、中国語の超大規模なNLPモデルの登場が待ち望まれていました。

さあ、ついに来ました!

最近、北京人工知能研究院と清華大学の研究チームが共同で、大規模な事前学習済みモデルのオープンソースプログラムであるQingyuan CPM (Chinese Pretrained Models)を立ち上げました。

CPM は 11 月中旬に、26 億パラメータ規模の中国語言語モデル (CPM-LM) と 217 億パラメータ規模の構造化知識表現モデル (CPM-KM) の第 1 フェーズをダウンロード用に公開し、対応するデモも公開します。

プロジェクトのソースコードとモデルは、GitHub と公式 Web サイトからダウンロードできるようになりました。

CPM 中国語言語モデルは GPT-3 モデルに似ており、数回、1 回、または 0 回の学習でさまざまな自然言語処理タスクを完了でき、ある程度の常識と認知一般化機能を備えています。

当局は、清遠CPM計画のすべてのモデルは学界と産業界に無料でダウンロードして研究に利用できるように公開されていると述べた。

モデルの特徴

既存の中国の事前トレーニングモデルと比較して、今回リリースされた清遠CPM大規模事前トレーニングモデルには以下の特徴があります。

1.豊富で多様なコーパス:百科事典、小説、対話、質疑応答、ニュースなど、豊富で多様な中国語コーパスが大量に収集されています。

2.大規模モデル:今回公開されたCPM-LMのパラメータ規模は26億、事前学習済みの中国語データの規模は100GB、学習時間は64個のV100 GPUを使用して約3週間です。

3.強力な学習能力: さまざまな自然言語処理タスクにおいて、ゼロショット学習または少数ショット学習でより良い結果を達成できます。

4.自然で流暢な文章: 与えられたコンテキストに基づいて、モデルは高い一貫性と読みやすさでテキストを書き続けることができ、既存の中国語生成モデルの優れた効果を実現します。

デモ

Qingyuan CPM 事前トレーニング モデルの効果をより直感的に示すために、公式ではいくつかのテキスト生成デモを提供しています。

CPM 事前トレーニング済みモデルは、GPT-3 が処理できる常識的な質問と回答も処理できます。

実際の天気予報の内容に基づいて天気予報のテキスト テンプレートを生成できます。

Qingyuan CPM には、テキストを生成するだけでなく、特定の数学的推論機能も備わっており、以前のルールに基づいて計算結果を生成します。

『紅楼夢』からの抜粋を書き続けることもできます。

さらに、智源と清華のチームは、いくつかのベンチマークテストで清華CPMの実際のパフォーマンスも検証しました。

1. 空欄に中国語の慣用句を入れてください

ChID は、2019 年に清華大学の対話型インタラクティブ人工知能研究所 (CoAI) が収集した中国語の熟語の空欄補充データセットです。その目的は、空欄を埋めるために 10 個の候補から、指定された段落の意味に最も適した熟語を選択することです。

予測精度は表に示されています。CPM(large) は、教師なし設定でも教師あり CPM(small) よりも優れた結果を達成していることがわかります。これは、Qingyuan CPM の強力な中国語モデリング機能を反映しています。

2. ダイアログ生成

STC は、2015 年に Huawei Noah's Ark Laboratory によって提案された短いテキスト会話データセットです。前のテキストで複数回の会話が行われた場合、次の応答を予測する必要があります。

教師なし設定では、Qingyuan CPM の方が一般化が優れています。教師あり設定では、特に多様性指標の点で、Qingyuan CPM は CDial-GPT よりも優れた結果を達成できます。以下は生成された会話のサンプルです。

3. テキスト分類

Qingyuan CPM は、テキスト分類タスクのベンチマークとして、見出しの見出し分類 (TNEWS、4 つのカテゴリとしてサンプリング)、Iflytek アプリケーション紹介分類 (Iflytek、4 つのカテゴリとしてサンプリング)、および中国語自然言語推論 (OCNLI、3 つのカテゴリ) タスクを使用します。

Qingyuan CPM は、教師なし設定でランダム予測よりもはるかに優れた精度を達成できることがわかります (TNEWS/IFLYTEK/OCNLI ランダム予測精度はそれぞれ 0.25/0.25/0.33)。

4. 自動質疑応答

CPM は、自動質問応答タスクのベンチマークとして DuReader と CMRC2018 を使用し、モデルがタイトルの質問に対する回答として指定された段落からフラグメントを抽出することを要求します。 DuReader は、Baidu Search と Baidu Knows という 2 つのデータ部分で構成されています。

ワンショット設定では、CPM は特定のサンプルから回答を生成するパターンを学習できるため、効果は常にゼロショット設定よりも優れています。モデルの入力長には制限があるため、将来的には複数のサンプル入力を含むシナリオが検討される予定です。

5. エンティティ生成

CPM は、エンティティ生成タスクのベンチマークとして、XLORE のいくつかの共通関係トリプルを採用しています。少数ショット設定(予測するサンプルの前にヒントとして少数の実際のサンプルを配置する)では、さまざまなサイズの CPM モデルの BLEU-1 値が次の表に示されています。

パラメータの数が多いほど、モデルがエンティティを予測する精度が高くなることがわかります。同時に、モデルは 2 つのサンプルが与えられた場合に良好な結果を達成することができ、ほとんどの場合、N = 2 と N = 4 の効果は同様です。

3週間のV100トレーニングブロック64個

Zhiyuan と清華大学がリリースした大規模な事前トレーニング済みモデルは、単一の GPU で実行するのが困難なため、並列トレーニングを行うには複数の GPU 間でモデル パラメータを分散する必要があります。

CPM は、NVIDIA の超並列コンピューティング トレーニング プロジェクト Megatron-LM に基づいています。

CPM モデルの事前トレーニング プロセスは、複数の GPU に分散され、トレーニングにはレイヤー内並列アプローチが使用され、既存の成熟したテクノロジに基づいて、同期が削減され、通信速度が向上します。

今回公開されたCPM-LMのパラメータ規模は26億、事前学習済みの中国語データの規模は100GB、64個のNVIDIA V100 GPUが使用され、学習時間は約3週間です。

CPM-KG のパラメータ規模は 217 億で、事前学習済みの構造化知識グラフは WikiData の全データであり、約 1,300 の関係、8,500 万のエンティティ、4 億 8,000 万のファクト トリプルが含まれています。8 基の NVIDIA V100 GPU を使用し、学習時間は約 2 週間です。

今後の計画

今年末の 2 つのオープンソース プロジェクトは、清遠 NLP 研究計画の第一歩にすぎません。清遠 CPM の来年の研究およびオープンソース計画は次のとおりであると理解されています。

  • フェーズ 1 (2020 年 10 月~ 12 月) : 約 30 億のパラメータと 100 GB の中国語データを含むトレーニング データを備えた、大規模な中国語事前トレーニング済み言語モデル。
  • フェーズ2(2021年1月~6月) :中国語をコアとし、複数の言語を学習した、約200億のパラメータを含む大規模な事前学習済み言語モデル。学習データには、中国語をコアとした500GBの多言語データが含まれます。
  • フェーズ 3 (2021 年 7 月~ 9 月) : 約 1,000 億のパラメータを持つ、知識誘導型の大規模な事前トレーニング済み言語モデル。トレーニング データには、中国語を中核とする 1 TB の多言語データと、数十億のエンティティを含むエンティティ関係グラフが含まれます。

清遠CPMプログラムは、コンピューティングパワー、データ、人材を積極的に割り当て、独自の研究の実施に重点を置き、超大規模事前トレーニングモデル技術においてできるだけ早くトップクラスの国際機関と同等のレベルを達成し、中国語自然言語の深い理解と生成能力を強化します。

同時に、AI研究所は業界と積極的に協力し、インテリジェントな顧客サービス、パーソナライズされた推奨、テキスト生成、自動プログラミングなどの分野で新しいAIアプリケーションとビジネスモデルを模索していきます。

清遠CPMプログラムについて

Qingyuan CPM プログラムは、中国語を中核とする大規模な事前トレーニング済みモデルです。

オープンソース コンテンツの最初のバッチには、中国語の自然言語理解、生成タスク、知識コンピューティング アプリケーションで幅広く使用できる、事前トレーニング済みの中国語言語モデルと事前トレーニング済みの知識表現モデルが含まれています。

清遠CPMプログラムは、北京智遠人工知能研究所と清華大学の研究チームが共同で実施しています。 「自然言語処理」は、科学アカデミーが支援する主要な研究方向の 1 つです。

知源は、この方向で国内の権威ある学者を多数集めており、彼らはNLPの分野で豊富な研究成果を蓄積してきました。

例えば、清華大学のSun Maosong氏Liu Zhiyuan氏のチーム、 Li Juanzi氏Tang Jie氏のチームは、知識誘導型事前トレーニングモデルERNIEとKEPLERを提案しました。Circular IntelligenceのYang Zhilin氏のチームは、BERTよりも大幅に性能が優れているXLNetモデルを提案しました。清華大学のZhu Xiaoyan氏Huang Minlie氏のチームは、感情分析の事前トレーニングモデルであるSentiLARE、常識知識を統合した事前トレーニング言語生成モデルであるStoryGPT、中国語の対話生成用のCDial-GPTモデルなどを提案しました。

研究チームは、知源研究所の大規模コンピューティングパワープラットフォームの支援を受けて、言語間学習、テキスト生成、知識融合、モデル並列処理、圧縮などの最先端のテーマを含む、中国語を中核とした超大規模事前トレーニングモデルの研究を実施し、関連モデルを速やかにオープンソース化し、知源コミュニティを通じて共有します。

<<:  スマートパッケージング:製造業の最新トレンド

>>:  気候変動との戦い: AIはエネルギーソリューションをリードできる

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

プログラマーは数年後には時代遅れになるということをご存知ですか?

かつて Computer World 誌は、「プログラミングは 1960 年までに消滅する」という記...

...

産業用AIoTが「新たな人気」となった4つの主な要因

最近発表された産業用人工知能および人工知能市場レポート 2021-2026 のデータによると、わずか...

国家教科書委員会:ブロックチェーン、AIなどの分野を中心に新しい教科書が多数編纂されます!

[[312225]]テキスト | 梁玉山1月7日、教育省の公式サイトによると、国家教科書委員会はこ...

OpenAI がハッカーのグループチャットに潜入!盗まれたChatGPTは「Meow Meow GPT」に置き換えられました、ネットユーザー:まさに伝説的

ChatGPT がハッカーによって「ハッキング」された場合、OpenAI はどのように対応するのでし...

ニュースローン賞受賞者 宋 樹蘭: 視覚の観点からロボットの「目」を構築する

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ディープラーニングは自動運転車にとって何を意味するのでしょうか?

[[348074]]自動運転車でディープラーニングを使用すると、歩行者の行動を理解したり、最短ルー...

...

計算能力≠知恵! MIT教授の「意識の源」に関する新理論:人間の認知はコンピューティングとは何の関係もない

[[432064]]長い間、多くの学者は、ディープラーニングと人工ニューラルネットワークのインスピレ...

ディープラーニングのこれらの落とし穴に遭遇したことがありますか?ニューラルネットワークのよくある落とし穴11選とその対処法

ニューラルネットワークがうまく動作しない場合はどうすればいいでしょうか?この記事の著者は、データの前...

金メダルレベルの数学スキル:DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛

今回、人工知能アルゴリズムが国際数学オリンピック(IMO)で大きな進歩を遂げました。本日発行された国...

多くの国で人工知能産業が発展を加速している(国際的視点)

[[358162]]コアリーディング人工知能は、世界的な科学技術革命と産業変革の新たな流れを導く重...

データが少ないとディープラーニングは使えないなんて誰が言ったのでしょうか?私はこのことについて責任を負わないよ!

ある観点から見ると、激しい競争は業界の人気を示しています。最近、人気のディープラーニングも論争を引き...

パフォーマンス最適化技術: アルゴリズム

アルゴリズムとその実装にはさまざまな種類がありますが、この記事ではシングルコア、シングルスレッドのア...

AI誇大宣伝はサイバーセキュリティのデフレにおけるバブルなのか?

人工知能は、その概念が最初の電子メールウイルスと同じくらい古いにもかかわらず、「ネットワークにおける...