26億のパラメータ、智源と清華が中国の大規模事前トレーニングモデルをオープンソース化

26億のパラメータ、智源と清華が中国の大規模事前トレーニングモデルをオープンソース化

最近、北京人工知能研究院と清華大学の研究チームは共同で、中国語を中核とした大規模な事前学習済み言語モデルCPM-LMをリリースしました。パラメータ規模は26億に達し、事前学習済みの中国語データ規模は100GBです。

[[352853]]

2018年にGoogleがBERTをリリースして以来、事前トレーニング済みモデルは自然言語処理(NLP)の分野で徐々に主流になってきました。今年5月、OpenAIは史上最大のAIモデルであるGPT-3を発表し、大きな議論を巻き起こした。しかし、NLP 分野の現在の事前トレーニング モデルは主に英語を対象としており、GPT-3 などの英語のデータをトレーニング データとして使用しています。

GPT-3 のトレーニングに使用されるデータセット。

最近、北京人工知能研究院と清華大学の研究チームが協力して、「清源CPM(Chinese Pretrained Models)」と呼ばれる大規模な事前学習済みモデルのオープンソースプロジェクトを立ち上げ、中国語を中核とした大規模な事前学習済みモデルの構築を目指している。オープンソース コンテンツの第 1 フェーズには、事前トレーニング済みの中国語モデルと事前トレーニング済みの知識表現モデルが含まれており、中国語の自然言語理解、生成タスク、および知識コンピューティング アプリケーションで幅広く使用できます。すべてのモデルは、学術界と産業界に無料でダウンロードして研究に使用できます。

清遠CPMホームページ: https://cpm.baai.ac.cn/

清遠CPM Githubホスティングコードホームページ: https://github.com/TsinghuaAI/

モデルの特徴

Qingyuan CPM のホームページによると、このプログラムによってリリースされた事前トレーニング済みモデルには次のような特徴があります。

大規模モデル:今回リリースされたCPM-LMのパラメータ規模は26億、事前学習済みの中国語データ規模は100GB 、64台のV100 GPUを使用し、学習時間は約3週間です。CPM-KGのパラメータ規模は217億、事前学習済みの構造化知識グラフはWikiDataの全データで、約1,300の関係、8,500万のエンティティ、4億8,000万のファクトトリプルを含みます。8台のV100 GPUを使用し、学習時間は約2週間です。

豊富で多様なコーパス:百科事典、小説、対話、Q&A、ニュースなど、豊富で多様な中国語コーパスが大量に収集されています。

強力な学習能力: さまざまな自然言語処理タスクに対してゼロショット学習または少数ショット学習を実行し、優れた結果を達成できます。

自然で流暢な文章: 与えられたコンテキストに基づいて、モデルは高い一貫性と読みやすさでテキストを書き続けることができ、既存の中国語生成モデルの優れた効果を実現します。

モデルトレーニングに関しては、CPM モデルの事前トレーニング プロセスは複数の GPU に分散され、トレーニングにはレイヤー内並列アプローチが使用され、現在利用可能な成熟したテクノロジに基づいて、同期が削減され、通信速度が向上します。

ハードウェア設備に関しては、CPM モデルのトレーニングに合計 64 枚の V100 グラフィック カードが使用されました。事前トレーニング済みの CPM モデルは、会話、エッセイ生成、穴埋め問題、言語理解など、多くの下流の中国語タスクを容易にするために使用できます。

中国語の自然言語処理研究の発展を促進するため、プロジェクトではCPM-LM(2.6B)モデルのテキスト生成コードも提供しており、テキスト生成のローカルテストに使用でき、これに基づいてゼロショット学習/少数ショット学習などのシナリオのさらなる研究を行うことができます。詳細については、プロジェクトのGitHubホームページをご覧ください。

モデルのパフォーマンス

Qingyuan CPM は、ニュース、百科事典、会話、Web ページ、ストーリーなど、さまざまな種類の中国語コーパス データを事前トレーニングに使用します。複数の公開されている中国のデータセットでの実験では、Qingyuan CPM はサンプルがほとんどないかまったくなくても良好な結果を達成できることが示されています。

中国語の熟語穴埋め問題 ChID

ChID は、2019 年に清華大学の対話型インタラクティブ人工知能研究所 (CoAI) が収集した中国語の熟語の空欄補充データセットです。その目的は、空欄を埋めるために 10 個の候補から、指定された段落の意味に最も適した熟語を選択することです。

教師あり設定とは、ChID トレーニング セットでトレーニングしてからテスト セットでテストすることを指します。教師なし設定とは、追加のトレーニングを行わずに事前トレーニング済みモデルを使用して直接テストすることを指します。具体的なアプローチとしては、候補項目を段落に一つずつ埋め、埋めた段落の困惑度を計算し、困惑度が最も小さい候補項目を予測結果として選択するというものです。予測精度は表に示されています。教師なし設定では、CPM (大) が教師あり CPM (小) よりも優れた結果を達成していることがわかります。これは、Qingyuan CPM の強力な中国語モデリング機能を反映しています。

対話はSTCを生成する

STC は、2015 年に Huawei Noah's Ark Lab によって提案された短いテキスト会話データセットです。前のテキストで複数回の会話が行われた場合、次の応答を予測する必要があります。

そのうち、CDial-GPTは、清華大学の会話型インタラクティブ人工知能(CoAI)研究所が2020年に提案した中国語の対話事前トレーニングモデルです。多様性を測定するために使用される Dist-n インジケーターの 2 つの数値は、すべての非繰り返し N-Gram の数とすべての N-Gram の割合です。教師なし設定では、Qingyuan CPM の方が一般化が優れていることがわかります。教師あり設定では、特に多様性指標の点で、Qingyuan CPM は CDial-GPT よりも優れた結果を達成できます。

テキスト分類

Qingyuan CPM は、テキスト分類タスクのベンチマークとして、見出しの見出し分類 (TNEWS、4 つのカテゴリとしてサンプリング)、IFLYTEK アプリケーション紹介分類 (IFLYTEK、4 つのカテゴリとしてサンプリング)、および中国語自然言語推論 (OCNLI、3 つのカテゴリ) のタスクを使用します。具体的な方法は、まず分類サンプルを入力し、次に「記事のカテゴリは/紹介のカテゴリは/2つの文の関係は」と入力して、モデルに直接ラベルを生成させます。4つのラベルの中で最も確率の高いラベルが予測結果として使用されます。教師なし設定では、テキスト分類タスクにおけるさまざまなスケールの Qingyuan CPM の精度が次の表に示されています。

Qingyuan CPM は、教師なし設定でランダム予測よりもはるかに優れた精度を達成できます (TNEWS/IFLYTEK/OCNLI のランダム予測精度はそれぞれ 0.25/0.25/0.33 です)。

自動質問と回答

CPM は、自動質問応答タスクのベンチマークとして DuReader と CMRC2018 を使用し、モデルが質問の回答として指定された段落からフラグメントを抽出することを要求します。DuReader は、Baidu Search と Baidu Knows の 2 つのデータ部分で構成されています。教師なし設定では、さまざまなサイズの CPM モデルのパフォーマンスが次の表に示されています。

単一サンプルとは、テスト中にデータセットから正しい「(段落、質問、回答)」の 3 つをランダムに抽出し、評価に使用するサンプルの前に挿入して、CPM モデルが回答を生成するためのプロンプトとして使用することを指します。ゼロ サンプルとは、CPM モデルを直接使用して、特定の段落と質問に対する回答を予測することを指します。ワンショット設定では、CPM は特定のサンプルから回答を生成するパターンを学習できるため、効果は常にゼロショット設定よりも優れています。モデルの入力長には制限があるため、将来的には複数のサンプル入力を含むシナリオが検討される予定です。

モデル効果表示

次の例から、CPM 事前トレーニング中国語モデルの効果を確認できます。たとえば、1 つの常識的な質問の学習に基づいて、ルールに従って質問をし、正しく答えます。

前回の記事の実際の天気予報をもとに、引き続き天気予報をお伝えします(正確性は保証されません):

数学的推論を実行する:

「紅楼夢」の断片を書き続けた。

清源CPMは今後、より大規模な中国語事前学習済み言語モデル、中国語を中核とした多言語事前学習済みモデル、大規模な知識を統合した事前学習済み言語モデルなどをオープンソース化してリリースする予定だとされている。

<<:  ボストン・ダイナミクスはまたもオーナーが変わる。ロボット界のトップスターを商業化するのはなぜ難しいのか?

>>:  沈興陽博士:30年間の科学研究で私が遭遇した落とし穴

ブログ    
ブログ    
ブログ    

推薦する

孫玄、Zhuanzhuan 社アーキテクチャアルゴリズム部門: AI によるマイクロサービスアーキテクチャ

[51CTO.com からのオリジナル記事] 2014 年頃から、マイクロサービス アーキテクチャの...

AIの計算能力は70年間で6億8000万倍に増加し、3つの歴史的段階でAI技術の指数関数的爆発が目撃されました。

電子コンピュータは 1940 年代に発明され、登場から 10 年以内に人類史上初の AI アプリケー...

復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

最近、OpenAIのビデオ生成モデルSoraが人気を集めており、生成AIモデルのマルチモーダル機能が...

2021年、ドローン配送は高速であるだけでなく、安定している必要がある

中国国家郵政局が2020年10月に郵便業界標準「ドローン速達サービス仕様」について通知したことを覚え...

...

北京で百度脳産業イノベーションフォーラムが閉幕、AIの文脈でインテリジェント政府業務を解読

近年、人工知能(AI)の急速な台頭と各産業への応用は、社会経済の生産構造と生産関係に破壊的な影響を及...

...

AIは生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。

人工知能は、生成的敵対的ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成し...

砂漠植林ロボットとフィットネス洗濯機:00年代以降の「あの同級生」が心を開いた

少し前、ビリビリのトップUP司会者「こんにちは先生、私の名前は何童雪です」が「Airdesk」を開発...

大国間の競争の焦点:人工知能とデジタル主権

​​報告書は、経済の分離と地政学的な二極化が進む時代に、優れたデジタルまたはスマートなパートナーシッ...

ロボットのウォーリーがやってきた!ディズニーは、RLを使って歩くことを学び、社会的にも交流できる新しいロボットを発表した。

チン、チン、チン、『ウォーリー』が舞台に登場!頭は平らで、体は四角い。地面を指差して見るように言うと...

将来、ロボットがあなたの仕事を奪うでしょうか?慌てずに専門家の言うことに耳を傾けましょう

[[384941]]スペインの新聞「エル・エコノミスタ」は最近、ラモン・オリバー氏による「仕事の自動...

2019年の技術予測: クラウド、ビッグデータ、AI、IoT、ブロックチェーン

[[258103]]テンセントテクノロジーニュース:フォーブスの寄稿者であるスティーブ・ウィルクス氏...

...

Google は、ユーザーにパーソナライズされたヘルプを提供するために、Bard を搭載したアシスタントをリリースしました。

海外メディアの報道によると、グーグルは10月7日、先日開催された「Made by Google 20...