Google の優れた NLP 事前トレーニング モデルはオープンソースで、BERT に勝る

Google の優れた NLP 事前トレーニング モデルはオープンソースで、BERT に勝る

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、GoogleはAI言語モデルELECTRAをTensorFlow上のオープンソースモデルとしてリリースすると発表しました。このアプローチでは、Replacement Token Detection (RTD) と呼ばれる新しい事前トレーニング タスクを使用します。これにより、すべての入力位置から学習しながら双方向モデルをトレーニングできます。

さらに、同じコンピューティング リソースを使用する場合、ELECTRA のパフォーマンスは既存の方法よりも優れており、わずか 1/30 のパラメーターで、最先端の BERT シリーズ モデルに劣らないパフォーマンスを実現します。 Googleはこのオープンソースの成果を紹介する記事を公開し、Leifeng.com AI Source Commentaryは以下のようにまとめ、編集しました。

[[318891]]

言語モデルの現状とボトルネック

近年、言語事前トレーニング モデルの最新の進歩により、BERT、RoBERTa、XLNet、ALBERT、T5 などの最も先進的なモデルを含む自然言語処理が大きく進歩しました。

これらの方法は設計が異なりますが、感情分析や質問回答などの特定の NLP タスクに合わせて微調整された大量のラベルなしテキストを使用して言語理解の一般的なモデルを構築するという同じ考え方を共有しています。

したがって、既存の事前トレーニング方法は、一般的に、GPT などの言語モデル (LM) の 2 つのカテゴリに分類されます。このメソッドは、入力テキストを左から右に処理し、前のコンテキストに基づいて次の単語を予測します。

もう 1 つは、BERT、RoBERTa、ALBERT などのマスク言語モデル (MLM) です。このタイプのモデルは、入力でマスクされた少数の単語の内容を予測します。 MLM は、予測する単語の左側と右側のテキストを見ることができるため、LM よりも双方向予測の利点があります。

しかし、MLM モデルの予測には欠点もあります。これらのモデルの予測は、入力トークンの小さなサブセット (マスクされた部分の 15%) に制限されるため、各文から取得される情報の量が減少し、計算コストが増加します。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

既存の事前トレーニング方法とその欠点。矢印は、特定の出力表現 (長方形) を生成するために使用されるトークンを示します。左: 従来の言語モデル (GPT など) は、現在の単語の左側のコンテキストのみを使用します。右: マスクされた言語モデル(BERTなど)は左から右への文脈を使用しますが、各入力に対して単語の小さなサブセットのみを予測します。

新しい事前学習済みモデルELECTRA

上記 2 種類の言語モデルの欠点を克服するために、Google は ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) 言語モデルを提案しました。これは新しい事前トレーニング方法であり、その重要なポイントは、既存の言語モデルの問題に対処するために、事前トレーニング済みのテキスト エンコーダーをジェネレーターではなく識別子として使用することです。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

論文アドレス: https://openreview.net/pdf?id=r1xMH1BtvB

同じモデル サイズ、データ、計算の複雑さで、この方法は BERT や XLNet などの MLM タイプの方法よりも大幅に優れています。さらに、ELECTRA の小さなモデルでは、1 つの GPU で 4 日間のトレーニングしか必要ありません。

具体的な実験データによると、この小型モデルの GLUE スコアは BERT 小型モデルより 5 ポイント高く、さらに大型の GPT モデル (30 倍の計算能力を使用) よりもパフォーマンスが優れていることがわかります。

ELECTRA は、計算労力を 1/4 未満に抑えながら、GLUE 自然言語理解ベンチマークで RoBERTa および XLNet のパフォーマンスを達成できます。大規模な ELECTRA のトレーニングにさらに多くのコンピューターが使用されると、モデルは SQuAD 2.0 質問応答データセットと言語理解タスクのリーダーボードで最先端のパフォーマンスを達成します。 (具体的なデータについては第4章を参照)

コアアイデア - トークンの置き換え検出

ELECTRA は、Replacement Token Detection (RTD) と呼ばれる新しい事前トレーニング タスクを使用します。このタスクでは、すべての入力位置 (LM など) から学習しながら双方向モデル (MLM など) をトレーニングします。

具体的には、ELECTRA の目標は、入力された単語を区別することを学習することです。マスクは使用せず、代わりに提案分布から単語をサンプリングして入力を置き換えます。これにより、マスクによって発生する事前トレーニングと微調整の間の不一致の問題が解決されます。

次に、モデルは各単語が元の単語であるか置換単語であるかを予測する識別器をトレーニングします。識別器の利点の 1 つは、モデルが MLM のようにマスクされた単語だけではなく、入力内のすべての単語から学習するため、計算効率が高くなることです。

多くの開発者が敵対的学習手法と関連付けているように、ELECTRA は確かに敵対的生成ネットワーク (GAN) からインスピレーションを受けています。しかし、違いは、モデルが最大尤度を使用し、非敵対的学習を使用していることです。

たとえば、下の画像では、「cooked」という単語を「ate」に置き換えることができます。これはある程度は理にかなっていますが、全体の文脈には適合しません。事前トレーニング タスクでは、元の入力内のどのトークンが置き換えられたか、または同じままであるかを判断するモデル (つまり、識別子) が必要です。

RTD アプローチは、モデルのバイナリ分類タスクが少数のマスクされた単語 (BERT スタイルのモデルでは 15%) ではなく、すべての入力単語に適用されるため、MLM よりも効率的です。これは、ELECTRA が他の言語モデルと同じパフォーマンスを達成するために必要な例が少ない理由も説明しています。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

置換トークン検出により、すべての入力位置から学習するときに双方向のトレーニングが可能になります。

置換トークンはジェネレーターのニューラル ネットワークから生成されます。ジェネレーターの目的は、マスクされた言語モデルをトレーニングすることです。つまり、入力シーケンスが与えられると、入力内の単語が一定の割合 (通常は 15%) でマスクに置き換えられ、ネットワークを通じてベクトル表現が取得され、ソフトマックス レイヤーを使用して入力シーケンス内のマスクされた位置にある単語が予測されます。

ジェネレーターの構造は GAN に似ていますが、この方法をテキストタスクに適用するのが難しいため、結果として得られるトレーニング目的関数はマスクされた単語の最大尤度になります。

その後、ジェネレータと識別器は同じ入力単語埋め込みを共有します。識別器の目的は、入力シーケンスの各位置にある単語がジェネレータによって置き換えられたかどうかを判断することです。元の入力シーケンスの対​​応する位置にある単語と異なる場合は、置き換えられたと判断されます。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

ジェネレータとディスクリミネータのニューラル ネットワーク モデル

具体的な研究結果の比較

研究者らは、ELECTRA を他の最先端の NLP モデルと比較し、同じ計算予算を与えられた場合、ELECTRA は以前のアプローチに比べて大幅に改善され、RoBERTa や XLNet と同等のパフォーマンスを発揮しながら、計算量は 4 分の 1 以下であることを発見しました。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

x 軸はモデルのトレーニングに使用された計算量 (FLOP 単位) を示し、y 軸は開発 GLUE スコアを示します。既存の事前トレーニング済み NLP モデルと比較すると、ELECTRA ははるかに効率的に学習します。しかし、GLUEの現在の最良のモデル(T5(11B)など)は、他のモデルよりもはるかに多くの計算を必要とするため(RoBERTaの10倍)、このグラフには適していないことに注意してください。

効率をさらに向上させるために、研究者らは、わずか 4 日間で単一の GPU 上で十分にトレーニングできる小さな ELECTRA モデルを試しました。

ELECTRA-small は、トレーニングに多数の TPU を必要とする大規模モデルと同じ精度を達成することはできませんが、それでも GPT よりも優れたパフォーマンスを発揮し、必要なコンピューティングは 3 分の 1 にすぎません。

次に、この結果が大規模に実装できるかどうかをテストするために、研究者はより多くのコンピューティング(RoBERTa とほぼ同じ量、T5 の約 10%)を使用して大規模な ELECTRA モデルをトレーニングしました。

研究者らは、SQuAD 2.0 質問応答データセットで、大規模な ELECTRA、RoBERTa、XLNet、BERT、および ALBERT モデルのパフォーマンスをテストしました。結果は下の表に示されています。GLUE リーダーボードでは、ELECTRA が他のすべてのモデルよりも優れていることがわかります。

しかし、後者は依然として大型の T5-11b モデルよりも GLUE のスコアが高くなります。しかし、ELECTRA はサイズが 3 分の 1 であり、コンピューティングの 10% をトレーニングに使用することは注目に値します。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

ELECTRA-Largeおよびその他の最先端モデルにおけるSQUAD 2.0データセットのスコア

現在、ELECTRA を事前トレーニングし、下流のタスクで微調整するためのコードがリリースされています。現在サポートされているタスクには、テキスト分類、質問への回答、シーケンスのラベル付けなどがあります。

このコードにより、単一の GPU 上で小さな ELECTRA モデルを高速にトレーニングできるようになります。 Google は今後、ELECTRA-Large、ELECTRA-Base、ELECTRA-Small の事前トレーニング コードもリリースする予定です。 (ELECTRA モデルは現在英語版のみで提供されており、今後他の言語バージョンもリリースされる予定です)

元の住所:

https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html

GitHub アドレス:

https://github.com/google-research/エレクトラ

<<:  ファーウェイ、加算のみを使用するニューラルネットワークをオープンソース化:インターン生が開発を主導、効果は従来のCNNと同等

>>:  2020 年の人工知能に関するトップ 10 の予測

ブログ    
ブログ    

推薦する

工業情報化部:電話ネットワークアクセスの物理チャネルに肖像マッチング技術を導入

今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...

ランウェイの最強のライバルが登場、ワンクリックでショートビデオを生成、期間限定で無料

近年、AI による絵画のレベルは飛躍的に向上しています。 Midjourney と Adob​​e ...

スマートインフラがコミュニティを良くする5つの方法

フロスト&サリバンによる最近の分析によると、スマートシティ技術への世界的な投資は2025年までに22...

人工知能タスクに知っておくべき 11 個の Python ライブラリ

[[399295]]この記事はWeChatのパブリックアカウント「Python Society」から...

NLP入門シリーズ:自然言語処理

[[400034]]この記事はAI Publishingが執筆したWeChatパブリックアカウント「...

推奨される自動化およびオーケストレーションツール10選

自動化およびオーケストレーション ネットワーク ツールは、人間のオペレーターよりも高速かつ正確にタス...

2つのセッションは「AI顔認識」と生体認証データの法制化と規制の緊急の必要性に焦点を当てています。

[[385416]]現在、両セッションは活発に行われており、全国のさまざまな分野の代表者が独自の提...

...

...

Megvii 顔認識ビジネス講演シリーズ - 顔認識について知っておくべきこと

人工知能、機械学習、マシンビジョンとは具体的に何でしょうか?顔認識と人工知能の関係は何でしょうか?人...

60年ぶり! AI が新しい抗生物質の最初のバッチを発見し、MIT の主要な研究が Nature に掲載されました。人類はスーパーバグとの戦いに希望を持っている

60年間、人類は抗生物質の研究において大きな進歩を遂げていません。しかし、このギャップはAIによって...

北京大学と智遠は、大規模モデルが自律的にオープンワールドを探索できるようにするトレーニングフレームワークLLaMA-Riderを提案した。

大規模言語モデルは、強力で普遍的な言語生成および理解機能を備えているため、汎用的なインテリジェントエ...

...

職場におけるAIとARの進化

[[434145]]職場における支援/拡張現実 (AR) と人工知能 (AI) の可能性を最大限に引...

Daguan Data: 推奨システムアルゴリズムの再ランキングの実践

インターネットの出現と普及は、大量の情報をユーザーにもたらし、情報化時代の情報需要を満たしました。し...