Google の優れた NLP 事前トレーニングモデルはオープンソースで、BERT に勝る

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、GoogleはAI言語モデルELECTRAをTensorFlow上のオープンソースモデルとしてリリースすると発表しました。このアプローチでは、Replacement Token Detection (RTD) と呼ばれる新しい事前トレーニングタスクを使用します。これにより、すべての入力位置から学習しながら双方向モデルをトレーニングできます。

さらに、同じコンピューティングリソースを使用する場合、ELECTRA のパフォーマンスは既存の方法よりも優れており、わずか 1/30 のパラメーターで、最先端の BERT シリーズモデルに劣らないパフォーマンスを実現します。 Googleはこのオープンソースの成果を紹介する記事を公開し、Leifeng.com AI Source Commentaryは以下のようにまとめ、編集しました。

[[318891]]

言語モデルの現状とボトルネック

近年、言語事前トレーニングモデルの最新の進歩により、BERT、RoBERTa、XLNet、ALBERT、T5 などの最も先進的なモデルを含む自然言語処理が大きく進歩しました。

これらの方法は設計が異なりますが、感情分析や質問回答などの特定の NLP タスクに合わせて微調整された大量のラベルなしテキストを使用して言語理解の一般的なモデルを構築するという同じ考え方を共有しています。

したがって、既存の事前トレーニング方法は、一般的に、GPT などの言語モデル (LM) の 2 つのカテゴリに分類されます。このメソッドは、入力テキストを左から右に処理し、前のコンテキストに基づいて次の単語を予測します。

もう 1 つは、BERT、RoBERTa、ALBERT などのマスク言語モデル (MLM) です。このタイプのモデルは、入力でマスクされた少数の単語の内容を予測します。 MLM は、予測する単語の左側と右側のテキストを見ることができるため、LM よりも双方向予測の利点があります。

しかし、MLM モデルの予測には欠点もあります。これらのモデルの予測は、入力トークンの小さなサブセット (マスクされた部分の 15%) に制限されるため、各文から取得される情報の量が減少し、計算コストが増加します。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

既存の事前トレーニング方法とその欠点。矢印は、特定の出力表現 (長方形) を生成するために使用されるトークンを示します。左: 従来の言語モデル (GPT など) は、現在の単語の左側のコンテキストのみを使用します。右: マスクされた言語モデル（BERTなど）は左から右への文脈を使用しますが、各入力に対して単語の小さなサブセットのみを予測します。

新しい事前学習済みモデルELECTRA

上記 2 種類の言語モデルの欠点を克服するために、Google は ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) 言語モデルを提案しました。これは新しい事前トレーニング方法であり、その重要なポイントは、既存の言語モデルの問題に対処するために、事前トレーニング済みのテキストエンコーダーをジェネレーターではなく識別子として使用することです。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

論文アドレス: https://openreview.net/pdf?id=r1xMH1BtvB

同じモデルサイズ、データ、計算の複雑さで、この方法は BERT や XLNet などの MLM タイプの方法よりも大幅に優れています。さらに、ELECTRA の小さなモデルでは、1 つの GPU で 4 日間のトレーニングしか必要ありません。

具体的な実験データによると、この小型モデルの GLUE スコアは BERT 小型モデルより 5 ポイント高く、さらに大型の GPT モデル (30 倍の計算能力を使用) よりもパフォーマンスが優れていることがわかります。

ELECTRA は、計算労力を 1/4 未満に抑えながら、GLUE 自然言語理解ベンチマークで RoBERTa および XLNet のパフォーマンスを達成できます。大規模な ELECTRA のトレーニングにさらに多くのコンピューターが使用されると、モデルは SQuAD 2.0 質問応答データセットと言語理解タスクのリーダーボードで最先端のパフォーマンスを達成します。（具体的なデータについては第4章を参照）

コアアイデア - トークンの置き換え検出

ELECTRA は、Replacement Token Detection (RTD) と呼ばれる新しい事前トレーニングタスクを使用します。このタスクでは、すべての入力位置 (LM など) から学習しながら双方向モデル (MLM など) をトレーニングします。

具体的には、ELECTRA の目標は、入力された単語を区別することを学習することです。マスクは使用せず、代わりに提案分布から単語をサンプリングして入力を置き換えます。これにより、マスクによって発生する事前トレーニングと微調整の間の不一致の問題が解決されます。

次に、モデルは各単語が元の単語であるか置換単語であるかを予測する識別器をトレーニングします。識別器の利点の 1 つは、モデルが MLM のようにマスクされた単語だけではなく、入力内のすべての単語から学習するため、計算効率が高くなることです。

多くの開発者が敵対的学習手法と関連付けているように、ELECTRA は確かに敵対的生成ネットワーク (GAN) からインスピレーションを受けています。しかし、違いは、モデルが最大尤度を使用し、非敵対的学習を使用していることです。

たとえば、下の画像では、「cooked」という単語を「ate」に置き換えることができます。これはある程度は理にかなっていますが、全体の文脈には適合しません。事前トレーニングタスクでは、元の入力内のどのトークンが置き換えられたか、または同じままであるかを判断するモデル (つまり、識別子) が必要です。

RTD アプローチは、モデルのバイナリ分類タスクが少数のマスクされた単語 (BERT スタイルのモデルでは 15%) ではなく、すべての入力単語に適用されるため、MLM よりも効率的です。これは、ELECTRA が他の言語モデルと同じパフォーマンスを達成するために必要な例が少ない理由も説明しています。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

置換トークン検出により、すべての入力位置から学習するときに双方向のトレーニングが可能になります。

置換トークンはジェネレーターのニューラルネットワークから生成されます。ジェネレーターの目的は、マスクされた言語モデルをトレーニングすることです。つまり、入力シーケンスが与えられると、入力内の単語が一定の割合 (通常は 15%) でマスクに置き換えられ、ネットワークを通じてベクトル表現が取得され、ソフトマックスレイヤーを使用して入力シーケンス内のマスクされた位置にある単語が予測されます。

ジェネレーターの構造は GAN に似ていますが、この方法をテキストタスクに適用するのが難しいため、結果として得られるトレーニング目的関数はマスクされた単語の最大尤度になります。

その後、ジェネレータと識別器は同じ入力単語埋め込みを共有します。識別器の目的は、入力シーケンスの各位置にある単語がジェネレータによって置き換えられたかどうかを判断することです。元の入力シーケンスの対応する位置にある単語と異なる場合は、置き換えられたと判断されます。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

ジェネレータとディスクリミネータのニューラルネットワークモデル

具体的な研究結果の比較

研究者らは、ELECTRA を他の最先端の NLP モデルと比較し、同じ計算予算を与えられた場合、ELECTRA は以前のアプローチに比べて大幅に改善され、RoBERTa や XLNet と同等のパフォーマンスを発揮しながら、計算量は 4 分の 1 以下であることを発見しました。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

x 軸はモデルのトレーニングに使用された計算量 (FLOP 単位) を示し、y 軸は開発 GLUE スコアを示します。既存の事前トレーニング済み NLP モデルと比較すると、ELECTRA ははるかに効率的に学習します。しかし、GLUEの現在の最良のモデル（T5（11B）など）は、他のモデルよりもはるかに多くの計算を必要とするため（RoBERTaの10倍）、このグラフには適していないことに注意してください。

効率をさらに向上させるために、研究者らは、わずか 4 日間で単一の GPU 上で十分にトレーニングできる小さな ELECTRA モデルを試しました。

ELECTRA-small は、トレーニングに多数の TPU を必要とする大規模モデルと同じ精度を達成することはできませんが、それでも GPT よりも優れたパフォーマンスを発揮し、必要なコンピューティングは 3 分の 1 にすぎません。

次に、この結果が大規模に実装できるかどうかをテストするために、研究者はより多くのコンピューティング（RoBERTa とほぼ同じ量、T5 の約 10%）を使用して大規模な ELECTRA モデルをトレーニングしました。

研究者らは、SQuAD 2.0 質問応答データセットで、大規模な ELECTRA、RoBERTa、XLNet、BERT、および ALBERT モデルのパフォーマンスをテストしました。結果は下の表に示されています。GLUE リーダーボードでは、ELECTRA が他のすべてのモデルよりも優れていることがわかります。

しかし、後者は依然として大型の T5-11b モデルよりも GLUE のスコアが高くなります。しかし、ELECTRA はサイズが 3 分の 1 であり、コンピューティングの 10% をトレーニングに使用することは注目に値します。

Google の最高の NLP 事前トレーニング済みモデルはオープンソースです">

ELECTRA-Largeおよびその他の最先端モデルにおけるSQUAD 2.0データセットのスコア

現在、ELECTRA を事前トレーニングし、下流のタスクで微調整するためのコードがリリースされています。現在サポートされているタスクには、テキスト分類、質問への回答、シーケンスのラベル付けなどがあります。

このコードにより、単一の GPU 上で小さな ELECTRA モデルを高速にトレーニングできるようになります。 Google は今後、ELECTRA-Large、ELECTRA-Base、ELECTRA-Small の事前トレーニングコードもリリースする予定です。（ELECTRA モデルは現在英語版のみで提供されており、今後他の言語バージョンもリリースされる予定です）