Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Google は最新のブログ投稿で、テキスト分類タスクで BERT レベルのパフォーマンスを達成できる新しい NLP モデルを発表しましたが、このモデルは BERT のパラメータの 1/300 しか使用していません。

過去 10 年間で、ディープニューラルネットワークは自然言語処理 (NLP) の分野を根本的に変革しましたが、モバイルデバイスのメモリと処理能力が限られているため、モデルに対する要求は高まっています。パフォーマンスを犠牲にすることなく、より小型化できることが期待されています。

昨年、Google は PRADO と呼ばれるニューラルアーキテクチャをリリースしました。これは、当時の多くのテキスト分類問題で SOTA パフォーマンスを達成し、パラメータ数は 20 万未満でした。ほとんどのモデルではトークンごとに固定数のパラメータを使用しますが、PRADO モデルで使用されるネットワーク構造では、タスクに最も関連性の高い、またはタスクに最も役立つトークンを学習するために必要なパラメータはわずかです。

論文リンク: https://www.aclweb.org/anthology/D19-1506.pdf

最近のブログ投稿で、Google の研究者は PRADO を改良し、改良したモデルを pQRNN と名付けたことを発表しました。新しいモデルは、最小限のモデルサイズで NLP タスクの新しい SOTA を実現します。 pQRNN の斬新な点は、単純な投影操作と準 RNN エンコーダーを組み合わせて、高速な並列処理を実現することです。この研究では、pQRNN モデルがテキスト分類タスクで BERT レベルのパフォーマンスを達成できることが示されていますが、元のパラメータの 1/300 しか使用されていません。

PRADOの仕組み

1 年前にモデルを開発したとき、PRADO はテキストセグメンテーションに関するドメイン固有の NLP 知識を活用して、モデルのサイズを縮小し、モデルのパフォーマンスを向上させました。通常、NLP モデルに入力されたテキストは、まず、事前に定義された一般的な辞書の値に対応するトークンにテキストを分割することによって、ニューラルネットワークに適した形式に処理されます。次に、ニューラルネットワークは、トレーニング可能なパラメーターベクトル (埋め込みテーブルを含む) を使用して、各テキストスニペットを一意に識別します。ただし、テキストをセグメント化する方法によって、モデルのパフォーマンス、サイズ、レイテンシに大きな影響が及びます。

次の図は、NLP コミュニティで使用されるさまざまなテキスト分割方法と、それぞれの長所と短所を示しています。

テキストスニペットの数はモデルのパフォーマンスと圧縮に影響を与える重要なパラメーターであるため、NLP モデルがすべての可能性のあるテキストスニペットを明確に識別できる必要があるかどうかという疑問が生じます。この質問に答えるために、研究者たちは NLP タスクに固有の複雑さを調査しました。

言語モデリングや機械翻訳などのごく一部の NLP タスクでは、テキストフラグメント間の微妙な違いを理解する必要があり、そのため、考えられるすべてのテキストフラグメントを一意に識別する必要がある場合があります。他のほとんどのタスクは、これらのテキストスニペットのサブセットのみを知ることで解決できます。さらに、タスクに関連するテキストセグメントのサブセットは、必ずしも最も頻繁に使用されるものではありません。これは、その大部分が、多くのタスクにとって重要ではない a、an、the などの専門的な冠詞で構成されている可能性があるためです。

したがって、特定のタスクに最も関連性の高いフラグメントをネットワークが決定できるようにすることで、パフォーマンスを向上させることができます。さらに、ネットワークはこれらのテキスト断片を一意に識別する必要はなく、テキスト断片のクラスターを識別するだけで済みます。たとえば、感情分類器では、テキスト内の感情と強く相関するセグメントのクラスターについてのみ学習する必要があります。

これに基づいて、PRADO は単語の断片や文字ではなく単語からテキスト断片のクラスタリングを学習するように設計されており、複雑度の低い NLP タスクで優れたパフォーマンスを実現できます。単語単位の方が意味があり、ほとんどのタスクに最も関連性の高い単語は少数しかないため、関連する単語クラスターの縮小されたサブセットを学習するには、必要なモデルパラメータがはるかに少なくなります。

PRADOの改善

Google の研究者は、PRADO をベースにしたより強力な NLP モデルである pQRNN を開発しました。このモデルは、テキスト内のトークンをトリプルベクトルのシーケンスに変換する投影演算子、密なボトルネック層、および複数の QRNN エンコーダーという 3 つの構成要素で構成されています。

pQRNN の投影層の実装は PRADO で使用されるものと一致しており、モデルが最も関連性の高いトークンを学習するのに役立ちますが、これらのトークンを定義するための固定されたパラメーターのセットはありません。まずテキスト内のトークンを識別し、次に単純なマッピング関数を使用してそれらを 3 値特徴ベクトルに変換します。これにより、テキストを表すバランスのとれた対称分布を持つ 3 つのベクトルのシーケンスが生成されます。この表現は、対象のタスクを解決するために必要な情報が含まれておらず、ネットワークがこの表現を制御できないため、直接使用することはできません。

研究者たちはこれを高密度ボトルネック層と組み合わせ、ネットワークが手元のタスクに関連する単語ごとの表現を学習できるようにした。ボトルネック層によって生成される表現では、単語のコンテキストがまだ考慮されていません。そのため、研究者たちは、コンテキスト表現を学習するために、いくつかの双方向 QRNN エンコーダーを使用しました。その結果、前処理なしでテキスト入力のみからコンテキスト表現を学習できるネットワークが実現します。

pQRNNのパフォーマンス

研究者らは、civil_comments データセットで pQRNN を評価し、同じタスクで BERT モデルと比較しました。モデルのサイズはパラメータの数に比例するため、pQRNN は BERT よりもはるかに小さくなります。

さらに、pQRNN は量子化されているため、モデルのサイズは元のサイズの 1/4 にさらに縮小されます。公開トレーニングされた BERT はこの記事のタスクで良好なパフォーマンスを発揮しなかったため、比較に使用した BERT は実際にはいくつかの異なる関連する多言語データソースで事前トレーニングされ、最高のパフォーマンスを実現しました。

実験では、研究者らは2つのモデルのAUC情報を取得しました。事前トレーニングなしで、教師ありデータのみでトレーニングした pQRNN は、130 万個の量子化 (8 ビット) パラメータを使用して、AUC 0.963 を達成します。いくつかの異なるデータソースで事前トレーニングし、教師ありデータで微調整した後、BERT モデルは 1 億 1,000 万の浮動小数点パラメータを使用して 0.976 の AUC を達成しました。

Google は、コミュニティが Google の研究結果に基づいてさらに改善を行うことを奨励するために、PRADO モデルもオープンソース化しました。

プロジェクトアドレス: https://github.com/tensorflow/models/tree/master/research/sequence_projection

<<: ポストコロナ時代の住宅建設において、スマート建築はどのように変化するのでしょうか？

>>: 機械学習モデルのパフォーマンスを評価する方法