Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Google は最新のブログ投稿で、テキスト分類タスクで BERT レベルのパフォーマンスを達成できる新しい NLP モデルを発表しましたが、このモデルは BERT のパラメータの 1/300 しか使用していません。

過去 10 年間で、ディープ ニューラル ネットワークは自然言語処理 (NLP) の分野を根本的に変革しましたが、モバイル デバイスのメモリと処理能力が限られているため、モデルに対する要求は高まっています。パフォーマンスを犠牲にすることなく、より小型化できることが期待されています。

昨年、Google は PRADO と呼ばれるニューラル アーキテクチャをリリースしました。これは、当時の多くのテキスト分類問題で SOTA パフォーマンスを達成し、パラメータ数は 20 万未満でした。ほとんどのモデルではトークンごとに固定数のパラメータを使用しますが、PRADO モデルで使用されるネットワーク構造では、タスクに最も関連性の高い、またはタスクに最も役立つトークンを学習するために必要なパラメータはわずかです。

論文リンク: https://www.aclweb.org/anthology/D19-1506.pdf

最近のブログ投稿で、Google の研究者は PRADO を改良し、改良したモデルを pQRNN と名付けたことを発表しました。新しいモデルは、最小限のモデルサイズで NLP タスクの新しい SOTA を実現します。 pQRNN の斬新な点は、単純な投影操作と準 RNN エンコーダーを組み合わせて、高速な並列処理を実現することです。この研究では、pQRNN モデルがテキスト分類タスクで BERT レベルのパフォーマンスを達成できることが示されていますが、元のパラメータの 1/300 しか使用されていません

PRADOの仕組み

1 年前にモデルを開発したとき、PRADO はテキスト セグメンテーションに関するドメイン固有の NLP 知識を活用して、モデルのサイズを縮小し、モデルのパフォーマンスを向上させました。通常、NLP モデルに入力されたテキストは、まず、事前に定義された一般的な辞書の値に対応するトークンにテキストを分割することによって、ニューラル ネットワークに適した形式に処理されます。次に、ニューラル ネットワークは、トレーニング可能なパラメーター ベクトル (埋め込みテーブルを含む) を使用して、各テキスト スニペットを一意に識別します。ただし、テキストをセグメント化する方法によって、モデルのパフォーマンス、サイズ、レイテンシに大きな影響が及びます。

次の図は、NLP コミュニティで使用されるさまざまなテキスト分割方法と、それぞれの長所と短所を示しています。

テキスト スニペットの数はモデルのパフォーマンスと圧縮に影響を与える重要なパラメーターであるため、NLP モデルがすべての可能性のあるテキスト スニペットを明確に識別できる必要があるかどうかという疑問が生じます。この質問に答えるために、研究者たちは NLP タスクに固有の複雑さを調査しました。

言語モデリングや機械翻訳などのごく一部の NLP タスクでは、テキスト フラグメント間の微妙な違いを理解する必要があり、そのため、考えられるすべてのテキスト フラグメントを一意に識別する必要がある場合があります。他のほとんどのタスクは、これらのテキスト スニペットのサブセットのみを知ることで解決できます。さらに、タスクに関連するテキスト セグメントのサブセットは、必ずしも最も頻繁に使用されるものではありません。これは、その大部分が、多くのタスクにとって重要ではない a、an、the などの専門的な冠詞で構成されている可能性があるためです。

したがって、特定のタスクに最も関連性の高いフラグメントをネットワークが決定できるようにすることで、パフォーマンスを向上させることができます。さらに、ネットワークはこれらのテキスト断片を一意に識別する必要はなく、テキスト断片のクラスターを識別するだけで済みます。たとえば、感情分類器では、テキスト内の感情と強く相関するセグメントのクラスターについてのみ学習する必要があります。

これに基づいて、PRADO は単語の断片や文字ではなく単語からテキスト断片のクラスタリングを学習するように設計されており、複雑度の低い NLP タスクで優れたパフォーマンスを実現できます。単語単位の方が意味があり、ほとんどのタスクに最も関連性の高い単語は少数しかないため、関連する単語クラスターの縮小されたサブセットを学習するには、必要なモデルパラメータがはるかに少なくなります。

PRADOの改善

Google の研究者は、PRADO をベースにしたより強力な NLP モデルである pQRNN を開発しました。このモデルは、テキスト内のトークンをトリプルベクトルのシーケンスに変換する投影演算子、密なボトルネック層、および複数の QRNN エンコーダーという 3 つの構成要素で構成されています

pQRNN の投影層の実装は PRADO で使用されるものと一致しており、モデルが最も関連性の高いトークンを学習するのに役立ちますが、これらのトークンを定義するための固定されたパラメーターのセットはありません。まずテキスト内のトークンを識別し、次に単純なマッピング関数を使用してそれらを 3 値特徴ベクトルに変換します。これにより、テキストを表すバランスのとれた対称分布を持つ 3 つのベクトルのシーケンスが生成されます。この表現は、対象のタスクを解決するために必要な情報が含まれておらず、ネットワークがこの表現を制御できないため、直接使用することはできません。

研究者たちはこれを高密度ボトルネック層と組み合わせ、ネットワークが手元のタスクに関連する単語ごとの表現を学習できるようにした。ボトルネック層によって生成される表現では、単語のコンテキストがまだ考慮されていません。そのため、研究者たちは、コンテキスト表現を学習するために、いくつかの双方向 QRNN エンコーダーを使用しました。その結果、前処理なしでテキスト入力のみからコンテキスト表現を学習できるネットワークが実現します。

pQRNNのパフォーマンス

研究者らは、civil_comments データセットで pQRNN を評価し、同じタスクで BERT モデルと比較しました。モデルのサイズはパラメータの数に比例するため、pQRNN は BERT よりもはるかに小さくなります

さらに、pQRNN は量子化されているため、モデルのサイズは元のサイズの 1/4 にさらに縮小されます。公開トレーニングされた BERT はこの記事のタスクで良好なパフォーマンスを発揮しなかったため、比較に使用した BERT は実際にはいくつかの異なる関連する多言語データ ソースで事前トレーニングされ、最高のパフォーマンスを実現しました。

実験では、研究者らは2つのモデルのAUC情報を取得しました。事前トレーニングなしで、教師ありデータのみでトレーニングした pQRNN は、130 万個の量子化 (8 ビット) パラメータを使用して、AUC 0.963 を達成します。いくつかの異なるデータ ソースで事前トレーニングし、教師ありデータで微調整した後、BERT モデルは 1 億 1,000 万の浮動小数点パラメータを使用して 0.976 の AUC を達成しました。

Google は、コミュニティが Google の研究結果に基づいてさらに改善を行うことを奨励するために、PRADO モデルもオープンソース化しました。

プロジェクトアドレス: https://github.com/tensorflow/models/tree/master/research/sequence_projection

<<:  ポストコロナ時代の住宅建設において、スマート建築はどのように変化するのでしょうか?

>>:  機械学習モデルのパフォーマンスを評価する方法

ブログ    
ブログ    
ブログ    

推薦する

...

疫病と闘う最前線の医療従事者を守るためにAIをどう活用するか?

私たちは前例のない危機を生きています。 COVID-19パンデミックの間、医療従事者は最前線のヒーロ...

OpenAIの取締役会が数秒で後悔!ウルトラマン、CEOに復帰要請

たった1日で、OpenAIの取締役会は劇的に変化しました。最新のニュースによると、ウルトラマンがCE...

機械学習のトレーニングをより安価かつ効率的にする方法

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングは費用がかかり、困...

AI による顔を変える動画が何百万人ものユーザーを獲得。たった 1 ステップで楽しさから恐怖感まで

今朝、私の友人の輪の中に、AI による顔の変形に関する短い動画が大量に現れました。これらの短編動画の...

テキスト生成画像は非常に人気があり、これらの技術の進化を理解する必要があります

OpenAIは最近、AIコミュニティに「地震」を引き起こしたDALL・E 2システムをリリースしま...

ロボットがIoTアプリケーションの範囲を拡大する方法

ロボットの学習能力と IoT アプリケーションの相互接続性は、実りある未来を約束します。モノのインタ...

OpenAI エンジニア必読: 苦い教訓

OpenAIが動画生成モデルSoraをリリースしてから1週間が経ちましたが、その人気は衰えていません...

自動運転に関して、私たちはこれら 3 つの重要な問題を意図的に避けているのでしょうか?

Leifeng.com によると、「部屋の中の象」という外国の慣用句は、「ワニの涙」と同じくらい有...

画期的なニューラルネットワークが量子AI研究への道を開く可能性

海外メディアの報道によると、イタリアの研究者らは最近、量子コンピュータ上で特殊なアルゴリズムを実行す...

ついに! SM2 国家暗号アルゴリズムが Linux カーネル コミュニティに承認されました

背景Guomi は国家商用暗号化の略称です。アルゴリズム標準は国家暗号管理局によって策定され、多数の...

...

AI教育改革の障害

近年、人工知能技術は最先端技術の代名詞として、徐々に生活の各分野に浸透しており、教育業界も例外ではあ...

50 以上の実用的な機械学習および予測 API (2018 年版)

[51CTO.com クイック翻訳] この記事では、顔認識や画像認識、テキスト分析、自然言語処理 ...

生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

[[416911]]一般的に、ビデオ圧縮の目的は、時間的および空間的な冗長性を活用して視覚コンテンツ...