Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Google は最新のブログ投稿で、テキスト分類タスクで BERT レベルのパフォーマンスを達成できる新しい NLP モデルを発表しましたが、このモデルは BERT のパラメータの 1/300 しか使用していません。

過去 10 年間で、ディープ ニューラル ネットワークは自然言語処理 (NLP) の分野を根本的に変革しましたが、モバイル デバイスのメモリと処理能力が限られているため、モデルに対する要求は高まっています。パフォーマンスを犠牲にすることなく、より小型化できることが期待されています。

昨年、Google は PRADO と呼ばれるニューラル アーキテクチャをリリースしました。これは、当時の多くのテキスト分類問題で SOTA パフォーマンスを達成し、パラメータ数は 20 万未満でした。ほとんどのモデルではトークンごとに固定数のパラメータを使用しますが、PRADO モデルで使用されるネットワーク構造では、タスクに最も関連性の高い、またはタスクに最も役立つトークンを学習するために必要なパラメータはわずかです。

論文リンク: https://www.aclweb.org/anthology/D19-1506.pdf

最近のブログ投稿で、Google の研究者は PRADO を改良し、改良したモデルを pQRNN と名付けたことを発表しました。新しいモデルは、最小限のモデルサイズで NLP タスクの新しい SOTA を実現します。 pQRNN の斬新な点は、単純な投影操作と準 RNN エンコーダーを組み合わせて、高速な並列処理を実現することです。この研究では、pQRNN モデルがテキスト分類タスクで BERT レベルのパフォーマンスを達成できることが示されていますが、元のパラメータの 1/300 しか使用されていません

PRADOの仕組み

1 年前にモデルを開発したとき、PRADO はテキスト セグメンテーションに関するドメイン固有の NLP 知識を活用して、モデルのサイズを縮小し、モデルのパフォーマンスを向上させました。通常、NLP モデルに入力されたテキストは、まず、事前に定義された一般的な辞書の値に対応するトークンにテキストを分割することによって、ニューラル ネットワークに適した形式に処理されます。次に、ニューラル ネットワークは、トレーニング可能なパラメーター ベクトル (埋め込みテーブルを含む) を使用して、各テキスト スニペットを一意に識別します。ただし、テキストをセグメント化する方法によって、モデルのパフォーマンス、サイズ、レイテンシに大きな影響が及びます。

次の図は、NLP コミュニティで使用されるさまざまなテキスト分割方法と、それぞれの長所と短所を示しています。

テキスト スニペットの数はモデルのパフォーマンスと圧縮に影響を与える重要なパラメーターであるため、NLP モデルがすべての可能性のあるテキスト スニペットを明確に識別できる必要があるかどうかという疑問が生じます。この質問に答えるために、研究者たちは NLP タスクに固有の複雑さを調査しました。

言語モデリングや機械翻訳などのごく一部の NLP タスクでは、テキスト フラグメント間の微妙な違いを理解する必要があり、そのため、考えられるすべてのテキスト フラグメントを一意に識別する必要がある場合があります。他のほとんどのタスクは、これらのテキスト スニペットのサブセットのみを知ることで解決できます。さらに、タスクに関連するテキスト セグメントのサブセットは、必ずしも最も頻繁に使用されるものではありません。これは、その大部分が、多くのタスクにとって重要ではない a、an、the などの専門的な冠詞で構成されている可能性があるためです。

したがって、特定のタスクに最も関連性の高いフラグメントをネットワークが決定できるようにすることで、パフォーマンスを向上させることができます。さらに、ネットワークはこれらのテキスト断片を一意に識別する必要はなく、テキスト断片のクラスターを識別するだけで済みます。たとえば、感情分類器では、テキスト内の感情と強く相関するセグメントのクラスターについてのみ学習する必要があります。

これに基づいて、PRADO は単語の断片や文字ではなく単語からテキスト断片のクラスタリングを学習するように設計されており、複雑度の低い NLP タスクで優れたパフォーマンスを実現できます。単語単位の方が意味があり、ほとんどのタスクに最も関連性の高い単語は少数しかないため、関連する単語クラスターの縮小されたサブセットを学習するには、必要なモデルパラメータがはるかに少なくなります。

PRADOの改善

Google の研究者は、PRADO をベースにしたより強力な NLP モデルである pQRNN を開発しました。このモデルは、テキスト内のトークンをトリプルベクトルのシーケンスに変換する投影演算子、密なボトルネック層、および複数の QRNN エンコーダーという 3 つの構成要素で構成されています

pQRNN の投影層の実装は PRADO で使用されるものと一致しており、モデルが最も関連性の高いトークンを学習するのに役立ちますが、これらのトークンを定義するための固定されたパラメーターのセットはありません。まずテキスト内のトークンを識別し、次に単純なマッピング関数を使用してそれらを 3 値特徴ベクトルに変換します。これにより、テキストを表すバランスのとれた対称分布を持つ 3 つのベクトルのシーケンスが生成されます。この表現は、対象のタスクを解決するために必要な情報が含まれておらず、ネットワークがこの表現を制御できないため、直接使用することはできません。

研究者たちはこれを高密度ボトルネック層と組み合わせ、ネットワークが手元のタスクに関連する単語ごとの表現を学習できるようにした。ボトルネック層によって生成される表現では、単語のコンテキストがまだ考慮されていません。そのため、研究者たちは、コンテキスト表現を学習するために、いくつかの双方向 QRNN エンコーダーを使用しました。その結果、前処理なしでテキスト入力のみからコンテキスト表現を学習できるネットワークが実現します。

pQRNNのパフォーマンス

研究者らは、civil_comments データセットで pQRNN を評価し、同じタスクで BERT モデルと比較しました。モデルのサイズはパラメータの数に比例するため、pQRNN は BERT よりもはるかに小さくなります

さらに、pQRNN は量子化されているため、モデルのサイズは元のサイズの 1/4 にさらに縮小されます。公開トレーニングされた BERT はこの記事のタスクで良好なパフォーマンスを発揮しなかったため、比較に使用した BERT は実際にはいくつかの異なる関連する多言語データ ソースで事前トレーニングされ、最高のパフォーマンスを実現しました。

実験では、研究者らは2つのモデルのAUC情報を取得しました。事前トレーニングなしで、教師ありデータのみでトレーニングした pQRNN は、130 万個の量子化 (8 ビット) パラメータを使用して、AUC 0.963 を達成します。いくつかの異なるデータ ソースで事前トレーニングし、教師ありデータで微調整した後、BERT モデルは 1 億 1,000 万の浮動小数点パラメータを使用して 0.976 の AUC を達成しました。

Google は、コミュニティが Google の研究結果に基づいてさらに改善を行うことを奨励するために、PRADO モデルもオープンソース化しました。

プロジェクトアドレス: https://github.com/tensorflow/models/tree/master/research/sequence_projection

<<:  ポストコロナ時代の住宅建設において、スマート建築はどのように変化するのでしょうか?

>>:  機械学習モデルのパフォーマンスを評価する方法

ブログ    
ブログ    
ブログ    

推薦する

...

OpenAIのアルトマン氏、Nvidiaへの依存を減らすため中東の投資家とチップ協力について協議

1月20日、フィナンシャル・タイムズによると、OpenAIのCEOサム・アルトマン氏は、TSMCを含...

人間は形を見るが、AIは質感を見る:コンピュータービジョン分類の失敗についての議論

[[270985]]研究者たちは、ディープラーニングの視覚アルゴリズムが、主に形状ではなくテクスチャ...

人工知能とモノのインターネットの統合後の応用シナリオは何ですか?

AI をクラウドからエッジに移行することで、主要市場で IoT の幅広い導入を妨げてきた帯域幅とセ...

ディープラーニング? 「ブラックボックス」である必要はない

ディープニューラルネットワークのパラメータネットワークは非常に大きく複雑であり、これによりマシンはこ...

産業用 AI が将来、精製業界にどのような力を与えるか

[[347965]]研究によると、人工知能技術は石油精製業界に大きな利益をもたらす可能性があるそうで...

...

LLaVA-1.6は非常に強力で、Gemini Proを上回り、推論機能とOCR機能が向上しています。

昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同...

...

...

...

ヘルスケア市場における人工知能は2028年までに615億9000万ドルに達すると予想

[[432745]]パーソナライズ医療の需要の高まりは、ヘルスケア市場における人工知能の成長を推進す...

テクノロジーは未来を変えます。将来、配達員も失業するでしょう。配達員のいない郵便局だけが残るでしょう。

信じますか?近い将来に配達員が失業するなどとは信じられない人もいるかもしれないが、これは紛れもない事...

機械学習アルゴリズムが NDA の法的分析テストで 20 人の弁護士に勝利

ロボット工学と人工知能の発展により、多くの仕事が機械に置き換えられるでしょう。機械は、一部のタスク、...