2019 年の NLP における最先端のブレークスルーを振り返る

2019 年の NLP における最先端のブレークスルーを振り返る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

2019 年に自然言語処理 (NLP) でどのようなブレークスルーがありましたか?

NLP に関して言えば、 BERT はよく知られた名前です。

感情分析、質問応答、文章類似性など、複数の NLP タスクで優れた結果を達成しています。

さらに、Kaggle のようなコンテストでも、メディアの報道でも、いつでも見ることができます。

この本は2018年後半に出版され、それから1年でNLPとNLU(自然言語理解)の分野は大きく成長しました。

そこで、この記事では、BERT のリリースをタイム ノードとして、その前後における NLP 分野の重要なプロジェクトとモデルを整理します。

BERT 以前の主要な NLP プロジェクトのタイムライン

BERT モデルが提案される前は、NLP 分野の主なプロジェクトは、次の図に示すように時間順に分類されていました。

Word2Vecモデルは 2013 年 1 月にリリースされ、現在でも非常に人気があります。

あらゆる NLP タスクにおいて、研究者が最初に試す可能性が高いモデルです。

https://arxiv.org/abs/1301.3781

FastTextGloVe は、それぞれ 2016 年 7 月と 2014 年 1 月に提案されました。

FastText は、ユーザーがテキスト表現とテキスト分類子を学習できるようにする、オープンソースで無料の軽量ライブラリです。

https://fasttext.cc/

GloVe は、単語のベクトル表現を取得するための教師なし学習アルゴリズムです。

https://nlp.stanford.edu/projects/glove/

Transformerは 2017 年 6 月に提案され、エンコーダーとデコーダーの構造に基づいたモデルです。

機械翻訳タスクでは RNN や CNN よりも優れており、エンコーダー/デコーダーとアテンションメカニズムのみを使用して優れた結果を達成できます。最大の利点は、効率的に並列化できることです。

https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

ELMo は2018 年 2 月に提案されました。事前トレーニング済みの双方向言語モデルを使用し、特定の入力に基づいて言語モデルからコンテキスト依存の現在の単語表現を取得し、それを特定の NLP 教師ありモデルに機能として追加します。

https://allennlp.org/elmo

また、NLPタスク用の転移学習モデルであるUlmfitというモデルもあります。ラベル付きデータの数千倍の量でトレーニングした場合と同レベルのテキスト分類精度を達成するために、ごく少量のラベル付きデータを使用するだけで済みます。

https://arxiv.org/abs/1801.06146

ELMo と Ulmfit は BERT より前に登場し、Transformer ベースの構造を採用していなかったことは注目に値します。

バート

BERTモデルは 2018 年 10 月に提案されました。

完全な名前は、双方向エンコーダー表現 from Transformers で、双方向 Transformer のエンコーダーです (デコーダーは予測する情報を取得できないため)。

△論文アドレス:https://arxiv.org/abs/1810.04805

このモデルの主な革新は事前トレーニング方法にあり、マスクされた LM と次の文の予測を使用して、それぞれ単語レベルと文レベルの表現をキャプチャします。

Google は検索結果を改善するために BERT を使い始めました。

より詳細な BERT モデルのチュートリアルは次のとおりです。
http://jalammar.github.io/illustrated-bert/

事前トレーニング済みの重みは、公式の Github リポジトリからダウンロードできます。
https://github.com/google-research/bert

Bert は Tensorflow ハブ モジュールとしても使用できます。
https://tfhub.dev/google/collections/bert/1

記事の最後には、非常に便利なさまざまなライブラリが提供されます。

BERT 後の主要な NLP プロジェクトのタイムライン

Google が BERT を提案した後、NLP の分野では他の優れた作業プロジェクトが登場しました。

トランスフォーマーXL

Transormer-XL は Transformer のアップグレード版であり、Transformer よりも 1,800 倍以上高速です。

ここでの XL は extra long、つまり超長いという意味で、Transformer-XL が言語モデリングにおける長距離依存性の問題で非常に優れたパフォーマンスを発揮することを示しています。同時に、遠距離依存の問題のために生まれたことも意味します。

長距離依存性の問題は、現在のテキスト処理モデルが直面している難しい問題であり、RNN が失敗する問題でもあります。

対照的に、Transformer-XL は RNN よりも 80% 長い依存関係を学習します。バニラのトランスフォーマーよりも 450% 高速です。

短いシーケンスでも長いシーケンスでも非常に優れたパフォーマンスを発揮します。

https://arxiv.org/abs/1901.02860

GPT-2

GPT-2は、BERTに次いでメディアの注目を集めたNLPモデルと言えます。

これは OpenAI がリリースした驚異的な言語 AI です。モデル全体に​​は 15 億のパラメータが含まれています。

特定の分野におけるさまざまな言語モデリングタスクを、ターゲットを絞ったトレーニングなしで実行できるほか、読解、質疑応答、記事の要約生成、翻訳などの機能も備えています。

さらに、OpenAI は当初、このプロジェクトが強力すぎることを懸念し、オープンソース化しないことを選択しました。しかし10ヵ月後、公表することが決定されました。

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

アーニー

ERNIE は、語彙、構文、知識情報を同時に活用できる Baidu 独自のディープラーニング フレームワーク PaddlePaddle 上に構築されています。

実験結果では、さまざまな知識駆動型タスクで大幅な改善が見られ、他の一般的なタスクでは既存の BERT モデルに匹敵することが示されています。

現在、ERNIE 2.0 バージョンは GLUE ランキングで 1 位にランクされています。
https://github.com/PaddlePaddle/ERNIE

XLNET

XLNet は BERT のようなモデルであり、一般的な自己回帰事前トレーニング方法です。

従来の AR モデルのように固定された前方または後方因数分解順序を使用する代わりに、すべての可能な因数分解順序の期待される対数尤度を最大化します。

第二に、一般化された AR 言語モデルとして、XLNet は不完全なデータに依存しません。

さらに、XLNet では事前トレーニング アーキテクチャ設計も改善されています。

https://arxiv.org/abs/1906.08237

ロベルタ

RoBERTaはFacebookによって提案されました。

Google の BERT はモデル レベルでは変更されず、事前トレーニング方法のみが変更されます。

BERT と比較すると、モデル サイズ、計算能力、データの点で次の改善があります。

より大きなモデル パラメータ サイズ: モデルは 1024 個の V100 GPU を使用して 1 日間トレーニングされました。

より大きなバッチ サイズ: RoBERTa はトレーニング中により大きなバッチ サイズを使用し、256 から 8000 の範囲のバッチ サイズを試しました。

追加のトレーニングデータ:CC-NEWSなどを含む160GBのプレーンテキスト。

https://arxiv.org/abs/1907.11692

セールスフォースコントロール

CTRL の正式名称は Conditional Transformer Language で、16 億個のパラメータが含まれています。

強力で制御可能な人工テキスト生成機能を備えており、トレーニング データのどのサブセットが生成されたテキスト シーケンスに最も大きな影響を与えるかを予測できます。

これにより、モデルのトレーニング データの最も影響力のあるソースを特定することで、生成された大量のテキストを分析するための潜在的なアプローチが提供されます。

CTRL は、特定のタスクを微調整したり、モデルが学習した表現を転送したりすることで、他の NLP アプリケーションを改善することもできます。

https://blog.einstein.ai/introducing-a-conditional-transformer-language-model-for-controllable-generation/

アルバート

ALBERT は、Google がリリースした軽量の BERT モデルです。

BERT モデルよりも 18 倍小さいパラメータを持ち、BERT モデルよりも優れたパフォーマンスを発揮し、SQuAD および RACE テストで新しい SOTA を作成します。

少し前に、Google もこれをアップグレードし、ALBERT 2 と中国語版をリリースしました。

このバージョンでは、「ドロップアウトなし」、「追加のトレーニング データ」、「長いトレーニング時間」の戦略がすべてのモデルに適用されます。

パフォーマンス比較では、ALBERT-base、ALBERT-large、ALBERT-xlarge の場合、バージョン v2 はバージョン v1 よりもはるかに優れています。

上記の 3 つの戦略を採用することの重要性を説明します。

https://arxiv.org/abs/1909.11942

パフォーマンスベンチマーク

これらの言語モデルを評価する方法の 1 つがGlue Benchmarkです。

分類、質問応答などのモデルを評価するためのさまざまな NLP タスクが含まれています。

Glue ベンチマークが初めてリリースされたとき、BERT モデルはパフォーマンスで 1 位にランクされました。

しかし、2020年1月2日現在、わずか1年でBERTは19位にランクされています。

さらに難しい言語タスクを含む SuperGlue ベンチマークも登場しました。

質問応答システムの評価には、SQuAD がよく使用されます。

ここでは、BERT およびトランスフォーマーベースのモデルの方がパフォーマンスが優れています。

その他のBERT関連プロジェクト

ディスティルバート

DistilBERT は、HuggingFace がリリースした小さな NLP トランスフォーマー モデルです。BERT と似たアーキテクチャを持ちますが、使用するパラメーターは 6,600 万個のみで、GLUE ベンチマークでは BERT の 95% のパフォーマンスを達成します。

https://arxiv.org/abs/1910.01108

メガトロン-LM

Megatron-LM は、NVIDIA がリリースした NLP モデルです。

Nvidia は、独自のハードウェアと並列コンピューティング ソフトウェアを組み合わせて、当時 3 つの記録を樹立しました。

トレーニング速度はわずか53分です。
推論速度はわずか2.2msです。
83億個のパラメータが含まれています。

https://github.com/NVIDIA/Megatron-LM

バイオバート

BioBERT は、生物医学テキスト マイニング用の事前トレーニング済みの生物医学言語表現モデルです。

生物医学コーパスで事前トレーニングすると、さまざまな生物医学テキストマイニングタスクにおいて、BERT や以前の最先端モデルを大幅に上回るパフォーマンスを発揮します。

https://github.com/dmis-lab/biobert

カマンベール

CamemBERT は、RoBERTa 構造に基づいたフランス語言語モデルです。

https://camembert-model.fr/

NLP ライブラリ

知っておく必要があると思われる NLP ライブラリをいくつか紹介します。

スペーシー

Spacy は、タグ付け、品詞などのさまざまな自然言語処理タスクを処理できる、人気のある高速 NLP ライブラリです。 NER のような事前トレーニング済みモデルも提供します。

https://spacy.io/

ハギングフェイストランスフォーマー

これは、当初「Pytorch-pretrained-BERT」として知られていた、BERT の Pytorch 実装を提供する最初のライブラリの 1 つでした。

その後、GPT-2、XLNET などのモデルが追加されました。

1 年も経たないうちに、最も人気のある NLP ライブラリの 1 つになり、BERT やその他のモデルの使用が容易になりました。

https://github.com/huggingface/transformers

アレンNLP

AllenNLP は、PyTorch をベースにした、Allen Institute of AI の NLP ライブラリです。

https://allennlp.org/

フレア

Flair は、NER や POS などのモデルを備えた NLP ライブラリでもあり、BERT、ELMO、XLNET などの埋め込みもサポートしています。

https://github.com/flairNLP/flair

グルーオンNLP

Apache MXNet 上の NLP ツールキットである GluonNLP は、事前トレーニング済みの BERT 埋め込みを組み込んだ最初のライブラリの 1 つです。

https://gluon-nlp.mxnet.io/

では、NLP は 2020 年にどのようなブレークスルーを達成するのでしょうか?

ポータル

https://towardsdatascience.com/2019-year-of-bert-and-transformer-f200b53d05b9

<<:  Facebook がアルゴリズム コード ライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

>>:  ディープフェイクを即座に排除しましょう!マイクロソフト北京大学、AIによる顔変更ツールと偽顔検出ツールを提案

ブログ    
ブログ    

推薦する

それは大したことだ! Google によれば、人類は 2029 年に不死を達成するそうです。病気も老化も痛みも完全に消え去ります! ?

この世で最も公平なものは、誕生、老い、病気、そして死だと思います。人生においてどれほど偉大な業績を成...

顔をスキャンして食べて、拭いてから帰る、アリババの未来の人工知能レストランがお披露目!

[[218392]]毎年、最も注目を集めるのはジャック・マー氏だ。彼は住宅賃貸の保証金を免除したり...

...

変数からカプセル化まで: この記事は機械学習のための強固なPythonの基礎を築くのに役立ちます

[[206375]]まず、Python とは何でしょうか? Python の作成者である Guido...

神よ、AIロボットは人間よりも優れた政治家になれると信じますか?

[[186489]]昨年、アルファ碁がイ・セドルに勝利して以来、人工知能は国民の間で話題となってい...

...

AIによりドローンは未知の環境でも高速で自律飛行できる

チューリッヒ大学の研究者らは、複雑で未知の環境でもドローンが高速で自律飛行できるようにする新たな人工...

IBM、スタートアップを支援するために5億ドルのエンタープライズAIベンチャーファンドを設立

IBMは最近、新たな企業投資ツールであるEnterprise AI Venture Fundを立ち上...

開発が急ピッチで進む、医療ロボットには大きな可能性がある

今日の社会では、ロボットはますます人間とつながるようになっています。産業用ロボットが組立ラインで忙し...

脳コンピューターインターフェースが人間とコンピューターの共生を実現 専門家:ハッカーにハイジャックされ記憶を消去される可能性も

[[336395]]海外メディアの報道によると、8月4日、サイバーセキュリティの専門家は、イーロン・...

Antの信用リスク管理の実践

1. 信用リスク管理業務の背景と事例まず、当社の事業シナリオについて簡単にご紹介させていただきます。...

メイン検索と店内検索の共同最適化の予備調査と試み

背景と概要Taobao プラットフォームには、検索、推奨、広告など、多くのサブシナリオがあります。各...

...