BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニング済みモデルが大きな注目を集めています。最近、Microsoft はこれらの 11 の NLP タスクで BERT を上回る包括的なモデルを発表しました。現在、「Microsoft D36***I & MSR AI」というモデルには対応する論文やプロジェクトアドレスが提供されていないため、新しい事前トレーニング方法であるかどうかは不明です。 BERT と Microsoft の新しいモデルはどちらも、一般言語理解評価 (GLUE) ベンチマークの 11 のタスクを使用しており、GLUE を使用して、幅広い自然言語理解タスクにおけるモデルの堅牢性を実証したいと考えています。 GLUE ベンチマークでは特定のモデルに関する知識は必要ないため、原則として、文や文のペアを処理し、対応する予測を生成できるシステムであれば、評価に参加できます。これら 11 のベンチマーク タスクは、タスク全体にわたるモデルの機能、特にパラメータ共有や転移学習のパフォーマンスを測定することに重点を置いています。 GLUE ベンチマークにおける Microsoft の新しいモデルのパフォーマンスから判断すると、少なくとも 11 の NLP タスクで BERT-Large よりも効率的です。この高い効率は、81.9 という全体的なタスク スコアだけでなく、パラメータ効率にも反映されています。 Microsoft の新しいモデルには 1 億 1,000 万個のパラメーターしかありません。これは、BERT-Large モデルの 3 億 3,500 万個のパラメーターよりもはるかに少なく、BERT-Base と同じ数のパラメーターです。次の図は、GLUE ベンチマークの上位 5 つのモデルを示しています。 「Microsoft D36***I & MSR AI」モデルの説明ページでは、新しいモデルはマルチタスク共同学習を使用しています。したがって、すべてのタスクは同じ構造を共有し、マルチタスク トレーニング アプローチを通じて共同で学習されます。さらに、これら 11 のタスクは、文対分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE、SWAG、単一文分類タスク SST-2、CoLA、質問応答タスク SQuAD v1.1、単一文注釈タスク (名前付きエンティティ認識) CoNLL-2003 NER の 4 つのカテゴリに分類できます。 このうち、文章ペア分類タスクでは、質問と回答のペアに正解が含まれているかどうかを判定するQNLIや、2つの文章がどの程度類似しているかを判定するSTS-Bなどがあり、いずれも文章間の関係性を処理するために使われています。単文分類タスクには、文の感情傾向を判断するSST-2タスクと文法の正しさを判断するCoLAタスクがあり、どちらも文の内部関係を扱います。 SQuAD v1.1 質問応答データセットでは、モデルは質問を通じて段落内の正解の位置と長さを取得します。 ***名前付きエンティティ認識データセット CoNLL では、各時間ステップで人物や場所などのラベルが何であるかを予測します。 以下は、さまざまなタスクにおける Microsoft の新しいモデルのスコアです。 現時点では、Microsoft の新しいモデルのパフォーマンスはまだ非常に限られています。マルチタスクの事前トレーニング後に BERT などのより広範な NLP タスクに使用できれば、このような効率的なモデルには間違いなく大きな利点があります。 |
>>: Facebookは、さまざまな機械学習の問題に適用できる、勾配フリー最適化のためのオープンソースツール「Nevergrad」をリリースしました。
[[443157]]日本における人工知能の開発はますます成熟しつつあります。日本は現在、「人工知能ア...
[[176814]]映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワー...
ディープラーニング、機械学習、人工知能 — これらの流行語は分析の未来を表しています。この記事では、...
[[438413]]都市の生命線であり動脈である交通の発展は極めて重要です。しかし、近年、都市化が...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[421597]]社会の生産性が急速に発展するにつれ、文学作品に描かれた未来の技術やより良い生活が...
[[212077]]本質的に、ディープラーニングは、ディープニューラルネットワーク構造(多くの隠れ...
近年、AIの波が押し寄せ、各界ではAIが人間の仕事に取って代わるドラマが相次いで上演されています。A...
以前に Vicuna モデルと大規模な言語モデル コンペティションをリリースした LMSYS Org...
人工知能に関しては、多くの人が懸念を表明しています。例えば、人類開発の最前線にいるホーキング博士とマ...
ビッグデータダイジェスト制作出典: piprogramming編纂者:清寧人工知能は私たちの生活の一...
[[439314]]マージ間隔LeetCode の問題へのリンク: https://leetcode...
過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...