BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニング済みモデルが大きな注目を集めています。最近、Microsoft はこれらの 11 の NLP タスクで BERT を上回る包括的なモデルを発表しました。現在、「Microsoft D36***I & MSR AI」というモデルには対応する論文やプロジェクトアドレスが提供されていないため、新しい事前トレーニング方法であるかどうかは不明です。

BERT と Microsoft の新しいモデルはどちらも、一般言語理解評価 (GLUE) ベンチマークの 11 のタスクを使用しており、GLUE を使用して、幅広い自然言語理解タスクにおけるモデルの堅牢性を実証したいと考えています。 GLUE ベンチマークでは特定のモデルに関する知識は必要ないため、原則として、文や文のペアを処理し、対応する予測を生成できるシステムであれば、評価に参加できます。これら 11 のベンチマーク タスクは、タスク全体にわたるモデルの機能、特にパラメータ共有や転移学習のパフォーマンスを測定することに重点を置いています。

GLUE ベンチマークにおける Microsoft の新しいモデルのパフォーマンスから判断すると、少なくとも 11 の NLP タスクで BERT-Large よりも効率的です。この高い効率は、81.9 という全体的なタスク スコアだけでなく、パラメータ効率にも反映されています。 Microsoft の新しいモデルには 1 億 1,000 万個のパラメーターしかありません。これは、BERT-Large モデルの 3 億 3,500 万個のパラメーターよりもはるかに少なく、BERT-Base と同じ数のパラメーターです。次の図は、GLUE ベンチマークの上位 5 つのモデルを示しています。

「Microsoft D36***I & MSR AI」モデルの説明ページでは、新しいモデルはマルチタスク共同学習を使用しています。したがって、すべてのタスクは同じ構造を共有し、マルチタスク トレーニング アプローチを通じて共同で学習されます。さらに、これら 11 のタスクは、文対分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE、SWAG、単一文分類タスク SST-2、CoLA、質問応答タスク SQuAD v1.1、単一文注釈タスク (名前付きエンティティ認識) CoNLL-2003 NER の 4 つのカテゴリに分類できます。

このうち、文章ペア分類タスクでは、質問と回答のペアに正解が含まれているかどうかを判定するQNLIや、2つの文章がどの程度類似しているかを判定するSTS-Bなどがあり、いずれも文章間の関係性を処理するために使われています。単文分類タスクには、文の感情傾向を判断するSST-2タスクと文法の正しさを判断するCoLAタスクがあり、どちらも文の内部関係を扱います。

SQuAD v1.1 質問応答データセットでは、モデルは質問を通じて段落内の正解の位置と長さを取得します。 ***名前付きエンティティ認識データセット CoNLL では、各時間ステップで人物や場所などのラベルが何であるかを予測します。

以下は、さまざまなタスクにおける Microsoft の新しいモデルのスコアです。

現時点では、Microsoft の新しいモデルのパフォーマンスはまだ非常に限られています。マルチタスクの事前トレーニング後に BERT などのより広範な NLP タスクに使用できれば、このような効率的なモデルには間違いなく大きな利点があります。

<<:  在庫 | 今年の世界の AI 事情

>>:  Facebookは、さまざまな機械学習の問題に適用できる、勾配フリー最適化のためのオープンソースツール「Nevergrad」をリリースしました。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

天才少年が自動運転の「自転車」を製作、ネットユーザー「テスラも見たら泣くだろう」

自転車が「自力で歩ける」ようになるのはいつでしょうか? [[404743]]自転車は劣駆動システムで...

...

...

人工知能の罪と罰についても話しましょう

1. ある人にとっての好物は、別の人にとっては毒物かもしれない人工知能 (AI) が独自の言語を作成...

AIがいかにして将来の採用担当者のスキルを生み出すか

AI が採用業務を自動化し続けるにつれて、採用担当者のスキルが変化するという共通認識が広まりつつあり...

...

Google の公式 Android Market ランキング アルゴリズムとルール

1. ランキングの計算式にはどのような指標が含まれていますか?指標 A、B、C とは何ですか? 重み...

ビル・ゲイツ:AIが最大の影響を与えるには何十年もかかる

[[271684]]ビル・ゲイツは、世界を変えるトレンドを予見し、それを活用することで、史上最も成功...

ビデオ管理システム (VMS) を使用して複数ブランドのデバイス管理を強化するにはどうすればよいですか?

今日の環境では、インテグレーターとインストーラーは、古いセキュリティ プログラムをアップグレードし...

通信ネットワークにおけるOSPFプロトコルの適用とアルゴリズムの最適化

3G通信技術は広く利用されており、4Gに向けてますます進化しています。通信ネットワーク内のアクセスス...

ChatGPT が突然大きなバグを発見しました!フル機能のGPT-4は無料で使用でき、ネットユーザーは大喜びしている

11月15日、OpenAIは突然、ChatGPT Plusの新規ユーザー登録を停止すると発表しました...

...

...

すべては応用のため!九張雲記DataCanvas大型モデルシリーズ成果発表!

11月21日、北京で「基礎を築き、力をつけ、未来へスマートに進む」九張雲済DataCanvasビッ...