この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 自然言語理解 (NLU) は新たなマイルストーンに到達しました。 最新の NLU テストベンチマークSuperGLUEでは、人間が初めて AI に追い抜かれました。
SuperGLUE は、その「前身」である GLUE と比べて、問題の難度を大幅に高めました。提案されてから 1 年以上、人間は常にトップの座にありました。 現在、人間は2つのAIに同時に追い抜かれています。 1 つはMicrosoftのDeBERTaで、もう 1 つはGoogleのT5+Meenaです。 人間を超える2つのNLUモデルNLP 分野の人にとって、Microsoft の DeBERTa モデルは馴染みのあるものです。Microsoft は昨年 8 月にはすでにこのモデルのコードをオープンソース化し、事前トレーニング済みのモデルをダウンロードできるようにしていました。 最近、マイクロソフトは15 億のパラメータを持つ 48 個の Transformer レイヤーで構成されるモデルのより大規模なバージョンをトレーニングしました。規模の拡大によってもたらされたパフォーマンスの向上により、単一の DeBERTa モデルが初めて SuperGLUE (90.3) のスコアで人間 (89.8) を上回り、リストで 1 位になりました。 DeBERTa (Decoding Augmented with Separate Attention) は、自己教師学習を使用して生のテキストの大規模なコーパスで事前トレーニングされた、Transformer ベースのニューラル言語モデルです。 他の事前トレーニング済み言語モデル (PLM) と同様に、DeBERTa はさまざまな下流の NLU タスクに適応できる一般的な言語表現を学習することを目的としています。 DeBERTa は、分離された注意メカニズム、強化されたマスク デコーダー、微調整のための仮想敵対的トレーニング メソッドという 3 つの新しい技術を使用します。以前の最先端の PLM (BERT、RoBERTa、UniLM など) が改善されました。 この研究は、マイクロソフト研究チームの中国人学者 4 名によって完了しました。 人間を超えるもう一つの AI は、CMU 博士課程の学生 Wang Zirui が提出した T5+Meena です。どちらの技術も Google から提供されています。 その中で、Meena は、1 つの進化型 Transformer エンコーダー ブロックと 13 の進化型 Transformer デコーダー ブロックを備えた、 26 億のパラメータを持つエンドツーエンドのトレーニング済みニューラル会話モデルです。 エンコーダーは、会話のコンテキストを処理し、ミーナが会話で何が言われたかを理解できるように支援する役割を担います。デコーダーはこの情報を使用して実際の応答を作成します。 T5は、Googleが昨年提案した「テキストからテキストへの転送Transformer」であり、転移学習を使用して、異なるNLPタスクで同じモデル、損失関数、ハイパーパラメータを使用できるようにします。1つのフレームワークで、機械翻訳、ドキュメント要約、質疑応答、感情分析などに使用できます。 最大のT5モデルには110億のパラメータがあり、発売当初はSuperGLUEで最高レベルを達成し、現在でも上位2つのモデルと人間に次ぐ2位です。 SuperGLUEについてSuperGLUE は、Facebook、ニューヨーク大学、ワシントン大学、DeepMind によって 2019 年 8 月に提案された、以前の GLUE に代わる新しい NLU テスト ベンチマークです。 Microsoft、Google、Facebook のモデルが GLUE ベンチマーク スコアを継続的に更新しているため、多くの AI モデルが人間のパフォーマンスを上回っています。そのため、GLUE は NLU 技術の発展に適応できなくなり、SuperGLUE が誕生しました。
4つの機関はSuperGLUEの公式文書でそう述べています。 SuperGLUE には合計 10 個のタスクが含まれており、システムの因果推論能力、因果関係の特定、短い文章を読んだ後の「はい」または「いいえ」の質問への回答などをテストするために使用されます。 SuperGLUE には、性別による偏見を検出するツールである Winogender も含まれています。 これらの問題は、現在利用可能な最も高度なアルゴリズムではうまく解決できませんが、人間には簡単に理解できます。 特に、因果推論タスク「合理的な選択肢の選択」(COPA)は、因果推論タスクに多くのコンテキストを提供するタスクです。システムは、与えられた文に基づいて 2 つの選択肢の間の考えられる原因または結果を見つける必要があります。例えば:
人間は COPA で 100% の精度を達成できますが、BERT では 74% しか達成できず、これは NLU にはまだ大きな改善の余地があることを示しています。 SuperGLUE が人間のパフォーマンスを超えた今、マイクロソフトの研究者は「これは汎用 AI への道のりの重要なマイルストーンだ」と考えている。 Microsoft DeBERTa ソース コードと事前トレーニング済みモデル: https://github.com/microsoft/DeBERTa Google T5とミーナ: https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html |
<<: 概要: インターネット時代です!人工知能に関する4つの大きな誤解
>>: AI Factory がコンセプトから産業化まで迅速かつ安全に移行する方法
[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
01エンタープライズデジタルトランスフォーメーションの本質デジタル化により、人間が暮らす現実世界と仮...
バーチャルリアリティ(VR)は、新しい実用的な技術です。バーチャルリアリティ技術は、コンピュータ、電...
3月15日にも、別の悪徳業者が監視カメラで摘発されたが、消費者の関心を最も集めたニュースは「顔情報の...
有名な AI ペイントツール Midjourney が再びユーザーに衝撃を与えました。先月バージョン...
記者 | 周一雪8月中旬のある日、北京市昌平区回龍観のコミュニティに住む王毅さんは、所有者グループの...
人工知能は物流業界の変革において重要な役割を果たしていることが証明されています。グローバル化が加速す...
[[195122]]周知のとおり、Weibo のビジネスは 2015 年以降急速に成長しています。内...
それは非常に奥深く、微妙なことです。同じ文でも、文脈によって意味が変わることがよくあります。人間でさ...
[[343865]] [51CTO.com速訳]調査によると、コロナウイルスの流行により、多くの国と...
[[223220]]世界経済フォーラムの最近のレポートでは、2020年までに先進国で500万の雇用...
[[422829]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...