95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を樹立し、マイクロソフトを抜いて1位となり、AIの常識推論能力が大幅に向上しました。この技術は、DAMOアカデミーの科学者の指導の下、1995年以降に生まれたYe Zhixiuという名のインターンによって開発されました。

諺にあるように、後ろの波が前の波を押しのけるように、またしても「他人の子供はこんなに優秀だ」というシリーズです。

最近、ある若者が有名になりました。1995 年以降に生まれたインターン生が、常識 QAの分野で権威あるデータである CommonsenseQA で新しい世界記録を樹立したのです。

この若者の名前は葉志秀。彼はDAMOアカデミーの科学者の指導の下でこの研究を完成させ、マイクロソフトを抜いて1位を獲得した。

CommonsenseQAとは何ですか?

CommonsenseQA は常識的な知識に基づいた質問応答を研究するために提案されたデータセットです。これまでの SWAG や SQuAD データセットよりも難易度が高いです。現在、主要な言語モデル BERT の SWAG および SQuAD におけるパフォーマンスは人間のパフォーマンスに近いかそれを上回っていますが、CommonsenseQA における精度は依然として人間の精度をはるかに下回っています。

Alibaba DAMO Academy Speech Laboratory は AMS メソッドを提案し、BERT モデルの常識推論能力を大幅に向上させました。 AMS メソッドは BERT と同じモデルを使用し、BERT のみを事前トレーニングします。モデルの計算の複雑さを増やすことなく、CommonsenseQA データセットの精度が 5.5% から 62.2% 向上します。

CommonsenseQA 関連の論文は arXiv で公開され、 NAACL 2019 Best Resource Paperを受賞しました。

リンク:

出典: http://arxiv.org/pdf/1811.00937.pdf

著者

アロン・タルモア、ジョナサン・ヘルジグ、ニコラス・ローリー、ジョナサン・ベラント(テルアビブ大学、アレン人工知能研究所)

まとめ

人々は質問に答えるために、豊富な世界知識と特定の文脈を利用することがよくあります。最近の研究では、基本的な知識をほとんど必要とせず、関連する文書やコンテキストに基づいて質問に答えることに主に焦点を当てています。事前知識を使用した質問応答を研究するために、常識的な質問応答に関する新しいデータセット CommonsenseQA を提案します。関連性を超えた常識を捉えるために、ソース概念と同じ意味関係を持つ複数のターゲット概念を ConceptNet (Speer et al., 2017) から抽出します。

私たちはクラウドワーカーに、ソースコンセプトに言及し、各ターゲットコンセプト間の違いを区別する多肢選択式の質問を書くように依頼しました。これにより、クラウドワーカーは、通常は事前の知識が必要となるような、複雑な意味を持つ質問と回答を書くようになります。このステップを通じて 12,247 の質問を作成し、多数の強力なベースライン モデルで実験して、この新しいデータセットが難しいことを実証しました。私たちの最良のベースラインは BERT-large (Devlin et al., 2018) に基づいており、56% の精度を達成していますが、これは人間の精度 (89%) よりも低いものです。

次の図は、CommonsenseQA データセットを構築するプロセスの例です。

最も賢いAIは猫よりも常識がない

自然言語処理 (NLP) は人工知能の最高峰として称賛されていますが、常識的な推論は最も難しいタスクの 1 つです。

常識と呼ばれるものは、特別な学習を必要としない、生まれながらに備わっている判断能力、あるいは説明や議論を必要としない、誰もが知っている知識を指します。たとえば、雷が鳴ったら雨が降ります(lei o)。雨が降ったら傘を差す必要があります(le o)。

機械翻訳や読解などの一般的な NLP タスクにおける AI のパフォーマンスは人間のレベルに近く、場合によっては人間のレベルを超えますが、常識的な推論となると AI はまったく無能です。例えば、歩行者が傘を差しているのを見ると、外は雨が降っているかもしれないと自然に考えます。AIはあらゆる種類の傘を区別できるかもしれませんが、「外は雨が降っている」と推論することはできません。

12,000 件を超える常識的な質問を含む CommonsenseQA データセットでは、現在 56.7% の精度率を達成できますが、これは人間の 89% の精度率よりはまだはるかに低いものです。チューリング賞受賞者のヤン・ルカンの言葉を借りれば、「最も賢い AI は猫よりも常識が少ない」のです。

幸いなことに、アリババDAMOアカデミーの95年以降のインターンの研究により、AIの常識的推論能力は猫のレベルに一歩近づきました。

近い将来、人間の言語を理解できる「猫」が登場するかもしれません。例えば、ガーフィールド? 👇

[[270957]]

<<:  機械学習研究の10年

>>:  2年後、マスクはついに「脳内挿管」というブラックテクノロジーをリリースし、脳コンピューターインターフェースを革新した。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Facebookは再生可能エネルギー貯蔵を改善するために人工知能を活用する

Facebookとカーネギーメロン大学は、AIを使って新たな「電気触媒」を見つけようとしていると発表...

人工知能は今年のトップ10の新興職業の中で第1位にランクイン

どの企業もある程度はテクノロジーを取り入れる必要があったため、こうした急成長の仕事にもその傾向が反映...

人工知能チュートリアル(IV):確率論入門

このシリーズの前回の記事では、行列と線形代数についてさらに詳しく説明し、JupyterLab を使用...

数千人を対象とした調査: AI に対する一般の認識はどのようなものでしょうか?

人工知能は世界を変えようとしていますが、問題は、それがどのように起こるのか誰も正確には知らないことで...

コンピューティングセンターからコンピューティングネットワークまで、人工知能は静かに変化している

人工知能はデジタル経済の高品質な発展の原動力であり、新たな科学技術革命と産業変革の重要な原動力です。...

エッジAIデバイスの選び方

エッジ コンピューティングは、最も話題になっているテクノロジ トレンドの 1 つになりました。こうし...

AIがスマートフォンを制御するようになると、アプリ時代の終焉が近づいているかもしれない

Mobile World Congress 2024 で AI について言及しないわけにはいきません...

...

...

ビッグデータが地球を救う10の方法

近年、多くの物事の成功はテクノロジーの進歩によるものと言えます。その一つは、気候変動のリスクから地球...

ニューラルネットワーク技術の進化について

ニューラル ネットワークとディープラーニング技術は、今日の高度なインテリジェント アプリケーションの...

図 | 武術の観点から STL ソート アルゴリズムの秘密を探る

[[410325]]この記事はWeChatの公開アカウント「Backend Research Ins...

JWT: どの署名アルゴリズムを使用すればよいですか?

[[421048]]この記事は、Scott Brady が執筆した WeChat パブリック アカ...

作業の重複をなくしましょう! 30分で独自のディープラーニングマシンを作成する方法を教えます

[[327809]]画像ソース: unsplash繰り返し作業はいつも面倒です。新しいプロジェクトを...

Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

5月6日、アント・ファイナンシャルの副CTOである胡曦氏はオープンソースの機械学習ツールSQLFlo...