95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を樹立し、マイクロソフトを抜いて1位となり、AIの常識推論能力が大幅に向上しました。この技術は、DAMOアカデミーの科学者の指導の下、1995年以降に生まれたYe Zhixiuという名のインターンによって開発されました。

諺にあるように、後ろの波が前の波を押しのけるように、またしても「他人の子供はこんなに優秀だ」というシリーズです。

最近、ある若者が有名になりました。1995 年以降に生まれたインターン生が、常識 QAの分野で権威あるデータである CommonsenseQA で新しい世界記録を樹立したのです。

この若者の名前は葉志秀。彼はDAMOアカデミーの科学者の指導の下でこの研究を完成させ、マイクロソフトを抜いて1位を獲得した。

CommonsenseQAとは何ですか?

CommonsenseQA は常識的な知識に基づいた質問応答を研究するために提案されたデータセットです。これまでの SWAG や SQuAD データセットよりも難易度が高いです。現在、主要な言語モデル BERT の SWAG および SQuAD におけるパフォーマンスは人間のパフォーマンスに近いかそれを上回っていますが、CommonsenseQA における精度は依然として人間の精度をはるかに下回っています。

Alibaba DAMO Academy Speech Laboratory は AMS メソッドを提案し、BERT モデルの常識推論能力を大幅に向上させました。 AMS メソッドは BERT と同じモデルを使用し、BERT のみを事前トレーニングします。モデルの計算の複雑さを増やすことなく、CommonsenseQA データセットの精度が 5.5% から 62.2% 向上します。

CommonsenseQA 関連の論文は arXiv で公開され、 NAACL 2019 Best Resource Paperを受賞しました。

リンク:

出典: http://arxiv.org/pdf/1811.00937.pdf

著者

アロン・タルモア、ジョナサン・ヘルジグ、ニコラス・ローリー、ジョナサン・ベラント(テルアビブ大学、アレン人工知能研究所)

まとめ

人々は質問に答えるために、豊富な世界知識と特定の文脈を利用することがよくあります。最近の研究では、基本的な知識をほとんど必要とせず、関連する文書やコンテキストに基づいて質問に答えることに主に焦点を当てています。事前知識を使用した質問応答を研究するために、常識的な質問応答に関する新しいデータセット CommonsenseQA を提案します。関連性を超えた常識を捉えるために、ソース概念と同じ意味関係を持つ複数のターゲット概念を ConceptNet (Speer et al., 2017) から抽出します。

私たちはクラウドワーカーに、ソースコンセプトに言及し、各ターゲットコンセプト間の違いを区別する多肢選択式の質問を書くように依頼しました。これにより、クラウドワーカーは、通常は事前の知識が必要となるような、複雑な意味を持つ質問と回答を書くようになります。このステップを通じて 12,247 の質問を作成し、多数の強力なベースライン モデルで実験して、この新しいデータセットが難しいことを実証しました。私たちの最良のベースラインは BERT-large (Devlin et al., 2018) に基づいており、56% の精度を達成していますが、これは人間の精度 (89%) よりも低いものです。

次の図は、CommonsenseQA データセットを構築するプロセスの例です。

最も賢いAIは猫よりも常識がない

自然言語処理 (NLP) は人工知能の最高峰として称賛されていますが、常識的な推論は最も難しいタスクの 1 つです。

常識と呼ばれるものは、特別な学習を必要としない、生まれながらに備わっている判断能力、あるいは説明や議論を必要としない、誰もが知っている知識を指します。たとえば、雷が鳴ったら雨が降ります(lei o)。雨が降ったら傘を差す必要があります(le o)。

機械翻訳や読解などの一般的な NLP タスクにおける AI のパフォーマンスは人間のレベルに近く、場合によっては人間のレベルを超えますが、常識的な推論となると AI はまったく無能です。例えば、歩行者が傘を差しているのを見ると、外は雨が降っているかもしれないと自然に考えます。AIはあらゆる種類の傘を区別できるかもしれませんが、「外は雨が降っている」と推論することはできません。

12,000 件を超える常識的な質問を含む CommonsenseQA データセットでは、現在 56.7% の精度率を達成できますが、これは人間の 89% の精度率よりはまだはるかに低いものです。チューリング賞受賞者のヤン・ルカンの言葉を借りれば、「最も賢い AI は猫よりも常識が少ない」のです。

幸いなことに、アリババDAMOアカデミーの95年以降のインターンの研究により、AIの常識的推論能力は猫のレベルに一歩近づきました。

近い将来、人間の言語を理解できる「猫」が登場するかもしれません。例えば、ガーフィールド? 👇

[[270957]]

<<:  機械学習研究の10年

>>:  2年後、マスクはついに「脳内挿管」というブラックテクノロジーをリリースし、脳コンピューターインターフェースを革新した。

ブログ    
ブログ    

推薦する

RDA を使用してデータの問題を解決し、AIOps の実装を加速する方法

【51CTO.com クイック翻訳】ロボティックデータオートメーション (RDA) とは?ロボティッ...

AIが体内時計を検出、精密医療が最大の「受益者」になる可能性

[[243873]]画像ソース @Visual Chinaインターネット上には、人体のさまざまな臓器...

スポーツイベントではロボットが人間に取って代わるのでしょうか?

スポーツにロボットを導入することは、器用な移動、リアルタイムのモーション制御、経路計画などの最新ロボ...

AIがピークを迎える中、CIOはクラウドコンピューティングのコスト戦略を強化

AIがピークを迎える中、CIOはクラウドコンピューティングのコスト戦略を強化クラウド コンピューティ...

AI はどのようにしてソフトウェアおよびハードウェア製品のイノベーションを実現するのでしょうか? Baidu Brain オープンデー 西安駅の暗号解読

6月25日、「AIによるソフトウェアとハ​​ードウェア製品のイノベーションの促進」をテーマにした西安...

人工知能に関する6つの誤解を解く

「人工知能はすべての仕事を自動化し、人間を失業させるだろう。」 「人工知能は単なる架空の技術だ。」 ...

成功するビジネス インテリジェンス戦略を開発する方法

ビジネス インテリジェンス戦略の策定は、企業が検討する必要がある重要なステップであり、ビジネス イン...

この記事では、インテリジェントな注釈の原理について説明します。人工知能が注釈の問題を解決する方法を学びます。

従来の機械学習の分野でも、今日注目されているディープラーニングの分野でも、明確なラベルや結果を持つト...

大企業面接のための iAsk の「スケジュール アルゴリズム」、写真 20 枚が当たる

[[341122]]この記事はWeChatの公開アカウント「Xiao Lin Coding」から転載...

2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

正月休みが終わり、心身ともに仕事に復帰できましたか?新年を迎え、私のように、お金を稼ぐために働きたい...

...

...

...

...

人工知能を活用してビジネスを成長させ、企業価値を創造する方法

組織は、全員を関与させれば、AI を活用してビジネスを成長させることができます。人工知能への投資は、...