アリババが自然言語理解の世界記録を更新、AIの常識的推論は人間のそれに近づいている

最近、アリババAIは常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を樹立し、AIの常識推論能力を大幅に向上させました。この技術は、DAMO アカデミーの科学者の指導の下、95 年以降のインターンシップ生である Ye Zhixiu 氏によるインターンシップの成果です。

CommonsenseQA は常識的な知識に基づいた質問応答を研究するために提案されたデータセットです。これまでの SWAG や SQuAD データセットよりも難易度が高いです。現在普及している言語モデル BERT は、SWAG や SQuAD では人間に近いかそれ以上のパフォーマンスを達成していますが、CommonsenseQA での精度は依然として人間よりもはるかに低いです。

上の画像は、CommonsenseQA データセットの常識に関する質問を示しています。親指が上向きになっている選択肢が正解です。

自然言語理解 (NLP) は人工知能の最高峰であり、常識的推論は最も難しい NLP タスクの 1 つです。機械翻訳や読解などのNLPタスクでは、AIのパフォーマンスは人間のレベルに近づいたり、それを上回ったりしています。Alibaba AIは、WMT、機械読解コンテストSQuAD、テキスト読解チャレンジMS MARCOなどの国際的な高度な機械翻訳コンテストで優勝し、人間の記録さえも上回っています。

対照的に、AIの常識的な推論能力は人間のそれよりもはるかに劣っています。常識とは、塩は塩辛い、雨が降ったら傘を使う必要がある、村は湖ではなく陸地にあるなど、ほとんどの人が理解し受け入れている客観的な事実を指します。人々が質問に答えるとき、この自明な背景知識を組み込むことがよくあります。しかし、機械には常識がないので、「路上で人々が傘をさしている」という元の文を、「外は雨が降っている」という論理的仮定に自動的に関連付けることはできません。

ディープラーニングの先駆者の一人でチューリング賞受賞者のヤン・ルカン氏は、非常に賢い AI であっても常識においては猫ほど優れていないと主張したことがあります。 12,000件以上の常識的な質問を含むCommonsenseQAデータセットでは、人気のAIモデルBERTの回答精度は56.7%で、人間の89%をはるかに下回っています。

Alibaba DAMO Academy Speech Laboratory は AMS メソッドを提案し、BERT モデルの常識推論能力を大幅に向上させました。 AMS メソッドは BERT と同じモデルを使用し、BERT のみを事前トレーニングします。モデルの計算の複雑さを増やすことなく、CommonsenseQA データセットの精度が 5.5% から 62.2% 向上します。

上図はCommonsenseQAデータセットのスコアリストです。Alibaba AIが新たな世界記録を樹立しました。

アリババの技術革新は、次世代のヒューマン・コンピュータ・インタラクション製品の常識理解能力を大幅に向上させ、音声ナビゲーション、スマートテレビ、音声発券機などの製品に適用できる。

次のようなシナリオを想像してください。最近移転した遠隔地の村を探して運転していますが、ナビゲーションはまだその村の位置情報を更新していません。村がある土地は人工湖に掘削されており、AIには常識がないので、ナビは湖の中心まで直接連れて行ってくれます。 AI に常識があれば、このような「愚かな」間違いは起こさないでしょう。

DAMOアカデミーは、将来的にモデルと論文をオープンソース化し、新たな研究結果を業界と共有すると述べた。

<<: ガートナーの調査によると、企業は来年AIプロジェクトを2倍に増やすと予想している。

>>: エッジコンピューティング時代の到来は AI にどのような影響を与えるのでしょうか?