NLP における新たなマイルストーン!清華大学ヤオクラスの卒業生がKEARをリリース：人間を超える初の常識質問応答システム

[[443046]]

人間はAIよりも常識があるとは言えなくなりました！最近、マイクロソフトの黄雪東と清華大学のヤオクラスの卒業生が開発した新しいシステムKEARが発表されました。主要な一般知識質問と回答のランキングで首位を獲得しました。その一般知識質問と回答のパフォーマンスは初めて人間のパフォーマンスを超え、英語以外の常識も理解します。

AI モデルが常に批判されていることの 1 つは、AI モデルが「機械的に学習」することしかできず、与えられたトレーニングサンプルに基づいて予測することしかできないことです。AI モデルは、ごくわずかな「常識的な」質問にも答えることができません。

たとえば、GPT-3 に「太陽にはいくつの目があるか」と質問します。

それはためらうことなくあなたに言うでしょう: もちろんそれは目です!

常識的な情報は入力テキストに反映されませんが、常識を理解していない場合、回答は無意味になります。

これらの常識的な誤りを解決するために、研究者は ConceptNet を使用して、常識的な質問への回答に特化した CommonsenseQA というデータセットを作成しました。このデータセットでは、モデルが質問に正しく回答するために常識を理解することが求められます。

各質問には 5 つの候補回答が含まれており、そのうち 2 つは誤答となるため、AI モデルにとっては非常に困難になります。

たとえば、「あなたの犬は何を食べるのが好きですか?」という質問があったとします。あなたの犬が喜ぶおやつは何ですか？

考えられる答えの候補としては、サラダ、撫でられる、愛情、骨、たくさんの注意などが挙げられます。犬とやりとりする過程で、人はほとんどの犬が骨を食べるのが好きであることを学び、候補の回答の中から自分の犬も骨を好むと推測できますが、AI モデルはそれを理解できません。

したがって、この質問に正しく答えるためには、外部の知識をどのように使用するかを知る必要があります。

そこでCommonsenseQAの作者は、当時主要ランキングを席巻していたBERT-LARGEというモデルをテストに持ち込みました。結果はひどいもので、人間の回答の精度が88.9%に達していたのに対し、BERT-LARGEの精度はわずか55.9%でした。

それから3年後、マイクロソフトの中国チームは最近、KEAR（常識推論のための知識外部注意）システムを提案する論文を発表しました。このシステムは、CommonsenseQA常識質問応答のパフォーマンスを89.4％の精度で新たなレベルに引き上げ、人間を上回ることに成功し、AI常識の分野で画期的なモデルとなりました。

大規模なデータを必要とする従来のAIモデルと比較して、本論文ではTransformerアーキテクチャを強化する外部アテンションメカニズムを提案しており、これにより外部の知識情報を予測プロセスに統合できるため、モデルの大量のパラメータの要求が減り、AIシステムをより民主化できます。つまり、Huangから大量のグラフィックカードを購入することなく、AIモデル研究の敷居を下げ、SOTAパフォーマンスを実現できます。

一般的に、KEAR モデルが「あなたの犬は何を食べるのが好きですか?」という質問に答えるとき、まず ConceptNet エンティティチェーンから「犬 - 欲望 - 撫でられること、愛情、骨、たくさんの注意」を取得し、誤った答えのサラダを排除します。

次に、KEAR は Wiktionary から「骨」の定義を取得します。「骨とは、ほとんどの脊椎動物の骨格を構成する複合材料です。」

CommonsenseQA データセットのトレーニングデータから「犬は何を食べるのが好きですか? 骨ですか?」という質問を取得します。

取得した知識と入力知識をカスケードした後、KEAR はそれを DeBERTa モデルの入力として使用し、最終的に正しい答え「bone!」を推測できます。

人間にとって最も単純な質問に対しても、AI モデルが正しく答えるには多くの外部情報が必要であることがわかります。

CommonsenseQA は英語の常識的な質問への回答のデータのみであるため、この記事では他の言語での常識的な推論が依然として有効であるかどうかについても検討しています。

研究者らは、まず英語以外の質問を英語に翻訳し、次に英語のコーパスデータから知識を取得し、知識テキストをソース言語に翻訳し、最後に外部アテンションメカニズムの後に再度翻訳して回答を得ました。これが翻訳-検索-翻訳（TRT）です。

結果、X-CSR ベンチマークの X-CODAH と X-CSQA の両方のタスクが 1 位を獲得しました。

自己注意以上のもの

現在、ほとんどの AI モデルは基本的にソーステキストの自己注意メカニズムを使用しており、モデルが入力テキストを記憶できるように、大量のデータをモデルに入力してトレーニングしています。

Transformer はうまく機能しますが、欠点も明らかです。

時間と空間の複雑さが高すぎるため、大量のグラフィックカードとビデオメモリが必要になります。
データ量が不十分な場合、Transformerは十分なパフォーマンスを発揮しません。

一方、Transformerは本質的にブラックボックスモデルです。人間のようにテキストを理解して推論することはできません。AIがなぜそのような予測をするのかを知ることが重要です。KERAは、ナレッジグラフ、辞書、公開されている機械学習データなどの常識的な知識を活用することで、答えの出所やモデルの推論プロセスをある程度反映させることができます。

外部注意の実装方法も非常にシンプルです。入力と知識を新しい入力としてカスケードし、全体を自己注意メカニズムを通じて H0 とします。

K(ナレッジ)のソースには、ナレッジグラフ ConceptNet、辞書、トレーニングデータが含まれます。

自己注意と外部注意の主な違いは、入力が入力テキストのみから来るかどうかであることがわかります。つまり、知識グラフ、辞書、コーパス、他の言語モデルの出力など、さまざまなソースからの関連する背景と知識を外部注意メカニズムに提供し、モデルが入力に対して自己注意を実行し、同時に知識に対して外部注意を実行するようにすることで、外部知識を導入する効果が得られます。

導入された外部情報は、プレーンテキストやナレッジグラフエントリなどのシンボルの形式で保存され、Transformer の言語理解能力を高めることができます。

さらに、KEAR が使用する入力と知識のテキスト連結は、Transformer モデル構造に変更を加えないため、既存のシステムで外部アテンションを簡単に使用できるようになります。

世の中の知識も動的に変化しているため、外部からの注目のもう 1 つの利点は、ユーザーが知識ソースを簡単に更新してモデルの予測出力を変更できることです。

オンラインで更新されたナレッジグラフをモデルに入力するなど、最新の常識を導入することで、モデルの意思決定プロセスをより透明かつ説明可能にすることができます。

マルチモジュール共同最適化の使用と知識ベースへの外部注目の導入も、Microsoft の人工知能認知サービスの品質を向上させるための中核的な方向性です。

著者について

論文の筆頭著者は、清華大学姚学院を卒業し、カーネギーメロン大学で博士号を取得した徐一瞻氏です。彼の主な研究分野は、インタラクティブ機械学習、自然言語処理、ディープラーニングです。彼は現在、マイクロソフトの AI Cognitive Services 研究グループの上級研究員です。

Chenguang Zhu 氏は、Microsoft Cognitive Services 研究グループの主任研究者です。彼は知識と言語チームを率いて、テキスト要約、知識グラフ、タスク指向の対話の研究開発に取り組んでいます。彼は2016年にスタンフォード大学でコンピュータサイエンスの博士号と統計学の修士号を取得し、それ以前は清華大学のヤオクラスでコンピュータサイエンスの学士号を取得しました。

Xuedong Huang 氏は、Microsoft の AI 認知サービスエンジニアリングおよび研究チームのリーダーであり、IEEE/ACM フェロー、Microsoft 初の「中国人グローバルテクニカルフェロー」、Microsoft の主任音声科学者、Microsoft のクラウドコンピューティングおよび人工知能部門の認知サービスチームのグローバルテクニカルフェロー/グローバル人工知能の最高技術責任者です。彼は湖南大学で学士号、清華大学で修士号、英国エディンバラ大学で博士号を取得しました。

<<: Githubの包括的なレビュー！ 2021 年の最も素晴らしい AI 論文 38 件

>>: 2021 年にグラフ機械学習にはどのような新たなブレークスルーがあるでしょうか?マギル大学のポスドク研究員が分野の動向を整理