これほど多くのテストを受けて高得点を獲得したにもかかわらず、大手モデルは本当に言語を理解しているのでしょうか?

10年前、IBMのWatsonがクイズ番組「Jeopardy!」で優勝し、IBMは当時、「Watsonは自然言語の曖昧さと複雑さをすべて理解できる」と主張しました。しかし、すでに述べたように、Watsonはその後「人工知能で医療に革命を起こす」という試みに失敗し、インテリジェントエージェントの言語能力は人間の言語を実際に理解することと完全に同等ではありません。

[[441624]]

自然言語理解は常に人工知能研究の主な目標の 1 つです。当初、研究者たちは、ニュース記事や小説など、人間が作成したあらゆるものを機械が理解できるように手動でプログラムしようとしました。結果は、ワトソンのように無駄な努力です。テキストを理解するために必要なすべての事実、ルール、仮定を推測することは不可能です。

近年、AI の分野では新しいパラダイムが生まれています。明示的な知識を構築するのではなく、大量のテキストを取り込み、単語を予測することを学習することで、機械が自ら言語を理解することを学習させるのです。この新しいパラダイムは現在、言語モデルと呼ばれており、GPT-3 のような大規模なニューラルネットワークベースのモデルは、信じられないほど人間のような散文や詩を生成し、複雑な言語的推論を実行できます。

しかし、大量のウェブテキストでトレーニングされた GPT-3 のようなモデルは、本当に Watson よりも優れているのでしょうか? 生成した言語と推論を本当に理解しているのでしょうか? これは、AI 研究コミュニティ内で明確に意見が分かれているトピックです。

このような議論はかつては哲学の領域でしたが、過去 10 年間で AI は学問の世界から飛び出し、理解不足が非常に深刻な結果をもたらす可能性がある現実世界に進出しました。 IBMのワトソンが「安全でない誤った治療推奨」を行っていたことが調査で判明した。別の研究では、Google の機械翻訳システムが英語を母国語としない患者向けの医療指示を翻訳する際に重大な誤りを犯していることが示されました。

では、機械が現実を理解できるかどうかをどのように判断するのでしょうか? 1950 年、コンピュータサイエンスの先駆者であるアランチューリングは、「チューリングテスト」でこの疑問に答えようとしました。しかし、チューリングは人間が機械に騙される可能性を過小評価していました。ジョセフ・ワイゼンバウムは、1960 年代初頭に、Eliza というシンプルなチャットボットを作成し、文章を解釈して心理療法士のように話すようにしようとしました。エリザは、たとえ相手が機械と話しているとわかっていても、相手に自分の話を理解してくれる人と話していると信じ込ませることができることが判明しました。

2012年の論文で、コンピューター科学者のヘクター・レベスク、アーネスト・デイビス、レオラ・モルゲンシュテルンは、より客観的なテストであるウィノグラッド・スキーマ・チャレンジを提案しました。このテスト方法は AI 言語コミュニティによって採用されており、現在、機械の理解を評価する最良の方法の 1 つです。

Winograd パターンチャレンジは、次のように、単語が 1 つだけ異なる 2 つの文と、それぞれの後に続く質問で構成されます。

文1: 私はボトルの水をカップがいっぱいになるまで注ぎました。

質問: いっぱいだったのはボトルですか、それともカップですか?

文2: 私はボトルの水をカップが空になるまで注ぎました。

質問: 空だったのはボトルですか、それともカップですか?

文 1: ジョーのおじさんは、ジョーより 30 歳も年上ですが、テニスではまだジョーに勝てます。

質問: ジョーとジョーのおじさんではどちらが年上ですか?

文2: ジョーのおじさんは、ジョーより30歳も若いのに、テニスでまだ勝てます。

質問: ジョーとジョーのおじさんではどちらが年下ですか?

ウィノグラードモデルは2016年にコンテストの対象となり、優勝したプログラムは文章のわずか58%にしか正解を出さず、これは単純な推測とほぼ同じ精度だった。文中の単語が 1 つ異なるだけで、代名詞が指す人や物が変わる場合があり、これらの質問に正しく答えるには常識的な理解が必要です。 Winograd スキーマはまさにこの種の理解をテストするように設計されており、人間の判断とチャットボットのスキルの両方に対するチューリングテストの信頼性の低さを軽減します。特に、ウィノグラードの著者らは、「Google 対応」であることが知られている何百ものパターンを設計しました。つまり、機械は Google 検索 (または同様の検索) を使用して質問に正しく答えることができないはずです。

しかし、大規模なニューラルネットワーク言語モデルの登場により、AI プログラムが Winograd スキーマを解く能力が急速に向上しました。 2020年のOpenAIの論文では、GPT-3はWinogradスキーマベンチマークの文のほぼ90％で正しかったと主張しました。言語モデルは、これらのタスク専用にトレーニングすると、さらに優れたパフォーマンスを発揮します。一部のニューラルネットワークは、特定のタスクで 97% の精度を達成することができ、これは人間のパフォーマンスとほぼ同等です。これは、ニューラルネットワーク言語モデルが人間の理解レベルに達したことを意味するのでしょうか?

そうではありません。作成者の最善の努力にもかかわらず、Winograd スキーマは実際には完全に Google 対応ではありません。 Winograd スキーマの課題は、他の多くの AI 言語理解テストと同様に、ショートカットが使用できる場合があり、ニューラルネットワークが理解しなくても適切に機能することがあります。例えば：

スポーツカーの方が速かったので郵便馬車を追い抜いた。
スポーツカーは郵便馬車の方が遅く走っていたので追い越した。

巨大なコーパスでトレーニングされた言語モデルは、「スポーツカー」と「速い」の相関関係や、「郵便トラック」と「遅い」の相関関係を吸収するため、言語モデルは実際の理解がなくても、これらの相関関係のみに基づいてこれらの質問に正しく答えることができます。 SuperGLUE コンテストにおける多くの Winograd スキーマは、このタイプの統計的相関関係を利用できることが判明しました。

アレン人工知能研究所の研究者グループは、ウィノグラードスキーマの問題のいくつかに対処しようとしました。 2019年に、彼らはより大きなウィノグラードモデルであるWinoGrandeを作成しました。

WinoGrande には、数百の例文ではなく、最大 44,000 の文が含まれています。これらの文章は、Amazon Mechanical Turk プラットフォームを使用して取得され、実際の人間によって書かれました。各人は、複数のトピックをカバーする複数の文章のペアを書くように求められましたが、各文章のペアは 1 語以上異なる場合があります。

次に研究者らは、比較的単純な AI 手法で各文をテストし、統計的関連性において近道となる可能性のある文を排除し、解くのが簡単すぎる文は破棄した。研究者の予想通り、残りの文は機械にとってオリジナルのウィノグラードスキーマよりも難しい課題となり、ウィノグラードスキーマでは人間と同等の成績を収めたニューラルネットワーク言語モデルは、ウィノグランデセットでははるかに低いスコアを記録しました。

しかし、すぐにまた別の驚きが起こりました。 WinoGrande コレクションが作成されてから 2 年が経ち、ニューラルネットワーク言語モデルはますます大規模になってきました。そして、モデルが大きいほど、この新しい課題でより良いスコアを獲得できるようです。本稿執筆時点では、現在の最良モデル（数テラバイトのデータと数千の WinoGrande インスタンスでトレーニング済み）は、90% 近くの精度を達成しています（人間は 94%）。このパフォーマンスの向上は、ニューラルネットワーク言語モデルのサイズの増加とトレーニングデータの量の増加によってほぼ完全に実現されています。

これらの大きなモデルは本当に人間のような常識的な理解を獲得したのでしょうか? そうではないようです。 WinoGrande が反映した結果には、いくつかの注意点があります。たとえば、これらの文章は Amazon Mechanical Turk プラットフォームのパートタイム作業者に依存しているため、文章の品質と流暢さには非常にばらつきがあります。同時に、「Google 対応でない」文章を排除するために使用される AI 手法は、大規模なニューラルネットワークが使用する可能性のあるすべての統計的ショートカットを検出するには単純すぎる可能性があります。さらに、この方法は単一の文にのみ機能し、多くの文は最終的に「双子」の兄弟姉妹を失うことになります。追跡調査では、ニューラルネットワーク言語モデルは、2つの「双子」の文のみでテストされ、両方のテストが正確でなければならない場合、人間よりもはるかに正確性が低いことが示され、以前の90％の結果はそれほど重要ではなかったことが示唆されました。

では、ウィノグラードの失敗からどのような教訓が得られるのでしょうか。それは、特定の課題に対するパフォーマンスに基づいて、AI システムが処理している言語を本当に理解しているかどうかを判断することが難しい場合が多いということです。ニューラルネットワークは、人間のように真に理解するのではなく、統計的な近道を使って高いスコアを獲得することが多いことがわかっています。

私の考えでは、問題の鍵は、言語を理解するには世界を理解する必要があり、言語だけにさらされている機械はこの理解能力を獲得できないということにあります。たとえば、「スポーツカーは郵便トラックよりも遅い速度で走っていたため、郵便トラックを追い越しました。」この文章を理解するには、どのような前提条件が必要ですか? まず、スポーツカーと郵便トラックとは何か、そして車は互いに「追い越し」できることを知っておく必要があります。さらに基本的な常識も知っておく必要があります。つまり、車両は世界に存在し、世界と相互作用するオブジェクトであり、独自の旅程に従って人間によって運転されます。

上記の知識はすべて、私たち人間が当然のこととして認識しているものですが、この知識は機械に組み込まれておらず、どの言語モデルのトレーニングテキストにも明示的に書き込むことはできません。一部の認知科学者は、言語を学習し理解する際に、人間は空間、時間、および世界のその他の基本的な特性に関する生来の、言語以前の中核知識に依存していると主張しています。機械が人間のように言語を習得することを望むなら、まず人間に生来備わっている原始的な原理を機械に与える必要があります。機械の理解力を評価するには、まず、上で概説した「幼児形而上学」と呼ばれる原理を機械がどの程度理解しているかを評価する必要があります。

GPT-3 のような成功した AI システムと比較すると、赤ちゃんのレベルで機械をトレーニングして評価することは、大きな後退のように思えるかもしれません。しかし、目標が真実かつ信頼できる理解であるならば、これが機械が「それ」が何であるかを理解し、「それ」を理解するために必要なすべてを得るための唯一の方法なのかもしれません。

オリジナルリンク: https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: ブロックチェーンを使用して AI スマートエコノミーを構築するにはどうすればよいでしょうか?

>>: 機械学習のエントリーレベルのプラットフォームの上限であり、古典的なチュートリアルを無料で練習することもできます。これは本当に比類のないものです。

これほど多くのテストを受けて高得点を獲得したにもかかわらず、大手モデルは本当に言語を理解しているのでしょうか?

データの品質は機械学習を成功させる鍵です

AI専用SoCチップのIP要件の分析

私の国は自動運転のための最初の閉鎖された高速道路テスト環境を構築しました

中国の新世代人工知能の新たなハイライトは何ですか?

[NCTSサミットレビュー] Rong360 Ai Hui: AIモデルテストの秘密を探る

5分で様々な人工知能技術を紹介

ついに誰かが「組み込み人工知能」を明らかにした

陳一然教授の論文が2024 IEEE優秀論文賞を受賞しました！ STN-iCNN: エンドツーエンドの顔解析フレームワーク

推薦する

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

2021年なのに、出会い系アプリのアルゴリズムはなぜこんなにも悪いのでしょうか?

人工知能がデジタル変革の課題に対処できる 5 つの分野

2027年のAIはどのようになっているでしょうか?ヒントは、あなたの脳の中にあります。

Python と Keras でシンプルな音声認識エンジンを作成する

包括的なデータサイエンスC/C++機械学習ライブラリコレクション、Baidu検索は不要

顔認識技術の応用に関する法的規制

データマイニングコンテストのルーチンとディープラーニングの限界について話す

コレクション | データアナリストがよく使用する機械学習アルゴリズム 10 個!

JD.comクラウドファンディング599元、業界最安値を突破、Nokelock X1セルフパワースマートドアロックがイノベーション革命をリード

ディープラーニングにおける8種類の畳み込みを視覚的に理解する

速度が2倍に向上、超強力なCPUレベルのバックボーンネットワークPP-LCNetが誕生