NLP とは異なり、データ駆動型手法と機械学習は、次の 3 つの理由により NLU に勝てません。

自然言語理解 (NLU) は人工知能における中核的なトピックの 1 つであり、最も困難かつ象徴的なタスクであると広く考えられています。近年、機械学習が広く利用されているものの、自然言語理解の問題をうまく解決できていない。これにはさまざまな理由が考えられる。ONTOLOGIK.AIの創設者でチーフNLUサイエンティストのWalid Saba氏は、自身の意見を述べた。

[[417828]]

1990 年代初頭には統計革命が人工知能に取って代わり、2000 年に頂点に達しました。一方、ニューラルネットワークはディープラーニングによって華々しく復活しました。この経験的な変化は AI のすべてのサブフィールドを巻き込んでいますが、この技術の最も物議を醸している応用分野は自然言語処理です。

データ駆動型の経験的手法が NLP で広く使用されている主な理由は次のとおりです。記号的手法と論理的手法は 30 年間の覇権を経てもスケーラブルな NLP システムを生み出すことができず、データ駆動型、コーパスベース、統計的、機械学習と総称される、いわゆる NLP の経験的手法 (EMNLP) の台頭につながりました。

経験主義へのこの転換の背後にある動機は非常に単純です。言語がどのように機能し、それが日常の話し言葉で私たちが話す世界の知識とどのように関係しているかを十分に理解する前は、経験的かつデータ駆動型のアプローチがテキスト処理アプリケーションの構築に役立っていました。 EMNLP の先駆者の一人であるケネス・チャーチが説明したように、NLP の分野では、データ駆動型および統計的手法を提唱する研究者は、単純な言語タスクの解決に関心があります。彼らの動機は、言語がこのように機能することを示唆することではなく、単純なことを行う方が何もしないより常に優れているということです。チャーチは、この変化の動機は大きく誤解されていたと主張し、マクシェーン（2017）が指摘したように、その後の世代もこの経験的な傾向を誤解している。

EMNLP カンファレンスの創設者および先駆者の 1 人である Kenneth Church 氏。

この誤った傾向は、不幸な状況をもたらしました。つまり、膨大な計算能力を必要とし、大量のデータを記憶することで自然言語オブジェクトを近似しようとする大規模言語モデル (LLM) を使用して NLP システムを構築するという無駄な努力です。この疑似科学的なアプローチは、時間とリソースを無駄にするだけでなく、新世代の若い科学者を誤解させ、言語はデータであると誤って信じ込ませます。さらに悪いことに、この慣行は自然言語理解 (NLU) の発展も妨げます。

むしろ、NLU アプローチを再考する時期が来ています。なぜなら、NLU に対するビッグデータアプローチは心理的、認知的、さらには計算的にも信じがたいだけでなく、盲目的なデータ駆動型アプローチも理論的および技術的に欠陥があるからです。

自然言語処理と自然言語理解

自然言語処理 (NLP) と自然言語理解 (NLU) はしばしば同じ意味で使用されますが、両者の間には大きな違いがあり、これらの違いを強調することが重要です。実際、自然言語処理と自然言語理解の技術的な違いを区別すると、データ駆動型および機械学習のアプローチは NLP タスクに適用できますが、このアプローチは NLU とは何の関係もないことがわかります。 NLP における最も一般的なダウンストリームタスクを例に挙げます。

まとめ;
トピック抽出;
名前付きエンティティ認識;
セマンティック検索;
自動ラベル付け。
クラスタリング。

上記のタスクは、PAC (Probably Approximately Correct) パラダイムと一致しています。具体的には、NLP システムの出力の評価は主観的です。つまり、ある要約が他の要約よりも優れているかどうか、またはあるシステムが他のシステムよりも優れたトピックやフレーズを抽出しているかどうかなどを判断する客観的な基準はありません。しかし、自然言語理解ではそのような自由は許されません。発言や質問を完全に理解するには、話者が伝えようとしている考えだけを理解する必要があります。この複雑なプロセスを理解するために、自然言語クエリを例に挙げてみましょう。

冷戦中に東ヨーロッパの国に駐在していた引退したBBCジャーナリストはいますか？

データベースでは、上記のクエリに対する正しい回答は 1 つだけ存在します。上記の式を正しい SQL または SPARQL クエリに変換するのは非常に困難です。この質問の背後にある重要なポイントは次のとおりです。

「引退したBBCジャーナリスト」という言葉を正しく解釈する必要がある。これは、BBCで働いていたが現在は引退したジャーナリスト全員の集合を指す。
上記のコンテンツは、いくつかの「東ヨーロッパ諸国」でも働いた経験のある「引退した BBC ジャーナリスト」を残すことでさらにフィルタリングされます。地理的な制限に加えて、時間的な制限もある。これらの「引退した BBC ジャーナリスト」は「冷戦」中に働いていたに違いない。
上記は、「東欧諸国」の代わりに「駐留」に前置詞句「冷戦期」を付けることを意味します。
正しい量指定子のスコープ設定を行ってください。私たちが探しているのは、特定の東ヨーロッパの国で働く（単一の）ジャーナリストではなく、東ヨーロッパの国のいずれかで働くあらゆるジャーナリストです。

上記の意味の理解は不可能であったり、大まかに正しいわけではありませんが、非常に確実に絶対的に正しいものです。言い換えれば、上記の質問の複数の可能な解釈から、常識的な知識に基づいて質問者の質問の背後にある考えを推測し、単一の意味を導き出す必要があります。つまり、通常の話し言葉の真の理解は、単なるテキスト（または言語）処理とはまったく異なる問題です。テキスト (または言語) 処理では、ほぼ正しい結果、つまり許容可能な確率で正しい結果を受け入れることができます。

この簡単な説明により、NLP が NLU と異なる理由と、NLU が機械にとって難しい理由が明らかになるはずです。しかし、NLU の難しさは正確には何でしょうか?

NLUの難しさは、テキストが欠落する現象にある。

いわゆるテキスト欠落現象 (MTP) は、NLP タスク課題の中核として理解できます。言語コミュニケーションのプロセスは、次の図に示されています。話し手は思考を特定の言語表現にエンコードし、聞き手はその言語表現を話し手が伝えようとした思考にデコードします。

図 1: 話者と聞き手の間の言語コミュニケーションプロセス。

デコードプロセスは NLU の U に相当します。つまり、発話の背後にある考えを理解することがデコードプロセスで必要なことです。さらに、このデコードプロセスには近似や自由度はありません。つまり、発話の複数の意味の可能性のうち、話者が表現したいアイデアは 1 つだけであり、デコードプロセスにおける「理解」はこの 1 つのアイデアに到達する必要があります。これが NLU が難しい理由です。

この複雑なコミュニケーションでは、2 つの最適化スキームが考えられます。(1) 話者はエンコード時に送信される情報の量を圧縮 (および最小化) し、デコード (解凍) プロセス中にリスナーが追加の作業を行うことを期待する。または、(2) 話者はアイデアを伝えるために必要なすべての情報を送信するために最善を尽くし、リスナーはほとんど何もしない。

プロセスが自然に進化するにつれて、上記の 2 つのアプローチは、話し手と聞き手の全体的な作業が同様に最適化されるという良好なバランスに達したようです。この最適化により、スピーカーは他の情報を無視しながら、できるだけ少ない情報をエンコードすることになります。省略された情報とは、話し手と聞き手が安全に想定して得られる情報であり、私たちがよく通常の背景知識と呼ぶものです。

このプロセスの複雑さを理解するために、次の図を例に挙げます。黄色のボックスには最適化されていない情報が含まれており、緑のボックスには同じ量の情報が含まれていますが、その量ははるかに少なくなっています。

緑色のボックス内のメッセージははるかに短く、まさに私たちが話す方法と同じです。単語は短くなっていますが、長いメッセージと同じ考えを伝えています。多くの場合、私たちは言いたいことをすべて明確には言いません。

つまり、効果的にコミュニケーションをとるためには、相手がすでに知っていると想定している情報は言わないのが普通です。これは、私たち全員が同じ情報を無視する傾向がある理由でもあります。なぜなら、誰もが知っていることを私たち全員が知っているからです。これを共通の背景知識と呼びます。人類が約20万年の進化の過程で開発したこの独創的な最適化プロセスは非常に効果的です。しかし、NLU には問題があります。マシンは私たちが知っていることを知らないため、私たちが欠けている情報が何であるかを知りません。結局のところ、NLU は極めて困難です。なぜなら、ソフトウェアプログラムは、人間が口頭で伝える際に省略したり暗示したりするすべてのことを何らかの方法で明らかにできなければ、言語的発話の背後にある考えを完全に理解できないからです。これは実際には NLU の課題であり、解析、ステミング、品詞タグ付け、固有表現認識などではありません。

図 2: NLU における多くの課題は、テキストの欠落という現象によって引き起こされます。欠落しているテキスト (暗黙の仮定) は赤で表示されます。

上記の例は、 NLU の課題は、欠落している情報を発見し、その情報が共有された背景知識であると暗黙的に想定することであることを示しています。下の図 3 は、テキストが欠落する現象をさらに説明しています。

機械学習とデータ駆動型アプローチでは NLU 問題を解決できない理由を以下に 3 つ挙げます。

ML手法はNLUとは何の関係もありません。MLは圧縮であり、言語理解には解凍が必要です。

日常会話で表現される情報は高度に圧縮されており、「理解」の課題は欠落したテキストを解凍することにあるため、機械を使用して自然言語理解を実現するのは非常に困難です。これは人間にとっては単純なことですが、機械にとっては大きく異なります。なぜなら、機械は人間が持つ知識を知らないからです。しかし、MTP 現象は、データ駆動型および機械学習の方法が NLP タスクでは効果的であるのに、NLU では効果的ではない理由を説明しています。

研究者は、学習可能性と圧縮性 (COMP) の同等性を数学的に証明しました。つまり、データセットの学習可能性は、データの圧縮性が高い場合 (つまり、冗長性が高い場合) にのみ発生し、その逆も同様です。圧縮性と学習可能性の関係を証明するのはかなり複雑ですが、直感的に理解するのは簡単です。学習可能性とは、ビッグデータを理解することであり、データセット内のすべての情報をカバーできる多次元空間内の関数を見つけることです。したがって、すべてのデータポイントを多様体に圧縮できる場合に学習可能性が発生します。しかし、MTP によれば、NLU は減圧に関するものであるとされています。次の例を見てみましょう。

機械学習とは、大量のデータを単一の関数に一般化することです。一方、MTP により、自然言語理解には、欠落しているテキストや暗黙的に想定されているテキストをすべて検出するためのインテリジェントな解凍技術が必要になります。したがって、機械学習と言語理解は互換性がなく、実際には矛盾しています。

ML手法はNLUと関連すらありません。統計的に有意ではありません。

ML は本質的に、データに基づいて特定のパターン (相関関係) を発見するためのパラダイムです。研究者は、自然言語で発生するさまざまな現象の間に統計的に有意な差を求めています。例えば：

1. トロフィーは大きすぎるのでスーツケースに入りません。
1a. 小さい
1b. 大きい

同義語と反意語（例えば、small と large、open と closed など）は、文脈中に等確率で出現するため、(1a) と (1b) は統計的に同等です。ただし、(1a) と (1b) が表す内容はまったく異なります。この文では、(1a) の「it」はスーツケースが小さいことを意味しますが、(1b) ではトロフィーが大きいことを意味します。意味はまったく異なりますが、(1a) と (1b) は統計的に同等です。したがって、統計分析ではセマンティクスをモデル化（または近似することさえ）できません。

ML手法はNLUとは関係ありません: intenSion

論理学者は長い間、「内包」と呼ばれる意味概念を研究してきました。「意図」とは何かを説明するには、まず次の図に示すように、いわゆる意味三角形から始める必要があります。

意味論的三角形では、あらゆる「もの（またはあらゆる認知オブジェクト）」は、概念を参照するシンボルと、（場合によっては）この概念のインスタンスの 3 つの部分で構成されます。たとえば、「ユニコーン」という概念を例に挙げると、現実には実際の例はありません。概念自体は、そのすべての潜在的なインスタンスの理想化されたテンプレートであり、ご想像のとおり、哲学者、論理学者、認知科学者は、何世紀にもわたって概念の性質とその定義について議論してきました。その議論にかかわらず、私たちは 1 つのことについては同意できます。それは、概念 (通常はシンボル/ラベルで参照されます) は、一連のプロパティと属性、および場合によっては追加の公理、確立された事実などによって定義されるということです。しかし、概念は実際の（不完全な）インスタンスと同じではなく、これは完全な数学の世界でも当てはまります。たとえば、次の算術式はすべて展開は同じですが、「意図」は異なります。

上の図のすべての式は 16 に評価されるため、ある意味 (値) では等しいですが、これはプロパティの 1 つにすぎません。実際、上記の式には、文法構造（a と d が異なる理由）、演算子の数など、他のいくつかの特性があります。値は単なる 1 つの属性であり、拡張機能と呼ぶことができます。また、すべての属性の集合は意図です。応用科学（工学、経済学など）では、これらのオブジェクトの価値が等しい場合はそれらを等しいと見なすことができますが、認知においてはそのような平等は存在しません。例えば：

(1) が真実であると仮定します。つまり、(1) が実際に起こり、私たちがそれを目撃したと仮定します。それでも、(1)の16をその値に等しい1(仮説)に置き換えただけであるにもかかわらず、(2)が真であると仮定できるわけではありません。ステートメント内のオブジェクトを、それと等しいはずのオブジェクトに置き換え、真実であるものから真実でないものを推論しました。物理科学では物体を特性に置き換えるのは簡単ですが、認知科学ではこれは機能しません。

要約すると、この記事では、機械学習とデータ駆動型のアプローチが NLU に関連しない 3 つの理由について説明しました (ただし、これらのアプローチは、本質的に圧縮である一部のテキスト処理タスクに使用される場合があります)。私たちが考えを伝えるとき、非常に圧縮された言葉のメッセージを伝えますが、そのメッセージには、脳が欠けているが暗黙の文脈をすべて解釈して明らかにすることが必要です。多くの点で、大規模な言語モデルを構築するための機械学習とデータ駆動型のアプローチは、データ内に存在しないものを見つけようとする無駄な試みです。日常的に話される情報は理想的な言語データではないことを認識する必要があります。

<<: データが増えるほど、AIの意思決定モデルは脆弱になる

>>: 優れた機械学習論文を書くにはどうすればいいでしょうか?