機械学習は言語から意味を抽出するのにまだ苦労している

機械学習は言語から意味を抽出するのにまだ苦労している

私たちは幼児期から言語を吸収し始めます。簡単な単語は1年目か2年目に出てきます。 6 歳までに語彙は数千語増え、10 代になると 10 万語を超える単語を学習します。しかし、言語は人間が生まれながらに持つ能力ですが、機械にとっては非常に困難です。

[[421700]]

これは、機械にとって簡単なことは人間にとって難しいことであり、その逆もまた真なりであるというモラベックのパラドックスの典型的な例です。ソフトウェアは、大規模な集合に対する数学的演算を迅速かつ完璧に計算できますが、周囲の環境内の物体を識別したり、言語を理解したりするなど、人間の日常的な活動には苦労します。人間と同じように自然言語を理解するソフトウェアの開発には多くの取り組みが行われていますが、依然として大きな課題が残っています。

数字ではなく言葉

過去 20 年間で、あらゆる形式で生成および収集されるデータの量は爆発的に増加しました。大まかに言えば、このデータは構造化データと非構造化データの 2 つのカテゴリに分類されます。構造化データはデジタル化され、整理されており、定義上、数学演算の基本的な入力となります。機械学習 (ML) とデータ処理機能の全体的な成長のおかげで、AI は、潜在的な機械の故障から不正の検出まで、あらゆるものについて構造化データから予測的な洞察を生成する点で着実に進歩しました。データを数値的に表現し、構造化できれば、機械学習による洞察を得られる可能性があります。

しかし、デジタル技術の進歩により、画像、動画、言語データなどの非構造化データも大幅に増加しました。この点では、従来の機械学習ベースの自然言語処理 (NLP) 技術では不十分です。言語はデータ集約型であり、使用方法に応じて豊富な潜在的情報を持ちます。

思考訓練として、「bat」などの一般的な単語の意味と用途の数を単純にリストアップします。これらの意味は文脈から生まれます。言語学者 R.J. ファースは、「単語にはどのような仲間がいるかを知っておくべきだ」と書いています。言語のこうした本質的な要素により、数学的手法を適用して自然言語の意味を真に理解することは非常に困難になります。しかし、言語機械学習に対する万能アプローチには、より根本的な欠点、つまり知識問題があります。

知識の問題

幅広いビジネスをサポートし、それぞれの分野に固有の複雑な言語のドキュメントを扱う現実の世界では、言語の課題はさらに複雑になります。定義上、これらは言語をより複雑にするエッジケースです。機械学習モデルは、トレーニングに使用したデータを通じてのみ世界について学習し、複雑で多くの場合不透明なアルゴリズム(多くの AI アプローチに特徴的な有名な「ブラック ボックス」)を通じて結果を導き出します。

実用的なソリューションを提供する作業の多くは、データ セットが十分に大きく、主題の専門家が何年もの経験とトレーニングを経てのみ識別できる情報を取り込むのに十分な代表性を備えていることを保証することにかかっています。多くの場合、このような大量のトレーニング データは利用できません。現実世界は時間の経過とともに変化し、モデルを再トレーニングする必要があることを考えると、これは継続的な取り組みでもあります。

GPT-3 のような大規模言語モデルにおけるよく知られた進歩でさえ、この複雑さについて楽観的になる理由はほとんどありません。これらのモデルはトレーニングに膨大なデータセットに依存しており、比較的単純な言語のケースを処理できます。しかし、特定の領域における実質的な基盤が欠如しているため、経験と知識のある人が意図、文脈、意味を理解するために使用する方法からは遠く離れています。

全体は部分の総和よりも大きい

機械学習手法の力と、ビジネスの専門家が長年にわたって培ってきた知識に基づくアプローチを組み合わせる必要性がますます認識されつつあります。シンボリック AI として知られるこれらの知識ベースのアプローチは、人間が特定の分野の習熟度を高める方法と同様に、知識を埋め込む技術に依存しています。

シンボリックアプローチでは、結果が知識の明示的な表現に関連付けられるため、解釈可能性という追加の利点が得られます。実際、シンボリック手法は人工知能における自然言語理解に使用された最初の技術であり、最近の機械学習手法に必要な補完技術としてますます認識されるようになっています。

学習と知識のアプローチを組み合わせることで、説明可能なドメインと結果に関連する洞察とともに、大規模な深い理解を生み出す能力が得られます。この「ハイブリッド」アプローチにより、言語に埋め込まれた関連情報がスケーラブルな方法でキャプチャおよび配信され、より迅速でスマートかつ一貫性のある意思決定が可能になり、人々がより良く仕事をする(よりプロフェッショナルになる)ことが可能になります。究極的には、ここが企業が競争し、最高のテクノロジーが発揮される場なのです。

<<:  米裁判所、人工知能コンピューターは発明を特許できないと判決

>>:  プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

ブログ    
ブログ    
ブログ    

推薦する

AIは40の言語を理解でき、15の言語で22の部門で1位を獲得しました。その背景には、中国チームの22年間の粘り強さがあります。

一気に15言語で22の1位を獲得!いや、もっとすごいのは、彼は40以上の言語を読んで理解できるという...

DeepXplore: 現実世界のディープラーニングシステムを体系的にテストするための初のホワイトボックスフレームワーク

ヨアヴ・ホランダーマシンハートが編集参加者: ウー・パン、ヤン・チー5月に、コロンビア大学とリーハイ...

スタンフォード大学、AIがシマウマを犬と誤認する理由を発見

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

機械学習の一般的な概念を普及させる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

適応型計算とは、環境の変化に応じて ML システムの動作を調整する能力を指します。従来のニューラル ...

新型コロナウイルス感染症の流行中に音声テクノロジーが再び注目を集めているのはなぜでしょうか?

新型コロナウイルスの世界的大流行により、各国で厳しいロックダウン措置が取られ、多くの人が外出を控えざ...

東京オリンピックでロボットが美しい風景になる

[[413763]]最近、4年に一度のオリンピックがついに東京で開催されました。フィールドでは、世界...

人工知能に対するいくつかの態度: 流行を追跡するために個人データを犠牲にする用意がありますか?

最近、AI に関する調査、研究、予測、その他の定量的評価が相次いで発表され、世界中の企業による AI...

人工知能 (AI) ソリューションを購入または構築する際に尋ねるべき 5 つの重要な質問

人工知能などの新興テクノロジーには、マーケティング上の約束が実際の成果を上回らないようにすることと、...

...

...

...

AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」

7月24日のニュース:昨年末にチャットボットChatGPTがリリースされて以来、人工知能がトレンド...

...