機械学習は言語から意味を抽出するのにまだ苦労している

機械学習は言語から意味を抽出するのにまだ苦労している

私たちは幼児期から言語を吸収し始めます。簡単な単語は1年目か2年目に出てきます。 6 歳までに語彙は数千語増え、10 代になると 10 万語を超える単語を学習します。しかし、言語は人間が生まれながらに持つ能力ですが、機械にとっては非常に困難です。

[[421700]]

これは、機械にとって簡単なことは人間にとって難しいことであり、その逆もまた真なりであるというモラベックのパラドックスの典型的な例です。ソフトウェアは、大規模な集合に対する数学的演算を迅速かつ完璧に計算できますが、周囲の環境内の物体を識別したり、言語を理解したりするなど、人間の日常的な活動には苦労します。人間と同じように自然言語を理解するソフトウェアの開発には多くの取り組みが行われていますが、依然として大きな課題が残っています。

数字ではなく言葉

過去 20 年間で、あらゆる形式で生成および収集されるデータの量は爆発的に増加しました。大まかに言えば、このデータは構造化データと非構造化データの 2 つのカテゴリに分類されます。構造化データはデジタル化され、整理されており、定義上、数学演算の基本的な入力となります。機械学習 (ML) とデータ処理機能の全体的な成長のおかげで、AI は、潜在的な機械の故障から不正の検出まで、あらゆるものについて構造化データから予測的な洞察を生成する点で着実に進歩しました。データを数値的に表現し、構造化できれば、機械学習による洞察を得られる可能性があります。

しかし、デジタル技術の進歩により、画像、動画、言語データなどの非構造化データも大幅に増加しました。この点では、従来の機械学習ベースの自然言語処理 (NLP) 技術では不十分です。言語はデータ集約型であり、使用方法に応じて豊富な潜在的情報を持ちます。

思考訓練として、「bat」などの一般的な単語の意味と用途の数を単純にリストアップします。これらの意味は文脈から生まれます。言語学者 R.J. ファースは、「単語にはどのような仲間がいるかを知っておくべきだ」と書いています。言語のこうした本質的な要素により、数学的手法を適用して自然言語の意味を真に理解することは非常に困難になります。しかし、言語機械学習に対する万能アプローチには、より根本的な欠点、つまり知識問題があります。

知識の問題

幅広いビジネスをサポートし、それぞれの分野に固有の複雑な言語のドキュメントを扱う現実の世界では、言語の課題はさらに複雑になります。定義上、これらは言語をより複雑にするエッジケースです。機械学習モデルは、トレーニングに使用したデータを通じてのみ世界について学習し、複雑で多くの場合不透明なアルゴリズム(多くの AI アプローチに特徴的な有名な「ブラック ボックス」)を通じて結果を導き出します。

実用的なソリューションを提供する作業の多くは、データ セットが十分に大きく、主題の専門家が何年もの経験とトレーニングを経てのみ識別できる情報を取り込むのに十分な代表性を備えていることを保証することにかかっています。多くの場合、このような大量のトレーニング データは利用できません。現実世界は時間の経過とともに変化し、モデルを再トレーニングする必要があることを考えると、これは継続的な取り組みでもあります。

GPT-3 のような大規模言語モデルにおけるよく知られた進歩でさえ、この複雑さについて楽観的になる理由はほとんどありません。これらのモデルはトレーニングに膨大なデータセットに依存しており、比較的単純な言語のケースを処理できます。しかし、特定の領域における実質的な基盤が欠如しているため、経験と知識のある人が意図、文脈、意味を理解するために使用する方法からは遠く離れています。

全体は部分の総和よりも大きい

機械学習手法の力と、ビジネスの専門家が長年にわたって培ってきた知識に基づくアプローチを組み合わせる必要性がますます認識されつつあります。シンボリック AI として知られるこれらの知識ベースのアプローチは、人間が特定の分野の習熟度を高める方法と同様に、知識を埋め込む技術に依存しています。

シンボリックアプローチでは、結果が知識の明示的な表現に関連付けられるため、解釈可能性という追加の利点が得られます。実際、シンボリック手法は人工知能における自然言語理解に使用された最初の技術であり、最近の機械学習手法に必要な補完技術としてますます認識されるようになっています。

学習と知識のアプローチを組み合わせることで、説明可能なドメインと結果に関連する洞察とともに、大規模な深い理解を生み出す能力が得られます。この「ハイブリッド」アプローチにより、言語に埋め込まれた関連情報がスケーラブルな方法でキャプチャおよび配信され、より迅速でスマートかつ一貫性のある意思決定が可能になり、人々がより良く仕事をする(よりプロフェッショナルになる)ことが可能になります。究極的には、ここが企業が競争し、最高のテクノロジーが発揮される場なのです。

<<:  米裁判所、人工知能コンピューターは発明を特許できないと判決

>>:  プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

ブログ    

推薦する

5Gが企業に与える影響

画像ソース: https://pixabay.com/images/id-1069218/ 2024...

言語モデルの氷山の一角: 微調整は不要、AI21 Labs は凍結モデルの未開発の可能性を探る

現在、特定の NLP タスクのパフォーマンスを最適化するための最善のアプローチは、事前トレーニング済...

...

「ブラックボックス」アルゴリズムの下ではAIへの信頼は疑わしいが、説明可能なAIは開発の「最初の年」を迎える

天才は左にいて、狂人は右にいます。天才と狂気の間にはわずかな境界線しかありません。 AIに関しては、...

KDnuggets 公式調査: データ サイエンティストが最もよく使用する 10 のアルゴリズム

[[174162]]最新の KDnuggets 調査では、データ サイエンティストが最もよく使用する...

AIの未来はブロックチェーンの未来とつながっているのでしょうか?

近代以降、ほぼすべての産業革命はさまざまな程度の自動化によって推進されてきました。これまでの産業革命...

AIはソフトウェア開発の特効薬ではない

AIプログラミングツールを使っている開発者のみなさん、作業効率はどれくらい向上しましたか?最近、AI...

人工知能やロボットが新たなスターとなった分野はどこでしょうか?

[[252297]] 8月15日から19日まで、世界ロボット会議が北京市宜荘で成功裏に終了しました...

スマート物流の1兆ドル規模の扉が開かれ、物流ロボットがトレンドの先端に立っている

近年、インターネットの急速な発展、電子商取引の加速的な台頭、さまざまな新しいビジネスモデルの急速な実...

...

ネットワークにおける機械学習の実用的応用

各 Web アプリケーションには独自の機能とパフォーマンス パラメーターのセットがあり、これらは動的...

TikTokの背後にあるAIの仕組み

エンジニアの視点から TikTok 推奨システムのアーキテクチャを探ります。 TikTok は、ユー...

2018年末のAI分野におけるオープンソースフレームワークのまとめ

[[253605]] [やや活発な***四半期] 2018.3.04——OpenAIはオープンソース...

時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマー サービス業界にもたらす変化

それ以来、電子メール マーケティングは存在し続けています。私たちは皆、Google で電子メール マ...

...