人工知能と自然言語処理の概要: AI の 3 つの主要段階と NLP の主な応用分野

最近、Xenonstack は Jagreet Kaur 氏による「人工知能の概要とビッグデータにおける自然言語処理の役割」というタイトルの記事を公開しました。この記事では、人工知能とそのさまざまなサブフィールドの現状を包括的に概説し、ビッグデータと自然言語処理の発展に焦点を当て、ビッグデータにおける自然言語処理の役割について説明しています。この記事はMachine Intelligenceによって翻訳されており、元のリンクは記事の最後に添付されています。

1. 人工知能の概要

AI は「人工知能」の略で、機械が人間のように知的なタスクを実行できるようにするテクノロジーです。 AI はインテリジェンスを使用してタスクを自動化します。

「人工知能」には、2 つの重要なポイントがあります。

オートメーション
知的

1. 人工知能の目的

推論
自動学習とスケジュール
機械学習
自然言語処理
コンピュータビジョン
ロボット
一般的な知能

2. 人工知能の3つの段階

フェーズ 1 - 機械学習: インテリジェントシステムは、一連のアルゴリズムを使用して経験から学習します。
フェーズ 2 — 機械知能: 機械は、ディープニューラルネットワークなどのさまざまな高度なアルゴリズムを使用して、経験から学習します。

人工知能は現在この段階にあります。

ステージ 3 — 機械意識: 外部データなしで経験から学習できる。

3. 人工知能の種類

ANI (Artificial Intelligence Narrow): チャットボットや、Siri や Alexa などのパーソナルアシスタントによって実行されるような、基本的な役割ベースのタスクが含まれます。
AGI (汎用人工知能): 汎用人工知能は人間レベルのタスクを網羅し、機械による継続的な学習を伴います。
ASI (人工知能): 人工知能とは、人間よりも賢い機械を指します。

4. システムをインテリジェントにする要素は何ですか?

自然言語処理
知識表現
自動推論
機械学習

2. NLP、人工知能、機械学習、ディープラーニング、ニューラルネットワークの違い

人工知能: 物事をインテリジェントに処理できるシステムを構築します。
自然言語処理: 人工知能の一分野である言語を理解できるシステムの構築。
機械学習: 経験から学習できるシステムを構築する、人工知能の一分野。
ニューラルネットワーク: 生物学にヒントを得た人工ニューロンのネットワーク。
ディープラーニング: 機械学習の一分野である、大規模なデータセットに対してディープニューラルネットワークを使用するシステムを構築します。

1. 自然言語処理とは何ですか?

自然言語処理 (NLP) とは、人間の書き方や話し方を機械が理解し解釈する能力を指します。

NLP の目標は、言語を理解する能力においてコンピューター/マシンを人間と同じくらいに賢くすることです。最終的な目標は、人間のコミュニケーション (自然言語) とコンピュータの理解 (機械言語) の間のギャップを埋めることです。

言語分析には 3 つのレベルがあります。

構文: 与えられたテキストのどの部分が文法的に正しいか。
セマンティクス: 与えられたテキストは何を意味するのか?
語用論: テキストの目的は何ですか?

NLP は次のような言語のさまざまな側面を扱います。

音韻論: 言語における音の体系的な構成を指します。
形態論: 単語の形成と単語間の関係を研究する学問。

NLP における意味分析を理解するための方法:

分散型: 機械学習とディープラーニングのための大規模な統計戦略を活用します。
フレーム化: 構文は異なるが同じ意味を持つ文が、データ構造 (フレーム) 内の様式化されたシナリオとして表現されます。
理論的: このアプローチは、文が指し示す実際の単語と文の一部を組み合わせることで完全な意味を表現できるという考えに基づいています。
インタラクティブ（学習）：インタラクティブな学習環境でユーザーがコンピュータに段階的に言語を学習させる実践的なアプローチを採用しています。

2. NLP はなぜ必要なのでしょうか?

NLP を使用すると、自動音声や自動テキスト作成などのタスクを実現できます。

大きなデータ（テキスト）が存在するのであれば、コンピューターのパワーを利用してアルゴリズムを休みなく実行し、そのようなタスクをより短時間で完了させてみてはいかがでしょうか。

これらのタスクには、自動要約 (特定のテキストの要約の生成) や機械翻訳など、NLP の他のアプリケーションが含まれます。

3. NLPプロセス

音声を使ってテキストを生成する場合は、テキスト読み上げタスクを完了する必要があります。

NLP のメカニズムには 2 つのプロセスが含まれます。

自然言語理解
自然言語生成

4. 自然言語理解（NLU）

NLU は与えられたテキストの意味を理解することです。テキスト内の各単語の性質と構造を理解する必要があります。構造を理解するという点では、NLU は自然言語における次の曖昧さを理解する必要があります。

語彙の曖昧さ：単語には複数の意味がある
構文の曖昧さ: 文に複数の構文木がある
意味の曖昧さ: 文章に複数の意味がある
照応的曖昧性: 前に述べた語句または単語が、次の文では異なる意味を持ちます。

次に、語彙と文法の規則を使用して各単語の意味を理解します。

ただし、似た意味を持つ単語（同義語）もあれば、複数の意味を持つ単語（多義性）もあります。

5. 自然言語生成（NLG）

NLG は、構造化されたデータから読みやすい形式でテキストを自動的に生成するプロセスです。自然言語生成の問題は解決が困難です。

自然言語生成は 3 つの段階に分けられます。

テキスト計画: 構造化データで基本コンテンツの計画を完了します。
ステートメントの計画: 構造化されたデータからステートメントを組み立てて、情報の流れを表現します。
実装: 文法的に一貫した文章を生成してテキストを表現します。

3. NLPとテキストマイニング（またはテキスト分析）の違い

自然言語処理とは、与えられたテキストの意味と構造を理解するプロセスです。

テキストマイニングまたはテキスト分析は、パターン認識を通じてテキストデータから隠れた情報を抽出するプロセスです。

自然言語処理は与えられたテキストデータの意味 (セマンティクス) を理解するために使用され、テキストマイニングは与えられたテキストデータの構造 (構文) を理解するために使用されます。

たとえば、「私は銀行の近くで財布を見つけました」という文では、NLP のタスクは、文末の「銀行」という単語が銀行を指しているのか、川を指しているのかを理解することです。

4. ビッグデータにおけるNLP

現在、すべてのデータの 80% が利用可能であり、ビッグデータは大企業や大企業が保存する情報から得られます。たとえば、従業員情報、会社の購入、販売記録、経済取引、会社およびソーシャルメディアの履歴記録などです。

人間が使用する言語はコンピュータにとって曖昧で構造化されていませんが、NLP の助けを借りれば、これらの大規模な非構造化データのパターンを解析し、そこに含まれる情報をよりよく理解することができます。

NLP はビッグデータを活用して、小売、医療、金融などのビジネスにおける難しい問題を解決できます。

5. チャットボットとは何ですか?

1. チャットボットまたは自動化されたインテリジェントエージェント

チャットアプリ、チャットウィンドウ、音声ウェイクアップアプリを通じて通信できるコンピュータープログラムを指します。
低コストで効率的で継続的に機能し、顧客の問題を解決するために使用されるインテリジェントなデジタルアシスタントもあります。

2. チャットボットの重要性

チャットボットは、デジタル顧客サービスの世界の変化や、頻繁な問い合わせに対する日常的な質疑応答サービスを理解する上で非常に重要です。
チャットボットは、特に予測可能な質問が頻繁に行われる場合など、一部のドメインの特定のシナリオでは非常に役立ちます。

3. チャットボットの仕組み

知識ベース: 情報のデータベースが含まれており、顧客の質問に基づいて情報に応答します。
データストレージ: ユーザーとの通信に関する履歴情報が含まれます。
NLP レイヤー: ユーザーの質問 (あらゆる形式) を適切な応答のための情報に変換します。
アプリケーション層: ユーザーと対話するために使用されるアプリケーションインターフェイスを指します。

チャットボットはユーザーと対話するたびに学習し、機械学習を使用してリポジトリ内の情報に応答します。

6. NLP にディープラーニングが必要なのはなぜですか?

ルールベースのアプローチを使用して、単語を「ワンホット」エンコードされたベクトルとして表現します。

従来の方法は、意味的表現ではなく、構文的表現に重点を置いています。

Bag of Words: 分類モデルは特定のコンテキストを区別できません。

1. ディープラーニングの3つの機能

表現可能性: この機能は、マシンが普遍的な関数をどの程度正確に近似できるかを表します。
学習可能性: ディープラーニングシステムが問題を学習する速度と能力。
一般化可能性: トレーニングされていないデータに対して機械が予測を行う能力。

もちろん、ディープラーニングでは、説明可能性、モジュール性、移転可能性、レイテンシ、敵対的安定性、セキュリティなど、他の機能も考慮する必要があります。しかし、上記が主な能力です。

2. NLPにおけるディープラーニングの一般的なタスク

3. 従来のNLPとディープラーニングNLPの違い

7. ログ分析とログマイニングにおけるNLP

1. ログとは何ですか?

さまざまなネットワークデバイスまたはハードウェアからのタイミング情報の集合がログを表します。ログはディスクファイルに直接保存することも、情報ストリームとしてログコレクターに送信することもできます。

ログは、ハードウェアのパフォーマンス、パラメータの調整、緊急イベント、システムの修復、アプリケーションとアーキテクチャの最適化を維持および追跡するためのプロセスを提供します。

2. ログ分析とは何ですか?

ログ分析は、ログから情報を抽出し、情報の構文とセマンティクスを分析し、アプリケーション環境を解決して、さまざまなソースからのログドキュメントを比較および分析し、異常検出を実行し、相関関係を発見するプロセスです。

3. ログマイニングとは何ですか?

ログマイニングまたはログ知識発見は、ログ内のパターンと相関関係を抽出して知識をマイニングし、ログ内の異常検出を予測するプロセスです。

4. ログ分析とログマイニングで使用される技術

ログ分析を実現するためのさまざまな手法を以下に説明します。

パターン認識: ログ情報とパターンブックの情報を比較して情報をフィルタリングする技術。
標準化: ログ情報の標準化とは、異なる情報を同じ形式に変換することです。異なるソースからのログ情報に異なる用語があっても意味は同じである場合、標準化が必要です。
分類とタグ付け: さまざまなログ情報の分類とタグ付けには、情報を並べ替え、さまざまなキーワードで注釈を付ける作業が含まれます。
人工無知: 機械学習アルゴリズムを使用して、役に立たないログ情報を破棄する手法。システムの異常を検出するためにも使用できます。

5. ログ分析とログマイニングにおけるNLP

自然言語処理技術は、ログ分析やログマイニングに広く使用されています。

ログ情報を構造化された形式に変換するために、単語の分割、語幹処理、見出し語化、解析などのさまざまな手法が使用されます。

ログが適切な形式で整理されると、ログ分析とログマイニングによって、情報から有用な情報と知識を抽出できます。

8. 深層自然言語処理

自然言語処理は、人工知能、計算言語学、コンピューターサイエンスの交差点にある複雑な分野です。

1. NLPから始める

ユーザーはテキストが書かれたファイルを入力する必要があり、その後、次の NLP 手順を実行する必要があります。

文の分割 - 特定のテキスト内の文の境界、つまり 1 つの文の終わりと別の文の始まりを識別します。文は通常、句読点「.」で終わります。
トークン化 - さまざまな単語、数字、その他の句読点を認識します。
語幹化 - 単語を語幹に短縮します。
品詞タグ付け - 名詞や副詞など、文中の各単語の品詞をマークします。
構文解析 − 与えられたテキストの各部分をクラスに分割します。
名前付きエンティティの認識 - 指定されたテキスト内の誰が、どこで、いつ、などを調べます。
共参照解決 - 文中の特定の単語間の関係を、その前の節と後続の節に基づいて定義します。

9. NLPのその他の主な応用分野

ビッグデータ、ログマイニング、分析への応用に加えて、NLP には他の主要な応用分野がいくつかあります。

NLP はビッグデータや機械学習ほど普及していませんが、私たちは毎日それを使用しています。

自動要約 - 入力テキストが与えられると、無関係な情報を破棄してテキストを要約します。
感情分析 - 特定のテキスト内のトピックを予測します。たとえば、テキストに判断、意見、コメントが含まれているかどうかなどです。
テキスト分類 - さまざまなジャーナルやニュースレポートを分野ごとに分類します。複数文書の分類も可能です。テキスト分類の一般的な例としては、スパムメールの検出があります。文章のスタイルに基づいて著者名を検出できます。
情報抽出 - 電子メールプログラムでカレンダーにイベントを自動的に追加することをお勧めします。

元記事: https://www.xenonstack.com/blog/overview-of-artificial-intelligence-and-role-of-natural-language-processing-in-big-data

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 線形回帰の勾配降下アルゴリズムのオクターブシミュレーション

>>: 滴滴出行とスタンフォード人工知能研究所が協力