初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

自然言語処理は AI の最高峰であり、コーパス前処理は自然言語処理の基礎です。

[[336067]]

機械は人間とコミュニケーションできるのでしょうか?人間のようにテキストを理解できますか?これが人工知能に対する誰もが最初に想像するものです。今日、NLP テクノロジーは人間と機械の架け橋として機能します。私たちの生活を見渡すと、音声認識、機械翻訳、質問応答システムなど、NLP 技術がもたらす利便性をいつでも享受できます。

これらのテクニックは奥が深いように思えるかもしれませんが、実際は従うべきルールがあります。アルゴリズムの基本原理を理解すると、突然、おや!と気づくかもしれません。これは理解するのが難しくありません。

この記事を読んで、NLP テクノロジー (コーパス前処理) の基盤がどのように構築されるかを調べてみましょう。次回以降の記事では、NLPにおける特徴抽出や最新のアルゴリズム解釈について、徐々に紹介していきます。

コーパスは、その名前が示すように、通常テキストと呼ばれるものです。テキスト記述のあるテキストはすべてコーパスに分類できます。ただし、この種の生のテキストはモデルのトレーニングに直接使用することはできず、事前の前処理が必要です。

コーパスの前処理方法には、主にデータのクリーニング、単語の分割、品詞のタグ付け、ストップワードの削除が含まれます。

コーパスクリーニング

コーパスクリーニングとは、コーパス内の有用なデータを保持し、ノイズデータを除去することを意味します。一般的なクリーニング方法には、手動による重複排除、アライメント、削除、ラベル付けなどがあります。

次のテキストを例に挙げます。テキストには、漢字だけでなく、数字、英語の文字、句読点などの通常とは異なる文字も含まれており、これらは意味のない情報であるため、クリーンアップする必要があります。

上記の場合と同様に、クリーニング方法は主に正規表現を使用します。この問題を解決するには、短い Python スクリプトを書くことができます。コードは次のとおりです。

洗浄後の結果:

ノイズ データには、クリーンアップする必要がある上記のフォームに加えて、テキストの重複、エラー、省略、異常なども含まれます。クリーニング方法には、手動処理、小さなツールの開発、またはデータをクリーニングするための短いプログラムの作成などがあります。

分詞

データがクリーンアップされたら、次のステップであるテキストのセグメンテーションに進むことができます。テキスト分割とは、テキストを個々の単語に分割することです。一般的に使用される単語分割方法には、ルールベースと統計ベースの単語分割方法があり、統計サンプル コンテンツはいくつかの標準コーパスから取得されます。

たとえば、「Xiao Ming は朝陽区に住んでいます」という文では、コーパス統計後の単語分割の結果は、「Xiao Ming/ は朝陽区に住んでいます」ではなく、「Xiao Ming/ は朝陽区に住んでいます」となることが予想されます。それで、どうやってこれを実現するのでしょうか?

統計的な観点から見ると、これは条件付き確率分布を通じて解決できます。新しい文に対して、さまざまな単語分割方法に対応する結合分布確率を計算し、最大確率に対応する単語分割方法、つまり最適な単語分割を見つけることができます。

これまで、研究者たちは、使いやすい単語分割のための実用的なツールを数多く開発してきました。単語分割に特別な要件がない場合は、これらの単語分割ツールを直接使用できます。

さまざまな単語分割ツールの概要。

品詞タグ付け

品詞タグ付けとは、単語分割結果の各単語の正しい品詞をマークするプロセス、つまり各単語が名詞、動詞、形容詞、またはその他の品詞であるかどうかを判断するプロセスを指します。

品詞タグ付けにはいくつかの重要な機能があります。

まず、曖昧さを排除します。一部の単語は、文脈や使用方法によって意味が異なります。たとえば、「この犬の名前はハッピーです」と「私は今日とても幸せです」という 2 つの文では、「幸せ」は異なる意味を表します。品詞タグ付けによって区別することができます。

次に、単語ベースの機能を強化します。上記の文を例にとると、品詞タグ付けが行われていない場合、2 つの「happy」は頻度 2 の同義語とみなされ、その後の分析でエラーが発生します。

さらに、品詞タグ付けには、標準化、語形の復元、ストップワードの効果的な削除などの機能もあります。

一般的に使用される品詞タグ付け方法には、最大エントロピー品詞タグ付け、HMM 品詞タグ付けなどのルールベースおよび統計ベースのアルゴリズムが含まれます。

次に、品詞タグ付けの例を見てみましょう。自分で試してみることもできます: http://ictclas.nlpir.org/nlpir/

ストップワードを削除する

私たち人間はメッセージを受け取るとき、無効な情報をフィルタリングし、有用な情報を選択します。自然言語の場合、ストップワードを削除するのは非常に賢明な操作です。

中国語でも英語でも、テキストには接続詞、機能語、助詞、および「的」、「吧」、「但」などの接続詞として機能するその他の意味のない単語が含まれています。これらの単語には特別な意味はなく、単に文章をつなげて語調を高める役割を果たします。これらの単語はテキスト分析には役立たないので、単語分割後にデータに対してストップワード処理を実行する必要があります。

しかし、どの種類のストップワードを削除するかを決定する際には注意が必要です。

下の図は、よく使用されるストップワードの一部を示しています。必要に応じて、削除するストップワードを選択できます。

単語の頻度統計

単語頻度統計は、単語を分割した後、テキストの単語頻度をカウントします。目的は、テキストに最も影響を与える単語を見つけることです。これはテキストマイニングの重要な手段です。これらの単語の頻度を数えると、記事が何を強調しているかを理解するのに役立ち、その後のモデル構築が容易になります。

たとえば、四大古典の一つである『紅楼夢』の語頻度上位28語を数えると、次のようになります。

上の写真から、「紅楼夢」の中でどのキャラクターについて最も多く書かれ、曹雪芹がどのキャラクターにもっと注目しているかが分かります。私たちは紅楼夢の研究の専門家ではありませんが、統計的な単語の頻度からいくつかの重要な情報を分析することができます。

「高い建物は地面から立ち上がる。」自然言語処理の超高層ビルの場合、基礎となる実装原理を理解することで、その構築プロセスをよりよく理解できるようになります。

<<:  世界中で人気のGPT-3がなぜ人々の仕事を破壊しているのか?

>>:  AIoT技術の幅広い応用と大きな利点

ブログ    
ブログ    
ブログ    

推薦する

投票の未来: AI、ブロックチェーン、生体認証

投票攻撃は止まらない2016年の米国大統領選挙は紆余曲折を経て、最終的にトランプ氏が米国大統領に選出...

IntelがLoihi 2チップとLavaフレームワークを発表

インテルは、人工知能、ロボット工学などの分野におけるニューロモルフィック・コンピューティングの研究開...

...

張 楊: カーディナリティ推定アルゴリズムの概要

繰り返し項目を含む巨大なデータセットがあり、それが大きすぎてメモリに収まらないとします。ここで、この...

PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

著者の個人的な理解に基づいて書かれた現在、自動運転の分野では、点群データを収集するためのLIDARセ...

【受賞討論会】「スマート運用・保守」がトレンドに。運用・保守エンジニアは人工知能に置き換えられるのか?

特にインフラとして重要な役割を担うデータセンターにおいては、運用・保守は決して軽視できるものではなく...

ディープラーニングの基本概念のチートシート

ディープラーニングは多くの初心者にとってわかりにくいかもしれません。急速に発展するにつれて、多くの新...

機械学習と脳科学が次の10年間の教育発展をリードする

[51CTO.comよりオリジナル記事] 昨今人気の技術として、産業界における人工知能の応用が徐々に...

ディスカッション | 人工知能は同時通訳に取って代わることができるか?

[[254687]]少し前に同時通訳者がiFlytekを「AI同時通訳詐欺」と非難し、ネット上で騒...

人工知能やモノのインターネットから仮想現実やブロックチェーンまで、将来の技術進歩の大部分はクラウドで起こるだろう。

今では、ほとんどの企業リーダーがクラウド コンピューティングの価値を理解しています。すでに多くの人が...

130年の歴史を持つアメリカのブランド、カーハートがAIを活用して売上を伸ばす方法

戦略的利益のために AI を活用している企業の中に、アメリカの衣料品会社 Carhartt がありま...

...

人工知能を使用して自動化されたデータセンターを構築する方法

現在、人工知能 (AI) に関する議論のほとんどは、自動運転車、チャットボット、デジタル ツイン、ロ...

過大評価されすぎた人工知能バブルは、どのように崩壊するのでしょうか。

実は、似たような事件は以前にも起きている。江蘇省衛星テレビの番組「The Brain」では、百度脳が...