初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

自然言語処理は AI の最高峰であり、コーパス前処理は自然言語処理の基礎です。

[[336067]]

機械は人間とコミュニケーションできるのでしょうか?人間のようにテキストを理解できますか?これが人工知能に対する誰もが最初に想像するものです。今日、NLP テクノロジーは人間と機械の架け橋として機能します。私たちの生活を見渡すと、音声認識、機械翻訳、質問応答システムなど、NLP 技術がもたらす利便性をいつでも享受できます。

これらのテクニックは奥が深いように思えるかもしれませんが、実際は従うべきルールがあります。アルゴリズムの基本原理を理解すると、突然、おや!と気づくかもしれません。これは理解するのが難しくありません。

この記事を読んで、NLP テクノロジー (コーパス前処理) の基盤がどのように構築されるかを調べてみましょう。次回以降の記事では、NLPにおける特徴抽出や最新のアルゴリズム解釈について、徐々に紹介していきます。

コーパスは、その名前が示すように、通常テキストと呼ばれるものです。テキスト記述のあるテキストはすべてコーパスに分類できます。ただし、この種の生のテキストはモデルのトレーニングに直接使用することはできず、事前の前処理が必要です。

コーパスの前処理方法には、主にデータのクリーニング、単語の分割、品詞のタグ付け、ストップワードの削除が含まれます。

コーパスクリーニング

コーパスクリーニングとは、コーパス内の有用なデータを保持し、ノイズデータを除去することを意味します。一般的なクリーニング方法には、手動による重複排除、アライメント、削除、ラベル付けなどがあります。

次のテキストを例に挙げます。テキストには、漢字だけでなく、数字、英語の文字、句読点などの通常とは異なる文字も含まれており、これらは意味のない情報であるため、クリーンアップする必要があります。

上記の場合と同様に、クリーニング方法は主に正規表現を使用します。この問題を解決するには、短い Python スクリプトを書くことができます。コードは次のとおりです。

洗浄後の結果:

ノイズ データには、クリーンアップする必要がある上記のフォームに加えて、テキストの重複、エラー、省略、異常なども含まれます。クリーニング方法には、手動処理、小さなツールの開発、またはデータをクリーニングするための短いプログラムの作成などがあります。

分詞

データがクリーンアップされたら、次のステップであるテキストのセグメンテーションに進むことができます。テキスト分割とは、テキストを個々の単語に分割することです。一般的に使用される単語分割方法には、ルールベースと統計ベースの単語分割方法があり、統計サンプル コンテンツはいくつかの標準コーパスから取得されます。

たとえば、「Xiao Ming は朝陽区に住んでいます」という文では、コーパス統計後の単語分割の結果は、「Xiao Ming/ は朝陽区に住んでいます」ではなく、「Xiao Ming/ は朝陽区に住んでいます」となることが予想されます。それで、どうやってこれを実現するのでしょうか?

統計的な観点から見ると、これは条件付き確率分布を通じて解決できます。新しい文に対して、さまざまな単語分割方法に対応する結合分布確率を計算し、最大確率に対応する単語分割方法、つまり最適な単語分割を見つけることができます。

これまで、研究者たちは、使いやすい単語分割のための実用的なツールを数多く開発してきました。単語分割に特別な要件がない場合は、これらの単語分割ツールを直接使用できます。

さまざまな単語分割ツールの概要。

品詞タグ付け

品詞タグ付けとは、単語分割結果の各単語の正しい品詞をマークするプロセス、つまり各単語が名詞、動詞、形容詞、またはその他の品詞であるかどうかを判断するプロセスを指します。

品詞タグ付けにはいくつかの重要な機能があります。

まず、曖昧さを排除します。一部の単語は、文脈や使用方法によって意味が異なります。たとえば、「この犬の名前はハッピーです」と「私は今日とても幸せです」という 2 つの文では、「幸せ」は異なる意味を表します。品詞タグ付けによって区別することができます。

次に、単語ベースの機能を強化します。上記の文を例にとると、品詞タグ付けが行われていない場合、2 つの「happy」は頻度 2 の同義語とみなされ、その後の分析でエラーが発生します。

さらに、品詞タグ付けには、標準化、語形の復元、ストップワードの効果的な削除などの機能もあります。

一般的に使用される品詞タグ付け方法には、最大エントロピー品詞タグ付け、HMM 品詞タグ付けなどのルールベースおよび統計ベースのアルゴリズムが含まれます。

次に、品詞タグ付けの例を見てみましょう。自分で試してみることもできます: http://ictclas.nlpir.org/nlpir/

ストップワードを削除する

私たち人間はメッセージを受け取るとき、無効な情報をフィルタリングし、有用な情報を選択します。自然言語の場合、ストップワードを削除するのは非常に賢明な操作です。

中国語でも英語でも、テキストには接続詞、機能語、助詞、および「的」、「吧」、「但」などの接続詞として機能するその他の意味のない単語が含まれています。これらの単語には特別な意味はなく、単に文章をつなげて語調を高める役割を果たします。これらの単語はテキスト分析には役立たないので、単語分割後にデータに対してストップワード処理を実行する必要があります。

しかし、どの種類のストップワードを削除するかを決定する際には注意が必要です。

下の図は、よく使用されるストップワードの一部を示しています。必要に応じて、削除するストップワードを選択できます。

単語の頻度統計

単語頻度統計は、単語を分割した後、テキストの単語頻度をカウントします。目的は、テキストに最も影響を与える単語を見つけることです。これはテキストマイニングの重要な手段です。これらの単語の頻度を数えると、記事が何を強調しているかを理解するのに役立ち、その後のモデル構築が容易になります。

たとえば、四大古典の一つである『紅楼夢』の語頻度上位28語を数えると、次のようになります。

上の写真から、「紅楼夢」の中でどのキャラクターについて最も多く書かれ、曹雪芹がどのキャラクターにもっと注目しているかが分かります。私たちは紅楼夢の研究の専門家ではありませんが、統計的な単語の頻度からいくつかの重要な情報を分析することができます。

「高い建物は地面から立ち上がる。」自然言語処理の超高層ビルの場合、基礎となる実装原理を理解することで、その構築プロセスをよりよく理解できるようになります。

<<:  世界中で人気のGPT-3がなぜ人々の仕事を破壊しているのか?

>>:  AIoT技術の幅広い応用と大きな利点

ブログ    

推薦する

ドイツメディア:EUは人工知能の乱用を制限する法律制定を計画

専門家は、人工知能も気候変動への取り組みにおいて重要な役割を果たすことができると考えている。しかし一...

10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

モデルが GPT-3.5 のように数千億の規模に達すると、トレーニングと推論のための計算能力は一般的...

声を上げてください! MakeItTalkの魔法でモナリザと会話できる

最近、マサチューセッツ大学アマースト校のヤン・チョウ博士とそのチームは、「MakeItTalk」と呼...

私はパニックになりました。上司はこう言いました。「AIはフロントエンドを100%置き換えるだろう」

この記事では、フロントエンド開発と人工知能の関係、そして将来 AI がフロントエンド開発の仕事に取っ...

AIチップの過去と未来、この記事を読んでください

[[248236]]皆さんは、イ・セドルと柯潔を破った Google の「Alpha Go」をまだ覚...

顔認識における克服すべき困難

顔認識は、生体認証の分野、さらには人工知能の分野においても最も難しい研究テーマの 1 つと考えられて...

博士課程の学生がランキングの不正行為を識別するオープンソースのAI数学「魔法の鏡」をリリースした

最近の大物モデルの多くは数学が得意だと主張していますが、本当に才能があるのは誰でしょうか?テスト問題...

AI に関する知っておくべき 29 の統計とトレンド

ChatGPTは2022年11月の爆発的なリリースに続いて世界を席巻し、2023年には人工知能(AI...

音声分析:自動運転車の鍵となる技術

サプライチェーン管理、製造業務、モビリティサービス、画像およびビデオ分析、音声分析の進歩により、次世...

モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

ディープラーニングの研究者は、神経科学と認知科学からインスピレーションを得ています。隠れユニットや入...

ブロックチェーンは世界を変えつつありますが、人類はどこまで到達できるのでしょうか?

猫を飼うことで生じる混雑により、人々はブロックチェーンの力に驚嘆し始めました。数字で構成されたこの世...

人工知能は耳の画像だけで年齢と性別を正確に判別できる

画像処理のためのディープラーニング入門:耳のバイオメトリクスは注目の研究トピックとなっている[1]。...

世界を支配するトップ 10 のアルゴリズムをご存知ですか?

Reddit に、私たちの現代生活におけるアルゴリズムの重要性と、どのアルゴリズムが現代文明に最も...

機械学習を使って純粋数学を新たな方法で探求する

1 世紀以上前、インドの伝説的な数学者シュリニヴァーサ・ラマヌジャンは、その比類のない数学的才能で数...

マスク氏が突然ツイッター買収を希望、上場廃止に2700億ドルで入札。ツイッターとテスラの株価は下落

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...