Scikit-learn を使用して機械学習用のテキストデータを準備する方法

[[208625]]

テキストデータを使用して予測モデルを構築する前に、特別な準備が必要です。

まずテキストを解析して単語を抽出します。このプロセスはトークン化と呼ばれます。次に、単語を機械学習アルゴリズムへの入力として整数値または浮動小数点値にエンコードする必要があります。このプロセスは特徴抽出 (または量子化) と呼ばれます。

scikit-learn は、テキストデータをトークン化して特徴を抽出するのに役立つシンプルなツールを提供します。

この記事では、scikit-learn を使用して Python で機械学習用のテキストデータを準備する方法を学びます。

この記事を読むと、次のことがわかります。

CountVectorizer を使用してテキストを単語頻度ベクトルに変換する方法。
TfidfVectorizer を使用してテキストの単語重みベクトルを抽出する方法。
HashingVectorizer を使用してテキストを特徴インデックスにマッピングする方法。

始めましょう。

バッグ・オブ・ワード・モデル

機械学習アルゴリズムを使用する場合、テキストを直接操作することはできません。代わりに、テキストを数字に変換する必要があります。

ドキュメントを分類する場合、各ドキュメントは「入力」として機能し、ドキュメントのカテゴリラベルは予測アルゴリズムの「出力」になります。このアルゴリズムは入力として数値ベクトルのみを受け入れることができるため、ドキュメントを固定長の数値ベクトルに変換する必要があります。

機械学習の分野には、テキスト文書に適したシンプルで効果的なモデルがあります。これは、Bag-of-Words モデル、略して BOW と呼ばれます。

このモデルの単純な点は、単語内のすべての連続情報を破棄し、主に文書内の単語の出現頻度に焦点を当てていることです。

これは、各単語に一意の番号を割り当てることによって実現できます。このようにして、私たちが目にするあらゆる文書は、既知の単語の語彙の長さである固定長のベクトルにエンコードできます。このベクトルの各位置の値は、エンコードされたドキュメント内で各単語が出現する回数、つまり頻度です。

これは「単語の袋」モデルであり、順序に関する情報を考慮せずに、文書にどの単語が出現するか、またはエンコードされた文書に単語がどのくらいの頻度で出現するかを表すエンコード方法のみを考慮します。

この単純なアプローチには、"単語" の意味をより適切に説明し、各単語がベクトル内でどのようにエンコードされるかを定義するための多くの拡張があります。

scikit-learn では 3 つの異なるメソッドが提供されており、それぞれについて簡単に見ていきます。

CountVectorizer — 単語数を定量化する

CountVectorizer は、テキストドキュメントのデータセットをトークンに変換して既知の単語の語彙を構築するだけでなく、その語彙を使用して新しいテキストをエンコードする簡単な方法を提供します。

使い方は次のとおりです:

CountVectorizer クラスのインスタンスを作成します。
fit() 関数を呼び出して、学習を通じて 1 つ以上のドキュメントから語彙を導出します。
1 つ以上のドキュメントに transform() 関数を適用し、各ドキュメントをベクトルにエンコードします。

エンコードされたベクトルは、語彙全体の長さと、各単語がドキュメント内に出現する回数を返します。

これらのベクトルには多くのゼロ値が含まれているため、スパースと呼ばれます。 Python は、scipy.sparse ライブラリでこのようなスパースベクトルを処理する効率的な方法を提供します。

transform() を呼び出すことによって返されるベクトルはスパースベクトルです。これを、より直感的で理解しやすい numpy 配列に変換できます。これは、toarray() 関数を呼び出すことによって実行できます。

以下は、CountVectorizer を使用してトークン化し、語彙を構築し、ドキュメントをエンコードする例です。

 sklearn.feature_extraction.textからCountVectorizer をインポートします
# テキストドキュメントリスト
text = [ "素早い茶色のキツネが怠け者の犬を飛び越えた。" ]
 # 変換関数を構築する
ベクターライザー = CountVectorizer()
 # トークン化と語彙の構築
ベクトル化器.fit(テキスト)
 # 要約
印刷(vectorizer.vocabulary_)
 # ドキュメントのエンコード
ベクトル = vectorizer.transform(テキスト)
 # コーディングドキュメントを要約する
印刷(ベクトル.形状)
 print(type(ベクトル))
印刷(ベクトルを配列に書き込む())

上記の例からわかるように、語彙を使用してトークン化されているものを確認できます。

印刷(vectorizer.vocabulary_)

ご覧のとおり、デフォルトではすべての単語が小文字になり、句読点は無視されます。これらのパラメータとトークン化のその他の側面は構成可能であり、API ドキュメントですべてのオプションを確認することをお勧めします。

例を実行すると、最初に語彙が印刷され、次にエンコードされたドキュメントの形状が印刷されます。語彙には 8 個の単語があるため、エンコードされたベクトルの長さは 8 であることがわかります。

エンコーディングベクトルはスパース行列であることがわかります。最後に、エンコードされたベクトルを配列の形式で確認すると、インデックス 7 の単語のカウントが 2 であるのを除き、各単語のカウントが 1 であることがわかります。

 { '犬' : 1、 'キツネ' : 2、 'オーバー' : 5、 '茶色' : 0、 '素早い' : 6、 'その' : 7、 '怠け者' : 4、 'ジャンプした' : 3}
 （１、８）
 <クラス'scipy.sparse.csr.csr_matrix' >
 [[1 1 1 1 1 1 1 2]]

重要なのは、量子化法は語彙に含まれない単語を含む文書にも使用できることです。これらの単語は無視され、結果のベクトルには出現回数は表示されません。

以下は、上記のトークナイザーを使用して、語彙に含まれる単語 1 つと語彙に含まれない単語 1 つを含むドキュメントをエンコードする例です。

 # 他のドキュメントをエンコードする
text2 = [ "子犬" ]
ベクトル = vectorizer.transform(text2)
印刷(ベクトルを配列に書き込む())

例を実行すると、エンコードされたスパースベクトルのマトリックス表現が出力され、語彙内の単語は 1 回出現し、語彙外の単語は完全に無視されることが示されます。

 [[0 0 0 0 0 0 0 1]]

エンコードされたベクトルは、機械学習アルゴリズムで直接使用できます。

TfidfVectorizer - 単語の重みを計算する

単語の出現回数をカウントすることは良い出発点ですが、非常に基本的な機能でもあります。

単純な頻度カウントの問題の 1 つは、「the」などの一部の単語が何度も出現し、そのカウントがエンコーディングベクトルにとってあまり意味がないことです。

別の方法としては、単語の重みを数えることです。現在最も人気のある方法は TF-IDF です。これは「Term Frequency–Inverse Document Frequency」の頭字語であり、文書に対する単語の重要度を表します。

用語の頻度: 特定の単語が文書内に出現する回数を指します。

逆文書頻度: 文書内で単語が頻繁に出現するほど、IDF 値は低くなります。

数学的なことはさておき、TF-IDF は単語に重みを与え、特定のドキュメントにのみ頻繁に出現するがすべてのドキュメントに出現するわけではない単語など、より興味深い単語にマークを付けます。

TfidfVectorizer は、ドキュメントをトークン化し、語彙と逆ドキュメント頻度重みを学習し、新しいドキュメントをエンコードできます。あるいは、CountVectorizer を使用してすでにベクトルを学習している場合は、Tfidftransformer を使用して逆ドキュメント頻度を計算し、ドキュメントのエンコードを開始できます。

同様に、create、fit、および transform 関数の呼び出しは、CountVectorizer の場合と同じです。

以下は、TfidfVectorizer を使用して 3 つの小さなドキュメントの語彙と逆ドキュメント頻度を学習し、ドキュメントの 1 つをエンコードする例です。

 sklearn.feature_extraction.textからTfidfVectorizer をインポートします
# テキストドキュメントリスト
text = [ "素早い茶色のキツネが怠け者の犬を飛び越えた。" ,
 「犬。 」
 「キツネ」
 # 変換関数を作成する
ベクターライザー = TfidfVectorizer()
 # トークン化して語彙を作成する
ベクトル化器.fit(テキスト)
 # 要約
印刷(vectorizer.vocabulary_)
印刷(vectorizer.idf_)
 # ドキュメントのエンコード
ベクトル = vectorizer.transform([text[0]])
 # コーディングドキュメントを要約する
印刷(ベクトル.形状)
印刷(ベクトルを配列に書き込む())

上記の例では、ドキュメントから 8 語の語彙を学習し、各単語に出力ベクトル内の一意の整数インデックスを割り当てました。

私たちは語彙内の各単語の逆文書頻度を計算し、最も頻繁に観察される単語「the」（インデックス 7）に満点のスコア 1.0 を割り当てました。

最後に、最初のドキュメントは 8 要素のスパースマトリックスにエンコードされ、各単語の最終的な重みスコアを確認すると、「the」、「fox」、「dog」の値が語彙内の他の単語と異なることがわかります。

 { 'キツネ' : 2、 '怠け者' : 4、 '犬' : 1、 '素早い' : 6、 'その' : 7、 '以上' : 5、 '茶色' : 0、 '飛び上がった' : 3}
 [ 1.69314718 1.28768207 1.28768207 1.69314718 1.69314718 1.69314718
 1.69314718 1. ]
 （１、８）
 [[ 0.36388646 0.27674503 0.27674503 0.36388646 0.36388646 0.36388646
 0.36388646 0.42983441]]

これらのスコアは 0 から 1 の間の値に正規化され、エンコードされたドキュメントベクトルはほとんどの機械学習アルゴリズムで直接使用できます。

HashingVectorizer — ハッシュ量子化テキスト

単語の頻度と重みは便利ですが、語彙が多くなると制限が出てきます。

こうすると、ドキュメントをエンコードするために巨大なベクトルが必要になり、メモリを大量に消費してアルゴリズムの速度が低下します。

良い方法は、一方向ハッシュ方式を使用して単語を整数に変換することです。この方法の利点は、語彙を必要とせず、任意の長さの固定長ベクトルを選択できることです。欠点は、ハッシュが一方向であるため、エンコードを単語に戻すことができないことです (これは多くの教師あり学習タスクでは重要ではない可能性があります)。

HashingVectorizer クラスはこのメソッドを実装しているので、これを使用して単語を継続的にハッシュし、必要に応じてドキュメントをトークン化してエンコードすることができます。

以下は、HashingVectorizer を使用して単一のドキュメントをエンコードする例です。

固定長 20 の任意のベクトルを選択しました。この値はハッシュ関数の範囲に対応しており、小さい値（20 など）ではハッシュ衝突が発生する可能性があります。以前のコンピュータサイエンスのコースでは、推定語彙サイズに基づいてハッシュ長と衝突確率を選択するためのいくつかのヒューリスティックアルゴリズムを紹介しました。

この量子化方法では、トレーニングデータファイルに適合させるための関数を呼び出す必要がないことに注意してください。代わりに、インスタンス化後、ドキュメントを直接エンコードするために使用できます。

 sklearn.feature_extraction.textからHashingVectorizer をインポートします
# テキストドキュメントリスト
text = [ "素早い茶色のキツネが怠け者の犬を飛び越えた。" ]
 # 変換関数を作成する
ベクターライザー = HashingVectorizer(n_features=20)
 # ドキュメントのエンコード
ベクトル = vectorizer.transform(テキスト)
 # コーディングドキュメントを要約する
印刷(ベクトル.形状)
印刷(ベクトルを配列に書き込む())

このサンプルコードを実行すると、サンプルドキュメントが 20 個の要素を持つスパースマトリックスにエンコードされます。

エンコードされたドキュメントの値は正規化された単語数に対応し、デフォルトでは -1 ～ 1 の間ですが、整数数に設定するようにオーバーライドできます。

 （１、２０）
 [[ 0. 0. 0. 0. 0. 0.33333333
 0. -0.33333333 0.33333333 0. 0. 0.33333333
 0. 0. 0. -0.33333333 0. 0.
 -0.66666667 0. ]]

さらに読む

このセクションでは、この記事に関する詳細な読み物を提供します。

自然言語処理

Wikipedia の Bag-of-words モデルの紹介。
Wikipedia のトークン化の概要。
Wikipedia「TF-IDF」。

サイキットラーン

scikit-learn マニュアル、セクション 4.2、特徴抽出。
sckit-learn 特徴抽出 API。
scikit-learn チュートリアル: テキストデータ処理。

クラスAPI

CountVectorizer scikit-learn API
TfidfVectorizer scikit-learn API
TfidfTransformer scikit-learn API
ハッシュベクター化 scikit-learn API

要約する

このチュートリアルでは、scikit-learn を使用して機械学習用のテキストデータを準備する方法を学習します。

これらの例では表面をなぞったに過ぎませんが、これらのクラスの設定には、ドキュメントのトークン化の結果に影響する多くの詳細があり、調査する価値があることを強調したいと思います。

<<: Google Brain エンジニアの講演: TensorFlow とディープラーニング

>>: AIの千里の道のりは一歩から始まる

Scikit-learn を使用して機械学習用のテキストデータを準備する方法

機械学習が自閉症の「非コード変異」の秘密を解明

シリコンバレーのAI界で注目の記事：ジャスパーとVCはAIGCブームの最大の敗者となり、潮が引いた後に初めて誰が裸で泳いでいるかがわかる

2020 年の AI トレンドトップ 10

機械学習を通じて実際のビジネス価値を掘り出すにはどうすればよいでしょうか?

2023 年のエンタープライズ AI の現状: AI は仕事にどのような影響を与えるでしょうか?

Meituと中国科学技術大学が共同で顔面修復法DiffBFRを提案

自動運転車がコーナーを「見通し」できるようにする

「AI+医療」の強力な発展の勢いが医療革命を引き起こしている

海底撈のIPOは1000億元規模：将来、厨房に必要なのはエンジニア2人だけ

推薦する

農業革命: 世界市場における作物収穫ロボットの台頭

ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

AIチップは誤った提案か？

北京交通大学がソースの交通モデル TransGPT·Zhiyuan をオープン、商用利用は無料

RLHF を諦めろ!モデル値を手動でトレーニングする必要はなく、ダートマス大学の中国語が新しいアライメントアルゴリズムのリリースを主導しました。「AI社会」は最高の教師です

アルトマンが帰ってきた！取締役会解散の強い要求、OpenAIの究極の宮廷闘争が始まる

2018 年の人工知能の予測を振り返ってみると、どれが現実になったのでしょうか?

Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します

MonoLSS: 視覚的な 3D 検出トレーニングのためのサンプル選択

ニューヨーク・タイムズは、自社のニュース記事をAIモデルの訓練に利用することを禁止し、OpenAIを訴えることを検討している。