テキストマイニング前処理におけるベクトル化とハッシュトリック

[[201071]]

序文

「テキストマイニングにおける単語分割の原理」では、テキストマイニングの前処理の重要なステップである「単語分割」について説明しました。単語分割の後、テキスト分類とクラスタリングを行う場合、重要な特徴の前処理ステップにはベクトル化またはベクトル化の特殊なケースであるハッシュトリックが含まれます。この記事では、ベクトル化と特殊なケースのハッシュトリックの前処理方法についてまとめます。

バッグ・オブ・ワード・モデル

ベクトル化とハッシュトリックについて説明する前に、まず Bag of Words (BoW) モデルについて説明しましょう。バッグオブワードモデルでは、テキスト内の単語間の文脈上の関係は考慮せず、すべての単語の重みのみを考慮すると想定されています。重みは、テキストに出現する単語の頻度に関係します。

Bag-of-Words モデルは、まず単語の分割を実行します。単語の分割後、各単語がテキストに出現する回数を数えることで、テキストの単語ベースの特徴を取得できます。これらの単語と各テキストサンプルの対応する単語の頻度をまとめると、ベクトル化と呼ばれるものになります。ベクトル化が完了したら、通常、TF-IDF を使用して特徴の重みを修正し、特徴を標準化します。追加の機能エンジニアリングを行った後、データを機械学習アルゴリズムに送り込み、分類とクラスタリングを行うことができます。

Bag-of-Words モデルの 3 つのステップ:

トークン化;
修正された単語特徴値をカウントします（カウント）。
正規化;

Bag of Words モデルに非常によく似たモデルが Set of Words モデル (SoW) です。Bag of Words モデルとの最大の違いは、単語の出現頻度に関係なく、単語がテキストに出現するかどうかのみを考慮することです。つまり、テキスト内に 1 回出現する単語と複数回出現する単語の特徴処理は同じです。ほとんどの場合、bag-of-words モデルを使用します。以下の説明でも bag-of-words モデルに焦点を当てます。

もちろん、bag-of-words モデルには大きな制限があります。単語の頻度のみが考慮され、文脈上の関係は考慮されないため、テキストの意味の一部が失われます。しかし、ほとんどの場合、分類とクラスタリングが目的であれば、bag-of-words モデルはうまく機能します。

BoWのベクトル化

Bag-of-Words モデルで単語の頻度をカウントするステップでは、テキスト内のすべての単語の単語頻度を取得します。単語頻度を使用して、単語ベクトルを使用してテキストを表すことができます。ここで例を示します。この例は、scikit-learn の CountVectorizer クラスを使用して直接完成します。このクラスは、単語の頻度統計とテキストのベクトル化を完了するのに役立ちます。コードは次のとおりです。

 sklearn.feature_extraction.textからCountVectorizer をインポートします
corpus=[ "私は旅行するために中国に来ました" ,
 「これは中国で人気のある車です」
 「私はお茶とリンゴが大好きです」
 「仕事は科学の論文をいくつか書くことです」
 vectorizer.fit_transform(corpus) を印刷します。

上記の 4 つのテキストの処理出力を次に示します。

 （0, 16）1
 （０、３）１
 （０、１５）２
 （０、４）１
 （１、５）１
 （１、９）１
 （１、２）１
 （１、６）１
 （１、１４）１
 （１、３）１
 （２、１）１
 （２、０）１
 （２、１２）１
 （２、７）１
 （３、１０）１
 （３、８）１
 （３、１１）１
 （３、１８）１
 （３、１７）１
 （３、１３）１
 （３、５）１
 （３、６）１
 （３、１５）１

4 つのテキストの単語の頻度がカウントされていることがわかります。出力では、左括弧の最初の数字はテキストのシーケンス番号、2 番目の数字は単語のシーケンス番号です。単語のシーケンス番号はすべてのドキュメントに基づいていることに注意してください。 3 番目の数字は単語の頻度です。

さらに、各テキストの単語ベクトルの特徴と、各特徴によって表される単語を調べることができます。コードは次のとおりです。

 vectorizer.fit_transform(corpus).toarray() を印刷します。 
 
 vectorizer.get_feature_names() を印刷する

出力は次のようになります。

 [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0] 
 
 [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0] 
 
 [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0] 
 
 [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]] 
 
 [u 'and' 、u 'apple' 、u 'car' 、u 'china' 、u 'come' 、u 'in' 、u 'is' 、u 'love' 、u 'papers' 、u 'polupar' 、u 'science' 、u 'some' 、u 'tea' 、u 'the' 、u 'this' 、u 'to' 、u 'travel' 、u 'work' 、u 'write' ]

合計 19 個の単語があり、4 つのテキストは 19 次元の特徴ベクトルであることがわかります。ベクトルの各次元は、次の 19 個の単語に順番に対応します。さらに、「I」という単語は英語ではストップワードなので、単語頻度統計には含まれません。

ほとんどのテキストでは語彙のごく一部の単語しか使用されていないため、単語ベクトルには多くのゼロが含まれます。つまり、単語ベクトルはスパースです。実際のアプリケーションでは、スパース行列が一般にストレージに使用されます。テキストの単語の頻度をカウントした後、通常はTF-IDFを通じて単語の特徴値を修正します。

ベクトル化法は非常に便利で直接的ですが、いくつかのシナリオでは使いにくいです。例えば、単語分割後の語彙は非常に大きく、100万以上に達します。このとき、ベクトル化法を直接使用して対応するサンプルの対応する特徴マトリックスをメモリにロードすると、メモリが爆発する可能性があります。この場合、どうすればよいでしょうか？最初の反応は、特徴の次元を削減する必要があるということです。その通りです！そして、Hash Trickは、非常によく使用されるテキスト特徴の次元削減方法です。

ハッシュトリック

大規模なテキスト処理では、特徴の次元が単語分割語彙のサイズに対応するため、次元が非常に大きくなる可能性があります。このとき、次元削減が必要であり、前節のベクトル化手法を直接使用することはできません。最も一般的に使用されるテキスト次元削減方法は、ハッシュトリックです。ハッシュについて言えば、それはまったく神秘的なものではありません。データ構造を勉強した学生なら知っています。ここでのハッシュの意味も同様です。

Hash Trick では、特徴ハッシュに対応するハッシュテーブルのサイズを定義します。このハッシュテーブルの次元は語彙の特徴次元よりもはるかに小さくなるため、次元削減と見なすことができます。具体的な方法は、任意の特徴名に対して、ハッシュ関数を使用して対応するハッシュテーブルの位置を見つけ、特徴名に対応する単語の頻度統計をハッシュテーブルの位置に追加します。数学的な言葉で表現すると、ハッシュ関数 h が i 番目の特徴を位置 j にハッシュする場合、つまり h(i)=j の場合、i 番目の元の特徴の単語頻度値 φ(i) はハッシュ後の j 番目の特徴の単語頻度値 φ¯ に累積され、次のようになります。

しかし、上記の方法には問題があります。2 つの元の特徴のハッシュ位置が一緒に配置され、単語頻度の累積特徴値が突然増加する可能性があります。この問題を解決するために、ハッシュトリックの変種である符号付きハッシュトリックが登場しました。この場合、ハッシュ関数 h に加えて、もう 1 つのハッシュ関数があります。

これの利点は、ハッシュ化された特徴は依然として偏りのない推定値であり、一部のハッシュ位置の値が大きくなりすぎることがないことです。

scikit-learn の HashingVectorizer クラスには、署名付きハッシュトリックに基づくアルゴリズムが実装されています。ここでは、HashingVectorizer を使用してハッシュトリックを実践します。簡単にするために、上記の 19 次元の語彙を使用して、6 次元にハッシュします。もちろん、実際のアプリケーションでは、19 次元データに Hash Trick はまったく必要ありません。ここではデモンストレーションを示します。コードは次のとおりです。

 sklearn.feature_extraction.textからHashingVectorizer をインポートします
vectorizer2 = HashingVectorizer(n_features = 6, norm = None) を印刷 vectorizer2.fit_transform(corpus)

出力は次のようになります。

 （０、１）２．０ 
 
 （０、２）-１.０ 
 
 （0, 4）1.0 
 
 （０、５）-１.０ 
 
 （１、０）１．０ 
 
 （１、１）１．０ 
 
 （１、２）-1.0 
 
 （１、５）-1.0 
 
 （２、０）２．０ 
 
 （２、５）-2.0 
 
 (3, 0)0.0 
 
 （３、１）４．０ 
 
 （３、２）-1.0 
 
 （３、３）１．０ 
 
 （３、５）-1.0

PCA と同様に、Hash Trick を使用して次元を削減した後は、特徴の名前と意味がわからなくなります。この時点では、前のセクションのベクトル化時のように各列の意味を知ることはできないため、ハッシュトリックはあまり説明的ではありません。

まとめ

機能を前処理する場合、一般的な意味でのベクトル化はいつ使用し、Hash Trick はいつ使用するのでしょうか。標準も非常にシンプルです。

一般的に言えば、語彙の機能がメモリに収まらないほど大きくない限り、一般的なベクトル化を使用する方が間違いなく優れています。ベクトル化方法は解釈性が高いため、特徴の各次元がどの単語に対応するかがわかり、TF-IDF を使用して各単語特徴の重みを変更し、特徴表現をさらに改善することができます。

Hash Trick は大規模な機械学習で使用されます。現時点では、語彙が非常に大きく、ベクトル化手法を使用する場合、メモリが不足しています。ただし、Hash Trick を使用すると次元を非常に速く削減でき、次元削減後の機能は、その後の分類とクラスタリングの作業を完了するのに役立ちます。もちろん、分散コンピューティングフレームワークが存在するため、通常はメモリが不足する状況に遭遇することはありません。そのため、実際の仕事では特徴ベクトル化を使用します。

<<: 「何千人もの人々の何千もの顔」を解読し、ユーザーのポートレートを深く解釈する方法

>>: 賢くなる方法: 神経科学にヒントを得た人工知能