知識抽出についてお話ししましょう。学びましたか?

1. はじめに

知識抽出とは通常、豊富な意味情報を持つタグやフレーズなどの非構造化テキストから構造化情報をマイニングすることを指します。業界で広く使用されているシナリオには、コンテンツ理解や製品理解、ユーザーが生成したテキスト情報から貴重なタグをマイニングしてコンテンツや製品に添付することなどがあります。

知識抽出は通常、抽出されたラベルまたはフレーズの分類を伴い、通常は名前付きエンティティ認識タスクとしてモデル化されます。一般的な名前付きエンティティ認識タスクは、名前付きエンティティのコンポーネントを識別し、コンポーネントを地名、個人名、機関名などのタイプに分類することです。ドメイン関連のタグワード抽出は、タグワードを識別し、シリーズ（Air Force One、Sonic 9）、ブランド（Nike、Li Ning）、タイプ（靴、衣類、デジタル）、スタイル（insスタイル、レトロスタイル、北欧スタイル）などのドメイン定義のカテゴリに分類します。

説明の便宜上、情報量の多いラベルやフレーズを、以下では総称してラベル語句と呼びます。

2. 知識抽出分類

この記事では、ラベルワードマイニングとラベルワード分類という 2 つの観点から、知識抽出の従来の方法を紹介します。ラベル単語マイニング法は、図 1 に示すように、教師なし法、教師あり法、リモート教師あり法に分けられます。タグワードマイニングは、候補ワードマイニングとフレーズスコアリングの 2 つのステップを通じて、高スコアのタグワードを選別します。タグワード分類は通常、タグワードの抽出と分類を共同でモデル化し、それを名前付きエンティティ認識のシーケンスラベル付けタスクに変換します。

図1 知識抽出方法の分類

3. タグワードマイニング

教師なし手法

統計に基づく方法

まず、文書がセグメント化されるか、セグメント化された単語が候補単語として N-gram に結合され、次に候補単語が統計的特徴に基づいてスコア付けされます。

TF-IDF (用語頻度 - 逆文書頻度): 各単語の TF-IDF スコアをカウントします。スコアが高いほど、含まれる情報が多くなります。

計算方法：tfidf(t, d, D) = tf(t, d) * idf(t, D)、ここでtf(t, d) = log(1 + freq(t, d))、freq(t,d)は候補単語tが現在の文書dに出現する回数を表し、idf(t,D) = log(N/count(d∈D:t∈D))は候補単語tが出現する文書の数を表します。これは単語の希少性を示すために使用されます。単語が1つの文書にのみ出現する場合、その単語は比較的希少であり、より多くの情報を含んでいることを意味します。

特定のビジネスシナリオでは、品詞タグを使用して名詞をスクリーニングするなど、外部ツールを使用して候補の単語を最初にスクリーニングできます。

YAKE[1]：キーワードの特性を捉えるための5つの特徴を定義し、それらを経験的に組み合わせて各キーワードにスコアを割り当てます。スコアが低いほど、キーワードの重要度が高くなります。 1) 大文字の単語: 大文字の単語 (各文の最初の単語を除く) は、小文字の単語よりも重要です。中国語では、太字の単語の数になります。2) 単語の位置: 各段落の先頭の単語は、末尾の単語よりも重要です。3) 単語の頻度: 単語の出現頻度。4) 単語のコンテキスト: これは、固定されたウィンドウサイズ内に表示される異なる単語の数を測定するために使用されます。単語が共起する異なる単語が多いほど、その単語の重要性は低くなります。5) 単語が異なる文に出現する回数: より多くの文に出現する単語は、相対的に重要です。

グラフベースモデル

TextRank[2]：まず、テキストをセグメント化して品詞でタグ付けし、ストップワードを除外して、指定された品詞の単語のみを残してグラフを構築します。各ノードは単語であり、エッジは単語間の関係を表します。これは、所定のサイズの移動ウィンドウ内での単語の共起を定義することによって構築されます。 PageRank を使用して、収束するまでノードの重みを更新します。ノードの重みを逆順に並べ替えて、最も重要な k 個の単語を候補キーワードとして取得します。元のテキストで候補単語をマークし、隣接する単語が形成される場合は、それらを複数単語のキーワードフレーズに結合します。

表現ベースの方法埋め込みベースモデル

表現ベースの方法では、候補単語とドキュメント間のベクトル類似度を計算して候補単語をランク付けします。

EmbedRank[3]：単語分割と品詞タグ付けによって候補語を選択し、候補語と文書のベクトル表現として事前トレーニング済みのDoc2VecとSent2vecを使用し、コサイン類似度を計算して候補語をランク付けします。同様に、KeyBERT[4]はEmbedRankのベクトル表現をBERTに置き換えます。

教師あり手法

教師あり方式では、候補単語がラベル単語に属するかどうかを計算するモデルをトレーニングします。

まず候補単語を選別し、次にラベル単語を使用して分類します。古典的なモデルKEA[5]は、分類器としてNaive Bayesを使用し、4つの設計された特徴に基づいてNグラム候補単語にスコアを付けます。
候補語のスクリーニングとラベル語の識別の共同トレーニング：BLING-KPE[6]は、元の文を入力として、文のNグラムフレーズをそれぞれCNNとTransformerを使用してエンコードし、フレーズがラベル語である確率を計算し、それがラベル語であるかどうかを手動で注釈付けします。 BERT-KPE[7]はBLING-KPEの考え方に基づいており、文ベクトルをより適切に表現するためにELMOをBERTに置き換えています。

図2 BLING-KPEモデル構造

遠隔監視方法

オートフレーズ

遠隔教師手法の代表的なものとしてはAutoPhrase[10]があり、これは業界でラベル単語マイニングに広く使われている。 AutoPhrase は、手動でのラベル付けを回避するために、リモート監督トレーニングに既存の高品質の知識ベースを使用します。

本稿では、高品質なフレーズとは、以下の 4 つの条件を満たす完全な意味を持つ単語と定義しています。

人気度: 文書内での出現頻度が十分に高い。
一致: トークンのコロケーションの頻度は、置換後の他のコロケーション、つまり共起の頻度よりもはるかに高くなります。
情報提供性: 情報提供性があり明確。たとえば、「これは」は情報内容のない否定例です。
完全性: フレーズとそのサブフレーズは完全である必要があります。

AutoPhraseタグマイニングのプロセスを図3に示します。まず、品詞タグ付けにより高頻度Nグラム単語を候補として選択し、候補単語をリモート監視により分類します。次に、上記の4つの条件により高品質のフレーズを選択します（フレーズ品質再評価）。

図3 AutoPhraseタグマイニングプロセス

高品質のフレーズは、外部の知識ベースからポジティブプールとして取得され、他のフレーズは負の例として使用されます。論文の実験統計によると、負のプール内の高品質のフレーズの 10% は、知識ベースにないため、負の例として分類されます。そのため、論文では、図 4 に示すランダムフォレストアンサンブル分類器を使用して、分類に対するノイズの影響を軽減しています。産業用途では、分類器のトレーニングでは、事前トレーニング済みモデルBERT[13]に基づく文間関係タスクバイナリ分類法を採用することもできます。

図4 AutoPhraseタグ単語分類法

4. タグワード分類

教師あり手法

NER シーケンスタグ付けモデル

固有表現抽出法 (NER) も、候補語のスクリーニングとラベル語の認識を共同でトレーニングするラベル抽出方法です。NER は通常、文章の情報量が比較的反復的なシナリオで文章内のエンティティコンポーネントを識別するために使用され、シーケンスラベリングモデルを使用して実装されます。文を入力として、文中の各トークンが次のラベルに属する確率を予測します: B (Begin)-LOC (地名)、I (Inside)-LOC (地名)、E (End)-LOC (地名)、O (Others) など。ここで、「-」の後にはエンティティワードが属するカテゴリが続きます。中国語の NER タスクでは、中国語の単語分割によって発生するエラー伝達の問題を回避するために、シーケンスラベリングモデリングには通常、語彙ベースではなく文字ベースの方法が使用されます。したがって、エンティティ単語の境界を強化するために語彙情報を導入する必要があります。

Lattice LSTM[8]は、中国語NERタスクに語彙情報を導入した最初の研究です。Latticeは有向非巡回グラフです。単語の開始文字と終了文字によってグリッドの位置が決まります。語彙情報（辞書）を介して文をマッチングすると、図5(a)に示すように、格子のような構造が得られます。 Lattice LSTM構造は、5(b)に示すように、語彙情報をネイティブLSTMに統合します。現在の文字については、この文字で終わるすべての外部辞書情報が統合されます。たとえば、「店」は「人和药店」と「药店」の情報を統合します。 Lattice LSTM は、各文字に対して、アテンションメカニズムを使用して、可変数の単語単位を融合します。 Lattice-LSTMはNERタスクのパフォーマンスを効果的に向上させますが、RNN構造では長距離の依存関係を捉えることができず、語彙情報の導入には損失があります。さらに、動的なLattice構造ではGPU並列処理を完全に実行できません。Flat[9]モデルはこれら2つの問題を効果的に改善します。図 5(c) に示すように、フラットモデルはトランスフォーマー構造を使用して長距離依存関係をキャプチャし、位置エンコーディング (Position Encoding) を設計してラティス構造を統合します。文字に一致する単語が文に連結された後、文字と単語ごとに 2 つのヘッド位置エンコーディングとテール位置エンコーディングが構築され、ラティス構造が有向非巡回グラフからフラットなフラットラティストランスフォーマー構造に平坦化されます。

図5 語彙情報を含むNERモデル

遠隔監視方法

オートNER

AutoNER[11]は外部辞書を使用して、リモート監視エンティティ認識のためのトレーニングデータを構築し、最初にエンティティスパン認識を実行し、次にエンティティ分類を実行します。外部辞書の構築では、外部知識ベースを直接使用することも、AutoPhrase マイニング方式を採用して最初にオフラインのタグワードマイニングを実行し、次に AutoNER モデルを使用してタグワードを段階的に更新することもできます。

Tie または Break エンティティ境界識別スキームは、BIOE 注釈方法の代わりに使用され、遠隔監視によって発生するノイズの問題を軽減します。Tie は、現在の単語と前の単語が同じエンティティ内にあることを意味し、Break は、現在の単語と前の単語が同じエンティティ内になくなったことを意味します。

エンティティ分類段階では、エンティティに複数のタイプがある状況に対処するためにファジー CRF が使用されます。

図6 AutoNERモデル構造

ボンド

BOND[12]は遠隔教師あり学習に基づく2段階エンティティ認識モデルである。最初の段階では、遠隔ラベルを使用して、事前トレーニング済みの言語モデルを NER タスクに適応させます。2 番目の段階では、まず、ステージ 1 でトレーニングしたモデルを使用して学生モデルと教師モデルを初期化し、次に、遠隔監視によって発生するノイズ問題の影響を最小限に抑えるために、教師モデルによって生成された疑似ラベルを使用して学生モデルをトレーニングします。

写真

図7 BONDトレーニングフローチャート

V. 結論

本稿では、タグワードマイニングとタグワード分類の2つの観点から、手動で注釈を付けられたデータに依存しない教師なしおよび遠隔教師付きの古典的な方法であるTF-IDFとTextRank、業界で広く使用されているAutoPhraseとAutoNERなど、知識抽出の古典的な方法を紹介します。業界のコンテンツ理解、クエリ理解辞書構築、NERなどの方向性に参考になります。

参考文献

【1】Campos R、Mangaravite V、Pasquali A、et al. Yake! コレクションに依存しない自動キーワード抽出ツール[C]//Advances in Information Retrieval: 40th European Conference on IR Research、ECIR 2018、グルノーブル、フランス、2018 年 3 月 26 日～29 日、Proceedings 40。Springer International Publishing、2018: 806-810。https://github.com/LIAAD/yake

【2】Mihalcea R、Tarau P. Textrank: テキストに秩序をもたらす[C]//Proceedings of the 2004 conference on empirical methods in natural language processing. 2004: 404-411.

【3】Bennani-Smires K, Musat C, Hossmann A, et al. 文埋め込みを用いたシンプルな教師なしキーフレーズ抽出[J]. arXiv プレプリント arXiv:1801.04470, 2018.

【4】KeyBERT, https://github.com/MaartenGr/KeyBERT

【5】Witten IH、Paynter GW、Frank E、他 KEA: 実用的な自動キーフレーズ抽出[C]//Proceedings of the fourth ACM conference on Digital library. 1999: 254-255.

【6】Xiong L, Hu C, Xiong C, et al. 言語モデルを超えたオープンドメインウェブキーフレーズ抽出[J]. arXiv プレプリント arXiv:1911.02671, 2019.

【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020). BERTによるキーフレーズチャンキングとサリエンシーランキングの共同研究。arXivプレプリントarXiv:2004.13639。

【8】Zhang Y, Yang J. 格子LSTMを使用した中国語NER[C] ACL 2018.

【9】Li X, Yan H, Qiu X, et al. FLAT: フラットラティストランスフォーマーを用いた中国語NER[C]. ACL 2020.

【10】Shang J, Liu J, Jiang M, et al. 大規模テキストコーパスからの自動フレーズマイニング[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837.

【11】 Shang J, Liu L, Ren X, et al. ドメイン固有辞書を用いた固有表現抽出アルゴリズムの学習[C]. EMNLP, 2018.

【12】Liang C、Yu Y、Jiang H、et al. Bond: 遠隔監視によるBert支援オープンドメイン固有表現抽出[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1054-1064.

【13】Meituan検索におけるNER技術の探求と実践、https://zhuanlan.zhihu.com/p/163256192

<<: UNC スタンフォード大学らは、GPT-4V の予期せぬ脆弱性を明らかにしました。GPT-4V は人間に騙されて、ひょうたんの赤ちゃんを 8 匹数え上げてしまうのです。ルカンとジム・ファンは衝撃を受けた

>>: 新しい近似注意メカニズム HyperAttention: 長いコンテキストに適しており、LLM 推論が 50% 高速化します