1. はじめに知識抽出とは通常、豊富な意味情報を持つタグやフレーズなどの非構造化テキストから構造化情報をマイニングすることを指します。業界で広く使用されているシナリオには、コンテンツ理解や製品理解、ユーザーが生成したテキスト情報から貴重なタグをマイニングしてコンテンツや製品に添付することなどがあります。 知識抽出は通常、抽出されたラベルまたはフレーズの分類を伴い、通常は名前付きエンティティ認識タスクとしてモデル化されます。一般的な名前付きエンティティ認識タスクは、名前付きエンティティのコンポーネントを識別し、コンポーネントを地名、個人名、機関名などのタイプに分類することです。ドメイン関連のタグワード抽出は、タグワードを識別し、シリーズ(Air Force One、Sonic 9)、ブランド(Nike、Li Ning)、タイプ(靴、衣類、デジタル)、スタイル(insスタイル、レトロスタイル、北欧スタイル)などのドメイン定義のカテゴリに分類します。 説明の便宜上、情報量の多いラベルやフレーズを、以下では総称してラベル語句と呼びます。 2. 知識抽出分類図1 知識抽出方法の分類 3. タグワードマイニング教師なし手法統計に基づく方法
計算方法:tfidf(t, d, D) = tf(t, d) * idf(t, D)、ここでtf(t, d) = log(1 + freq(t, d))、freq(t,d)は候補単語tが現在の文書dに出現する回数を表し、idf(t,D) = log(N/count(d∈D:t∈D))は候補単語tが出現する文書の数を表します。これは単語の希少性を示すために使用されます。単語が1つの文書にのみ出現する場合、その単語は比較的希少であり、より多くの情報を含んでいることを意味します。 特定のビジネス シナリオでは、品詞タグを使用して名詞をスクリーニングするなど、外部ツールを使用して候補の単語を最初にスクリーニングできます。
グラフベースモデル
表現ベースの方法 埋め込みベースモデル
教師あり手法
図2 BLING-KPEモデル構造 遠隔監視方法オートフレーズ本稿では、高品質なフレーズとは、以下の 4 つの条件を満たす完全な意味を持つ単語と定義しています。
AutoPhraseタグマイニングのプロセスを図3に示します。まず、品詞タグ付けにより高頻度Nグラム単語を候補として選択し、候補単語をリモート監視により分類します。次に、上記の4つの条件により高品質のフレーズを選択します(フレーズ品質再評価)。 図3 AutoPhraseタグマイニングプロセス 高品質のフレーズは、外部の知識ベースからポジティブ プールとして取得され、他のフレーズは負の例として使用されます。論文の実験統計によると、負のプール内の高品質のフレーズの 10% は、知識ベースにないため、負の例として分類されます。そのため、論文では、図 4 に示すランダム フォレスト アンサンブル分類器を使用して、分類に対するノイズの影響を軽減しています。産業用途では、分類器のトレーニングでは、事前トレーニング済みモデルBERT[13]に基づく文間関係タスクバイナリ分類法を採用することもできます。 図4 AutoPhraseタグ単語分類法 4. タグワード分類教師あり手法NER シーケンスタグ付けモデルLattice LSTM[8]は、中国語NERタスクに語彙情報を導入した最初の研究です。Latticeは有向非巡回グラフです。単語の開始文字と終了文字によってグリッドの位置が決まります。語彙情報(辞書)を介して文をマッチングすると、図5(a)に示すように、格子のような構造が得られます。 Lattice LSTM構造は、5(b)に示すように、語彙情報をネイティブLSTMに統合します。現在の文字については、この文字で終わるすべての外部辞書情報が統合されます。たとえば、「店」は「人和药店」と「药店」の情報を統合します。 Lattice LSTM は、各文字に対して、アテンション メカニズムを使用して、可変数の単語単位を融合します。 Lattice-LSTMはNERタスクのパフォーマンスを効果的に向上させますが、RNN構造では長距離の依存関係を捉えることができず、語彙情報の導入には損失があります。さらに、動的なLattice構造ではGPU並列処理を完全に実行できません。Flat[9]モデルはこれら2つの問題を効果的に改善します。図 5(c) に示すように、フラット モデルはトランスフォーマー構造を使用して長距離依存関係をキャプチャし、位置エンコーディング (Position Encoding) を設計してラティス構造を統合します。文字に一致する単語が文に連結された後、文字と単語ごとに 2 つのヘッド位置エンコーディングとテール位置エンコーディングが構築され、ラティス構造が有向非巡回グラフからフラットなフラット ラティス トランスフォーマー構造に平坦化されます。 図5 語彙情報を含むNERモデル 遠隔監視方法オートNERTie または Break エンティティ境界識別スキームは、BIOE 注釈方法の代わりに使用され、遠隔監視によって発生するノイズの問題を軽減します。Tie は、現在の単語と前の単語が同じエンティティ内にあることを意味し、Break は、現在の単語と前の単語が同じエンティティ内になくなったことを意味します。 エンティティ分類段階では、エンティティに複数のタイプがある状況に対処するためにファジー CRF が使用されます。 図6 AutoNERモデル構造 ボンド写真 図7 BONDトレーニングフローチャート V. 結論参考文献【1】Campos R、Mangaravite V、Pasquali A、et al. Yake! コレクションに依存しない自動キーワード抽出ツール[C]//Advances in Information Retrieval: 40th European Conference on IR Research、ECIR 2018、グルノーブル、フランス、2018 年 3 月 26 日~29 日、Proceedings 40。Springer International Publishing、2018: 806-810。https://github.com/LIAAD/yake 【2】Mihalcea R、Tarau P. Textrank: テキストに秩序をもたらす[C]//Proceedings of the 2004 conference on empirical methods in natural language processing. 2004: 404-411. 【3】Bennani-Smires K, Musat C, Hossmann A, et al. 文埋め込みを用いたシンプルな教師なしキーフレーズ抽出[J]. arXiv プレプリント arXiv:1801.04470, 2018. 【4】KeyBERT, https://github.com/MaartenGr/KeyBERT 【5】Witten IH、Paynter GW、Frank E、他 KEA: 実用的な自動キーフレーズ抽出[C]//Proceedings of the fourth ACM conference on Digital library. 1999: 254-255. 【6】Xiong L, Hu C, Xiong C, et al. 言語モデルを超えたオープンドメインウェブキーフレーズ抽出[J]. arXiv プレプリント arXiv:1911.02671, 2019. 【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020). BERTによるキーフレーズチャンキングとサリエンシーランキングの共同研究。arXivプレプリントarXiv:2004.13639。 【8】Zhang Y, Yang J. 格子LSTMを使用した中国語NER[C] ACL 2018. 【9】Li X, Yan H, Qiu X, et al. FLAT: フラットラティストランスフォーマーを用いた中国語NER[C]. ACL 2020. 【10】Shang J, Liu J, Jiang M, et al. 大規模テキストコーパスからの自動フレーズマイニング[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837. 【11】 Shang J, Liu L, Ren X, et al. ドメイン固有辞書を用いた固有表現抽出アルゴリズムの学習[C]. EMNLP, 2018. 【12】Liang C、Yu Y、Jiang H、et al. Bond: 遠隔監視によるBert支援オープンドメイン固有表現抽出[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1054-1064. 【13】Meituan検索におけるNER技術の探求と実践、https://zhuanlan.zhihu.com/p/163256192 |
>>: 新しい近似注意メカニズム HyperAttention: 長いコンテキストに適しており、LLM 推論が 50% 高速化します
近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられて...
RPA ツールの使用はここ数年で急増しています。今年のパンデミックにより、組織は、特に RPA が最...
今日、自動運転は自動車産業の発展と変革の重要な方向性の一つとなっています。自動運転技術が成熟するにつ...
[[194194]]概要正しいファイル タイプと圧縮タイプ (Textfile+Gzip、Seque...
人工知能 (AI) は、今後最も期待されるテクノロジーの 1 つです。テクノロジーがビジネスに与える...
現在の社会経済情勢において、「新しい雇用形態」は強力なツールとなっている。新しい雇用モデルとは、新た...
GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、...
ウーバー、自動運転車が人をはねて死亡させたため全テストを中止 アメリカ現地時間19日朝、アリゾナ州...
[[391752]]昨年、ある短い動画が話題になりました。ヘルメットをかぶって家を内覧するお客さん。...
概要: Microsoft と Amazon の共同作業により、MXNet と Microsoft ...
つい先日、「劇的な対立に耽溺する」マスク氏は新たな行動を起こした。共同設立者の一人であるOpenAI...