ニューラルネットワーク関係抽出のための構文的に敏感なエンティティ表現

ニューラルネットワーク関係抽出のための構文的に敏感なエンティティ表現

ニューラル関係抽出のための構文的に敏感なエンティティ表現。関係抽出タスクの大規模な適用における大きなボトルネックとなるのは、コーパスの取得です。近年、ニューラルネットワークベースの関係抽出モデルは、低次元空間で文を表現しています。この論文の革新性は、エンティティ表現モデルに構文情報を追加したことです。

まず、Tree-GRU に基づいて、エンティティ コンテキストの依存関係ツリーが文レベルの表現に変換されます。次に、文間および文内の注意を活用して、ターゲット エンティティを含む文のセットの表現を取得します。

研究の背景と動機

関係抽出タスクの大規模な適用における大きなボトルネックとなるのは、コーパスの取得です。遠隔監視モデルは、知識ベースを非構造化テキストのアライメントに適用することで大規模なトレーニング データを自動的に構築し、手動で構築されたデータへの依存を減らし、モデルのクロスドメイン適応性を高めます。しかし、遠隔監視を使用してコーパスを構築するプロセスでは、エンティティ名のみがアライメントに使用されますが、異なるエンティティは異なる関係の下でより豊かで多様な意味表現を持つ必要があるため、誤ったラベル付けなどの問題が発生します。したがって、より豊富なエンティティ表現のセットが特に重要です。

一方、文法情報に基づく方法は、通常、2 つのエンティティ間の関係に基づいて動作しますが、文法情報はエンティティの表現を豊かにすることができます。したがって、本論文では、構文コンテキストにおけるエンティティ表現に基づいて、さまざまなリレーショナル モードのエンティティのセマンティクスを強化し、ニューラル ネットワーク モデルを組み合わせて関係抽出タスクを処理します。

関連研究

関連する研究は、遠隔監視に基づく初期の方法と最近のニューラル ネットワーク モデルの 2 つのカテゴリに大まかに分類できます。

関係抽出タスクが注釈付きコーパスに大きく依存するという問題を解決するために、Mintzら(2009)は最初に遠隔監視に基づいて注釈付きコーパスを構築する方法を提案した。しかし、このようにして構築された自動的に注釈が付けられたコーパスには多くのノイズが含まれます。コーパス内のノイズの影響を軽減するために、Riedel et al. (2010) は関係抽出をマルチインスタンス単一カテゴリ問題として扱いました。さらに、Hoffmann et al. (2011) と Surdeanu et al. (2012) は、マルチインスタンスマルチカテゴリ戦略を採用しました。同時に、最短の依存パスが関係の文法的特徴として採用されます。上記の方法の典型的な欠点は、モデルのパフォーマンスがフィーチャ テンプレートの設計に依存することです。

近年、ニューラル ネットワークは自然言語処理タスクで広く使用されています。関係抽出の分野では、Socher et al. (2012) がリカレントニューラルネットワークを使用して関係抽出を処理しました。 Zeng et al. (2014) は、エンドツーエンドの畳み込みニューラルネットワークを構築しました。さらに、Zeng et al. (2015) は、複数のインスタンスのうち少なくとも 1 つのインスタンスが対応する関係を正しく表していると仮定しました。一対のエンティティ間の関係を表すインスタンスが存在すると仮定する場合と比較して、Lin et al. (2016) は、注釈付きコーパスに含まれる情報をより十分に活用するために、注意メカニズムを通じて肯定的なインスタンスを選択しました。

上記のニューラル ネットワーク ベースの方法のほとんどは、単語レベルの表現を使用して文のベクトル表現を生成します。一方、文法情報に基づく表現も多くの研究者に好まれており、その中で最も重要なのは最短依存パスです(Miwa and Bansal(2016)およびCai et al.(2016))。

主な方法

まず、依存関係の構文ツリーに基づいて、ツリー構造の再帰型ニューラル ネットワーク (Tree-GRU) モデルを使用して、文レベルでエンティティ表現を生成します。上の図に示すように、エンティティ自体を使用するよりも長距離情報をより適切に表現できます。特定のエンティティのセマンティック表現を次の図に示します。エンティティのセマンティック表現を取得するために Tree-GRU を使用します。

次に、サブノードベースのアテンション メカニズム (ATTCE、上) と文レベルのエンティティ表現アテンション メカニズム (ATTEE、下) を使用して、構文エラーや誤った注釈による悪影響を軽減します。

実験結果

この論文では、NYT コーパスで実験を行っています。最終結果は上の写真に示されています。このうち、SEE-CAT と SEE-TRAINS は、3 つのベクトル表現 (文のベクトル表現と 2 つのエンティティのベクトル表現) を組み合わせた、本論文で使用されている 2 つの戦略です。図からわかるように、本論文で提案されたモデルは、同じデータセット上で既存の遠隔監視関係抽出モデルよりも優れた性能を達成しています。

要約する

この論文の実験結果は、名前付きエンティティのより豊富な意味表現が最終的な関係抽出タスクに効果的に役立つことを示しています。

チーム名: ビジネスプラットフォーム事業部

著者: He Zhengqiu、Chen Wenliang、Zhang Meishan、Li Zhenghua、Zhang Wei、Zhang Min

<<:  初心者のためのデータ学習: Python でシンプルな教師あり学習アルゴリズムを実装する方法を学習します

>>:  AIがソフトウェアテストを変える5つの方法

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

チャットボットはデータセンターをよりスリムで効率的にする

自然言語処理 (NLP) の進歩により、データセンターの運用コストの削減や人材の維持率の向上など、デ...

2021年のMLとNLPの学術統計:Googleが1位、強化学習の専門家Sergey Levineが1位に

2021 年は自然言語処理 (NLP) と機械学習 (ML) にとって非常に生産的な年でした。さて、...

6つのチャットボット構築プラットフォーム

チャットボットは今日、多くの企業にとって顧客サービスの基盤として急速に定着しつつあります。そして、企...

...

人工知能アルゴリズムが核融合の応用に一歩近づく

核融合は現在一般的に使用されている核分裂法よりも安全で環境に優しいことはよく知られています。しかし、...

将来のAIの世界における興味深い仕事

現在、人工知能 (AI) システムは反復的で非創造的なタスクを実行するのが得意ですが、スクリプトから...

人工知能が爆発的に進化しています。この「鉄の飯碗」を手に入れるための新しいガイドをぜひ保存してください!

近年の人工知能の発展スピードは驚異的で、あらゆる分野で専門的なAIが登場しています。上海では以前、無...

2021年9月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...

AIと自動化でコンプライアンスコストを削減する5つの方法

規制は消費者と市場を保護するために設けられていますが、多くの場合、規制は複雑であり、遵守にはコストが...

Nature: 機械視覚による行動理解と脳神経の間には本質的なつながりがあるのでしょうか?上海交通大学のLu Cewu氏のチームはマッピングモデルを構築した

被験者が特定の行動をとったとき、その脳はそれに対応する安定した脳神経パターンのマッピングを生成するで...

AIビッグモデルがついにデータ争奪戦に参戦

現在、ビッグモデルは産業実装の初期段階にあり、高品質のデータはビッグモデルの産業化における重要な要素...

機械学習とビットコインの例

[[201737]]私はかつて、機械学習を使用してピグレットの世界で株価と変動を予測する空想的な例を...

...

生成AIと予測AIの主な違いと実際の応用

翻訳者 |陳俊レビュー | Chonglou近年、予測 AI は、高度な推奨アルゴリズム、リスク評価...

...