ナレッジグラフは自然言語処理の未来でしょうか?

ナレッジグラフは自然言語処理の未来でしょうか?

ナレッジグラフは NLP の未来でしょうか?

今は2021年で、かつて全盛期だった多くの技術は長い間無視されてきました。しかし、AI業界の大きなIPであるナレッジグラフは、2018年と2019年に最もホットでした。当時、大手企業からスタースタートアップまで、AIに認知能力を与えるために、独自のグラフ+ NLPレイアウトを推進していました。 AIが全体的に落ち着きつつある現時点で、私たちはナレッジグラフの将来について冷静に考えるべき時が来ている。

質問に戻りますが、ナレッジグラフは NLP の未来でしょうか?

私の意見: ナレッジ グラフは NLP の未来ではありません。ナレッジ グラフは NLP と多くの共通点を持つ別のテクノロジーだからです。現在知られているすべての開発方向の中で、ナレッジグラフは NLP と長期的に相互に有益な共生関係を築く可能性が最も高いテクノロジーです。

では、ナレッジグラフと NLP の関係は何でしょうか?直感的に言えば、機械学習は人間が学習する方法に似ています。私たち自身の学習プロセスを振り返ってみると、情報の取得、処理、分析、意思決定は主に脳と感覚が担っています。単純な問題や少数の天才の場合、情報を受け取った後、結論を導き出すために脳内で一度考えるだけで済みます。しかし、仕事のレポートや期末試験などの複雑な問題の場合、脳だけに頼ってすべての情報を記憶することは困難です。このとき、多くの人は、処理された構造化または半構造化された知識の一部をメモに整理し、必要なときにすぐに見返せるようにすることを選択します。

見つかりましたか?脳の役割は NLP やその他の ML 技術と非常に似ており、メモは KG のインスピレーションのほとんどです。具体的には、NLP はグラフ構築プロセスで重要な役割を果たし、グラフは知識を導入することで NLP にフィードバックします。

BERT などの事前トレーニング済みの言語モデルには、脳に重要な記憶があるのと同じように、すでに知識が保存されていることは多くの証拠から明らかになっていますが、人間の脳が見たものをすべて記憶できないのと同じように、現実世界のすべての事実を内面化することは不可能です。ナレッジ グラフは、知識を導入することで NLP の学習圧力を軽減できます。もう一つの深刻な問題は、NLP技術が現状では人間の知能から程遠いため、トレーニング中にモデルが記憶する知識が実は制御不能であることです(詳細は隣のAIバイアス問題[1]を参照してください)。これはNLP技術の実用化に向けて考慮する必要があるリスクです。説明可能性の点では、ナレッジグラフはバグレベルです。

ナレッジグラフは NLP テクノロジーをどのように強化するのでしょうか?

NLP 技術がグラフ構築にどう貢献するかについては多くの情報があり、近年ナレッジグラフの実用化が本格的に進んでいます。しかし、ナレッジグラフが NLP 技術にどう貢献するかについて語る人は多くありません。

近年、KG が NLP テクノロジーを実現した方法のいくつかをまとめました。ぜひ追加してください。

事前トレーニングで知識を導入する

代表作:

ERNIE[2]は、フレーズとエンティティマスク戦略を使用して、フレーズとエンティティがKGから取得される中国語NLPタスクで良好な結果を達成しました。

図2. ERNIE

K-BERT[3]は、事前トレーニング中に関連するKGトリプレットを注入してモデルにドメイン知識を装備し、特定のドメインのタスクにおけるモデルのパフォーマンスを向上させ、大規模な事前トレーニングのコストを削減します。

図3. K-BERT

情報抽出における遠隔監視

KG を使用してテキストを整列させ、データのリモート監視と注釈付けを行うことは、情報抽出の分野で強力なツールです。手動での注釈付けのコストを効果的に削減でき、エンティティ抽出、関係抽出、イベント抽出などのサブタスクを処理できます。使用したことがある友人は皆、良いと言っています。

図4. 遠隔監視

エンティティリンクにおけるエンティティ情報の導入

エンティティ リンクは、テキスト内の言及を KG 内のエンティティにリンクするタスクです。次の図[4]に示すように:

図5. エンティティのリンク

明らかに、KGのエンティティ情報、例えばエンティティの説明、エンティティの属性、エンティティの埋め込み、エンティティ間の関係性などは、すべてこのタスクの重要な特徴です。詳細については、[4]を参照してください。

知識をテキスト生成に統合する

知識グラフに表示された事実をテキスト生成のガイドとして利用することは、以下に示すように、制御可能なテキスト生成を実現するための重要な方向性である[5]。

図6. テキスト生成

代表的な方法は4つあります[6]:

マルチタスク学習(生成 + テキスト含意)

ナレッジグラフに基づくテキスト生成

記憶ネットワークに基づくテキスト生成

テキスト生成のための分布サンプリングの組み合わせ

さらに詳しく知りたい方は[6]をご覧ください。

セマンティックマッチングにキーワード情報を導入する

深い意味マッチングタスクでは、一致するオブジェクトはテキスト内のキーワード間の相互作用を通じて比較的簡単に見つけられ、他の単語とはほとんど関係がないことがわかった[7][8]。

図7. 意味的一致のケース

そのため、KGから特定の分野のキーワードリストを導入し、モデリング中にキーワードの重要性を強調することで、より良い結果を得ることを検討しています[8]。

図8. キーワード注目メカニズム

[1] AIバイアス:機械は絶対的に合理的か? https://baijiahao.baidu.com/s?id=168448011511405061&wfr=spider&for = pc /pdf/1909.07606.pdf [4] ab -knowledgeグラフリンク:「浅い」レビュー - ニコラスの記事-zhihu.zhihu.com/p/100248426 [5]知識のグラフからのテキストfromptps v1.pdf [6] ABテキスト生成12:4知識統合テキスト生成の種類(推奨コレクション) - Lin Xiaopingの記事 - 知乎 https://zhuanlan.zhihu.com/p/133266258 [8] ab キーワード注意型ディープセマンティックマッチング https://arxiv.org/abs/2003.11516

<<:  静的な知識を動的にする: ナレッジグラフからファクトグラフへ

>>:  人工知能が将来経験する7つの段階

ブログ    
ブログ    
ブログ    

推薦する

人工知能はマーケティングをどのように変えるのでしょうか?

今日でも、私たちは人工知能 (AI) を未来のテクノロジーだと考えています。そのため、この分野で起こ...

機械学習モデルで機密データの忘却を実現するにはどうすればよいでしょうか?

I. 概要サイバーセキュリティ分野のデータ分析では機械学習手法がますます使用されるようになっていま...

...

...

勾配降下法から準ニュートン法まで: ニューラル ネットワークをトレーニングするための 5 つの学習アルゴリズム

ニューラル ネットワークでは、システムの学習プロセスは一般にトレーニング アルゴリズムによって支配さ...

...

5G+UAVの利点

5G+UAVの利点を見てみましょう。 [[398161]]現在、ドローンの開発は3つの大きな障害に直...

人工知能が旅行業界にもたらす変化

観光業界では徐々に人工知能を導入し、観光客にパーソナライズされた体験を提供しています。人工知能の助け...

もう感情を隠せない?歩く姿勢からAIがわかる!

歩き方は人それぞれ違います。歩き方は、その時々の気分など、あなたに関する秘密を明らかにします。たとえ...

ブラックテクノロジー検出法: 心拍を信号として利用し、偽モデルを「発見」

偽の肖像ビデオ生成技術は、政治宣伝、有名人のなりすまし、証拠の捏造、その他のアイデンティティ関連の操...

GitHubで3,000以上のいいねを獲得した「機械学習ロードマップ」は、モンスターをアップグレードして倒す方法を教えてくれる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

中国は人工知能チップの開発において「偏り」を持つことはできない

[[269826]] 「設計アーキテクチャだけを見れば、国産の人工知能チップは外国製のものより劣って...

...

2020 年のディープラーニング フレームワークの簡単な比較

ご存知のとおり、機械学習フレームワークの分野では、PyTorch と TensorFlow がそれぞ...

3 つの AIOps プラクティス: 可視化、自動化からインテリジェンスまで

2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開...