第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

少し前に、Fourth Paradigm の上級研究員である Quanming Yao 博士が、NeurIPS 2020 に参加して採択された論文「Interstellar: ナレッジ グラフ埋め込みのためのリカレント アーキテクチャの検索」を皆さんと共有しました。

[[354582]]

この研究では、Neural Architecture Search (NAS) にヒントを得て、リレーショナル パスで情報を処理するための再帰アーキテクチャとして Interstellar を提案します。さらに、本研究における新しいハイブリッド検索アルゴリズムは、スタンドアロンおよびワンショット検索方法の限界を打ち破り、複雑な検索空間を持つ他の分野にも適用できる可能性があります。

ビデオリンク: https://v.qq.com/x/page/n3207ugke4j.html?start=6

ナレッジ グラフ エンベディングは現在、ナレッジ グラフ (KG) 内の知識表現を学習する強力な機能を備えています。これまでの研究では、多くの研究が主に単一のトリプレットのモデリングに焦点を当てていました。しかし、KG の場合、トリプレット間の長いチェーンの依存関係情報もいくつかのタスクでは重要です。

NeurIPS 2020カンファレンスで採択されたFourth Paradigmと香港科技大学のこの論文では、研究者らがトリプレットで構成された関係パスに基づくInterstellarモデルを提案し、再帰ニューラルネットワークを検索することで関係パス内の短鎖および長鎖情報を処理しました。

論文リンク: https://arxiv.org/pdf/1911.07132.pdf

コードリンク: https://github.com/AutoML-4Paradigm/Interstellar

まず、本研究では、一連のシミュレーション実験を通じて、異なるタスクの関係パスを単一のモデルでモデル化することの難しさについて分析し、検索を通じて異なるタスクを対象とするモデル化を提案した。検索効率を向上させるために、本研究では、リンク予測とエンティティアライメントタスクでより効果的なモデルを効率的に検索できるハイブリッド検索アルゴリズムを提案しました。

背景

ナレッジ グラフ埋め込み (KG 埋め込み) は、グラフの重要なプロパティを保持しながら、グラフ内のエンティティと関係を低次元空間にマッピングすることを目的としています。現在の学術分野では、TransE、RESCAL、DistMult、RotatE、ConvE、SimplE など、いくつかの研究は単一の 3 つの (s、r、o) モデリングに基づいています。これらは、リンク予測タスク (つまり、ヘッド ノード s とリレーション r が与えられた場合、テール ノード o を予測する) では優れたパフォーマンスを発揮しますが、ノード マッチング タスク (つまり、2 つの KG が与えられた場合、どのノードが同じ意味を持つかを予測する) でも一般的に優れたパフォーマンスを発揮します。 IPTransE、Chains、RSN などのリレーショナル パスに基づく別のタイプの作業は、ノード マッチング タスクでより優れたパフォーマンスを発揮します。

研究者は、関係パスには、単一のトリプルの短いチェーン情報、複数の関係の組み合わせ、複数のトリプル間の長いチェーン情報など、さまざまな重要な情報が含まれていることを観察しました。これを踏まえて、本研究では、検索手法を用いてさまざまなタスクに応じて関係パスをターゲットにモデル化する Interstellar モデルを提案しました。

モチベーション

異なるモデルがさまざまなタスクに対して異なる適合能力を持っていることを確認するために、研究者は一連のシミュレーション実験を設計しました。 Countries データセットには、S1 ~ S3 の 3 つの異なるタスクがあります。予測の難易度は 1 つずつ増加し、シミュレートする必要がある予測パスは徐々に長くなります。この目的のために、研究者らは事前の知識に基づいて 4 種類のパターン P1 ~ P4 を設計しました。これらのパターンは、単一のトリプル、連続する 2 つのトリプル、複数の関係の複合、および完全に再帰的な接続をモデル化するために使用されます。直感的に、P4 はより強力なモデリング機能を備えていますが、サンプルが限られている場合は、サンプルの複雑さも同様に重要です。データ パターンにより適合するモデルを選択すると、より良い結果が得られます。

下の表に示すように、単純なタスク S1 では、1 つまたは 2 つのトリプレットに基づくモデル P1 と P2 のパフォーマンスが優れており、S2 では P1 ~ P3 はすべて P4 よりも優れており、S3 ではより長いパスをシミュレートできるため再帰モデル P4 が勝っています。このことから、リレーショナル パスのモデリングはモデルに依存する必要があるという結論が導き出されます。検索を通じて専門家の事前知識をモデリング機能に組み込むことができれば、モデルはさまざまなタスクに対してより優れたソリューションを自動的に見つけることができます。

問題の定義と探索空間

まず、研究者らは Interstellar を、関係パスを再帰的に処理するモデルとして定義しました。各再帰ステップで、モデルはトリプルに焦点を当て、トリプル内およびトリプル間でさまざまな方法で情報が移動します。従来の RNN とは異なり、ここでの各ステップには 2 つの入力があります。同時に、ナレッジ グラフに関連するドメイン知識を考慮する必要があるため、単に RNN を使用してモデル化するのは適切ではありません。本研究では、知識グラフの分野における事前知識を有効に活用し、モデルをさまざまなタスクに適用できるようにするために、ニューラルアーキテクチャ検索技術(Neural Architecture Search)に着想を得て、さまざまなタスクを適応的にモデル化する検索問題としてモデリング問題を定義します。

本研究では、知識グラフ埋め込みの分野における関連モデルをまとめ、上図の検索空間を提案し、演算ユニットO_sを使用してノード埋め込みs_tを処理し、O_rを使用して関係埋め込みr_tを処理し、O_vを使用してベクトルv_tを出力し、次のノードs_t+1を予測します。具体的には、マクロレベルでは異なるユニット間の接続とコンビネーターを検索し、ミクロレベルでは活性化関数と重み行列を検索します。

検索アルゴリズム

この研究の目的は、2 レベル最適化アプローチによって定義できる検索空間で、検証セットに対してより迅速に優れたパフォーマンスを達成するモデルを見つけることです。この最適化問題を解決するために、現在、学界では 2 種類の方法が存在します。 1 つはスタンドアロン アルゴリズムで、各モデルのパラメータ F を収束するまで個別にトレーニングするため、正確なパフォーマンス評価 M が得られますが、トレーニング コストが高くなります。もう 1 つはワンショット アルゴリズムで、すべてのネットワークを含むスーパーネットを構築します。スーパーネットでは異なるモデルがサンプリングされ、パラメータを共有できます。この評価方法はより効率的ですが、信頼性が常に保証されるわけではありません。研究者たちは、ワンショットアプローチはインターステラーのモデリングにおいては信頼できないと観察した。

これらの問題を解決するために、本研究ではハイブリッド検索アルゴリズムを提案しました。マクロレベルでは、スタンドアロンアプローチが使用されます。α_2が与えられた場合、Α_1から異なるα_1がサンプリングされ、モデルパラメータは収束するまでトレーニングされ、α_1の信頼性の高い評価が得られます。ミクロレベルでは、ワンショットアプローチが使用されます。α_1が与えられた場合、Α_2から異なるα_2がサンプリングされます。同時に、異なるα_2に対応するモデルはハイパーネットワーク内でパラメータを共有し、トレーニングと評価のプロセスを加速します。これら 2 つを組み合わせることで、検索の精度と検索の効率の両方が保証されます。

実験結果

検索結果に関して言えば、この方法は、Interstellar の合理的な検索空間と効率的な検索アルゴリズムのおかげで、ノード マッチング タスクとリンク予測タスクの両方で、さまざまなデータ タスクに対してより優れたモデルを検索できます。

検索効率の点では、ハイブリッド アルゴリズムは、ランダム、強化、ベイズ最適化アルゴリズムよりも速く、より優れたモデルを取得できます。同時に、下の図の 2 つの点線 (単一のワンショット アルゴリズムを表す) は、この問題に対するパフォーマンスが良くないことを示しています。検索時間に関して言えば、ハイブリッド アルゴリズムとパラメータ調整 (学習率、バッチ サイズなど) にかかる時間は同程度であり、この検索方法は高価ではないことがわかります。新しい問題では、まずモデルを検索してからパラメータを調整することをお勧めします。

<<:  GoogleとDeepMindは、6つのタスクと複数のデータタイプに対する効率的なTransformer評価ベンチマークを提案

>>:  このAIはガールフレンドの自撮りを手伝います: 写真から3D動画を生成

ブログ    
ブログ    

推薦する

医療の荒野での賭け:百度は人工知能で危機を乗り切った

ロビン・リーは標高3,500メートルで牛糞を拾い、泥を塗り、牛の皮を剥ぐという極めて型破りなことをし...

eMule プロトコル スライス選択アルゴリズムの分析

ダウンロードはデータの送信であることはご存じのとおりです。この点に関しては、すでに合意内容について多...

...

...

OpenAIは「世界クラスの人材」を採用するためにロンドンに海外支社を設立すると発表

オープンAIは6月29日水曜日、ロンドンに新オフィスを設立すると発表した。これは同社にとって米国外初...

機械学習の決定木とランダムフォレストモデル

[[206785]]決定木導入決定木は機械学習において非常に一般的な分類方法です。すべてのアルゴリズ...

人工知能が裁判官の判断に取って代われば、司法権は誤った方向に導かれる可能性がある

近年、社会構造の転換と国民の権利意識の強化に伴い、中国の裁判所が受理する事件の規模は毎年二桁増加し、...

自律走行車の障害物回避、経路計画、制御技術の詳細な説明

1 はじめにインテリジェント交通システムは、複雑な環境における困難な自律性と安全性の問題に対処するた...

AI を活用した検索と推奨はどれほど強力でしょうか?

著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...

AIは実は人々の思考や視野を制限している

[[252987]] AIは徐々に成熟し、さまざまな産業に導入され、人々の生活を微妙に変えています。...

より賢い人工知能が人間に取って代わるのはもうすぐなのでしょうか?

人工知能の発展により、機械ははるかに賢くなりました。コンピュータプログラムさえ設定しておけば、多くの...

AIは旅行業界の困難を軽減できるか?

[[323317]]現時点では、多くの企業が、数か月前に考えていたよりも見通しが不透明であると感じ...

人工知能業界の最新の開発動向を1つの記事で理解する

[[418444]]現在、新世代の人工知能に代表される科学・産業革命が起こりつつあります。デジタル化...

調査によると、AIはデータ文化に大きな影響を与えている

2023年はGenAIの年ですが、GenAI(生成型人工知能)の採用率は期待に応えていません。ほとん...