トレーニング時間とパラメータの数は100分の1に削減され、ラベルは予測に直接使用され、GNNを超えるパフォーマンスを実現

トレーニング時間とパラメータの数は100分の1に削減され、ラベルは予測に直接使用され、GNNを超えるパフォーマンスを実現

従来のラベル伝播法とシンプルなモデルを組み合わせると、一部のデータセットでは現在の最適な GNN のパフォーマンスを上回ることができます。これはコーネル大学と Facebook の共同研究です。この新しい方法は、現在の SOTA GNN のパフォーマンスに匹敵するだけでなく、パラメータがはるかに少なく、実行速度が桁違いに高速です。

グラフ ニューラル ネットワーク (GNN) は、グラフ学習の主な技術です。しかし、GNN の成功の秘密や、その優れたパフォーマンスが必然であるかどうかについては、まだほとんどわかっていません。最近、コーネル大学と Facebook の研究では、多くの標準的なトランスダクティブ ノード分類ベンチマークにおいて、現在の最高の GNN のパフォーマンスを上回るかそれに匹敵する新しい方法が提案されました。

このアプローチは、グラフ構造を無視する浅いモデルと、ラベル構造の相関関係を活用する 2 つの簡単な後処理ステップ ((i)「エラー相関」: トレーニング データの残差を伝播してテスト データのエラーを修正する、(ii)「予測相関」: テスト データの予測を平滑化する) を組み合わせたものです。研究者はこのステップを「Correct and Smooth (C&S)」と呼んでおり、後処理ステップは、以前のグラフベースの半教師あり学習方法の標準的なラベル伝播 (LP) 手法を単純に変更することによって実現されます。

この方法は、複数のベンチマークで現在の最適な GNN のパフォーマンスを上回るかそれに近づきますが、パラメーターがはるかに小さく、後者よりも数桁高速に実行されます。たとえば、OGB-Products におけるこの方法のパフォーマンスは SOTA GNN のパフォーマンスを上回りますが、パラメータ数は後者の 1/137 で、トレーニング時間は後者の 1/100 です。この方法のパフォーマンスは、ラベル情報を学習アルゴリズムに直接組み込むことで、大幅なパフォーマンスの向上を簡単に達成できることを示しています。この方法は、大規模な GNN モデルにも組み込むことができます。

紙の住所

GitHubアドレス

グラフニューラルネットワークの落とし穴

コンピューター ビジョンと自然言語処理の分野でニューラル ネットワークが大きな成功を収めたことを受けて、グラフ ニューラル ネットワークがリレーショナル データの予測に使用されています。 Open Graph Benchmark などのモデルでは大きな進歩がありました。新しい GNN アーキテクチャの設計アイデアの多くは、言語モデル (注意など) や視覚モデル (深層畳み込みニューラル ネットワークなど) の新しいアーキテクチャから採用されています。ただし、これらのモデルが複雑になるにつれて、パフォーマンスの向上を理解することが重要な課題となり、これらのモデルを大規模なデータセットに拡張することが難しくなります。

新しい方法: ラベル情報 + シンプルなモデル

この論文では、より単純なモデルを組み合わせることでどのようなパフォーマンスが達成できるかを調査し、特にトランスダクティブノード分類におけるグラフ学習のパフォーマンスを向上させる機会を理解することに重点を置いています。

研究者らは、3 つの主要部分から構成されるシンプルなパイプライン (図 1 を参照) を提案しました。

  • グラフ構造を無視するノード機能 (MLP や線形モデルなど) を使用して実行される基本予測。
  • トレーニング データの不確実性をグラフ全体に伝播して基本予測を修正する修正ステップ。
  • スムーズなプロット予測結果。

ステップ 2 と 3 は、グラフベースの半教師あり学習の従来のアプローチ、つまりラベル伝播を使用する後処理ステップです。

本研究では、これらの古典的なアイデアを改良し、新たに導入することで、複数ノード分類タスクで大規模な GNN モデルを上回る SOTA パフォーマンスを達成しました。このフレームワークでは、グラフ構造はパラメータの学習には使用されず、後処理メカニズムとして使用されます。このシンプルさにより、モデルのパラメータとトレーニング時間が桁違いに削減され、大規模なグラフにも簡単に拡張できます。さらに、この手法を SOTA GNN と組み合わせることで、ある程度のパフォーマンス向上を実現することもできます。

この方法におけるパフォーマンス向上の主な要因は、予測にラベルを直接使用することです。これは新しいアイデアではありませんが、GNN ではほとんど使用されません。研究では、単純なラベル伝播(特徴を無視)でも多くのベンチマークで優れた結果を達成できることがわかりました。これにより、予測力の 2 つのソースを組み合わせる動機が生まれます。1 つはノード機能 (グラフ構造を無視) から、もう 1 つは予測で既知のラベルを直接使用することです。

具体的には、この方法ではまず、グラフ学習に依存しないノード機能に基づく基本予測子を使用します。次に、2 種類のラベル伝播 (LP) が実行されます。1 つは相関エラーをモデル化して基本予測を修正するもので、もう 1 つは最終予測を平滑化するものです。研究者たちは、これら 2 つの方法の組み合わせを「Correct and Smooth (C&S、図 1 を参照)」と呼びました。 LP は後処理ステップに過ぎず、パイプラインはエンドツーエンドでトレーニングされません。さらに、グラフは後処理ステップでのみ使用され、前処理ステップで機能を強化するために使用されますが、基本予測には使用されません。これにより、この方法は標準の GNN モデルよりもトレーニングが速くなり、よりスケーラブルになります。

この研究では、LP とノード機能の両方の利点を活用し、これらの補完的な信号を組み合わせて優れた予測結果を得ています。

実験

この方法の有効性を検証するために、研究者らは、Arxiv、Products、Cora、Citeseer、Pubmed、Email、Rice31、US County、wikiCS の 9 つのデータセットを使用しました。

ノード分類の予備結果

下の表 2 は関連する実験結果を示しています。研究者らは次のような重要な発見をしました。まず、本論文で提案した C&S モデルを使用すると、LP 後処理ステップで大きなメリットが得られます (たとえば、Products データセットでは、MLP の基本的な予測精度が 63% から 84% に向上します)。次に、C&S フレームワークを使用したプレーン線形モデルのパフォーマンスは、多くの場合、プレーン GCN よりも優れており、学習可能なパラメータのない LP メソッドのパフォーマンスは通常、GCN と同等です。これらの結果は、特徴量を使用するだけで、関連性をグラフに直接組み込む方がよい場合が多いことを示唆しています。最終的に、C&S モデルのバリアントは、製品、Cora、電子メール、Rice31、および US County の 5 つのデータセットで、一般に SOTA よりも大幅に優れたパフォーマンスを発揮します。他のデータセットでは、最高のパフォーマンスを示す C&S モデルと SOTA のパフォーマンスの間に大きなギャップはありません。

より多くのタグを使用してパフォーマンスをさらに向上させる

以下の表 4 に結果を示し、2 つの重要な発見を強調しています。まず、多くのデータセットで優れたパフォーマンスを達成したい直接ノード分類実験では、大規模でトレーニングに費用のかかる GNN モデルは実際には必要ありません。次に、従来のラベル伝播方法と単純な基本予測子を組み合わせると、これらのタスクでグラフ ニューラル ネットワークよりも優れたパフォーマンスを発揮できます。

トレーニング速度が速く、既存のGNNを上回るパフォーマンス

GNN や他の SOTA ソリューションと比較すると、この論文の C&S モデルでは必要なパラメータがはるかに少なくなる傾向があります。下の図 2 に示すように、研究者は OGB-Products データセットのパラメータとパフォーマンス (精度) の変化を示す曲線をプロットしました。

パラメータ数の削減に加えて、実際のメリットはトレーニング速度が速くなることです。研究者は基本的な予測にグラフ構造を使用しなかったため、C&S モデルは他のモデルと比較して同等の精度を維持しながら、桁違いに速いトレーニング速度を達成することがよくありました。

具体的には、OGB-Products データセットの SOTA GNN と比較して、線形ベース予測子を備えた C&S フレームワークは、トレーニング時間が 1/100 に短縮され、パラメータ数が 1/137 に削減され、より高い精度を示しています。

パフォーマンスの視覚化

C&S モデルのパフォーマンスをよりよく理解するために、研究者は、下の図 3 に示すように、米国の郡のデータセットで予測結果を視覚化しました。予想どおり、残差の関連性は、近隣の郡が関連情報を提供するノードでは正しい傾向があります。

<<:  西アフリカの牧畜民は飢餓危機と戦うためにAIを活用

>>:  小さな機械学習: 次の AI 革命

ブログ    
ブログ    

推薦する

ファーウェイ、セキュリティ業界を洞察から先見へと進化させる2019年スマートセキュリティ事業戦略を発表

[51CTO.comより引用] 2019年8月8日、ファーウェイの2019年スマートセキュリティビジ...

トレンド検索No.1! B駅のアップマスターはAIを使って李大昭、陳延年らを笑顔にした

[[408814]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

機械学習研究の10年

[[271167]] 10年前のMSRAの夏、私が初めて機械学習の研究に挑戦したとき、科学研究におけ...

ワシントンポスト紙の李開復氏のコラム:お金を与えることでAI失業危機は解決するのか?シリコンバレーの大物は世間知らずすぎる

AI革命が到来し、それは最良の時代になるかもしれないし、最悪の時代になるかもしれない。それが良いこと...

総合異常検知の新たな夜明け:華中科技大学などがGPT-4Vの総合異常検知性能を明らかに

異常検出タスクは、通常のデータ分布から大きく逸脱した外れ値を識別することを目的としており、産業検査、...

ビデオチャットでも顔を偽ることはできますか?恐ろしい AI 顔交換ソフトウェアを詳しく見る

[[397963]]誰もがビデオ AI による顔の修正について聞いたことがあるはずです。ビデオクリッ...

エネルギー分野における人工知能の機会と課題

エネルギー部門は、現代経済において最も強力かつ収益性の高い部門の 1 つです。しかし、ほとんどのエネ...

自動化によって、採用担当者が大規模な適格な人材を特定する方法

AI ベースの自動化ツールは、候補者データを収集して処理し、候補者の調達、スクリーニング、多様性、そ...

5G+AIは通信とコンピューティングを統合する

人工知能(AI)の急速な発展は、さまざまな業界に革命的な変化をもたらし、イノベーションの新たな時代を...

さまざまな機械学習アルゴリズムの選択の考え方を説明する記事

序文これは Zhihu に関する質問です: k 近傍法、ベイズ法、決定木、SVM、ロジスティック回帰...

最新研究:スーパー人工知能は理論的には制御不能

計算能力には限界があるため、人間が超人工知能を制御することはできません。 [[379749]]最近、...

...

このAIはマスクをハゲにし、テスラの設計を手伝った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能が税務業界を変える7つの方法

[[313080]]政府は、医療、輸送、防衛、国家安全保障など、多くの分野で AI とロボット工学を...