完全なグラフが利用できない場合にグラフディープラーニングを使用するにはどうすればよいでしょうか?

多様体学習は、2000 年に有名な科学雑誌 Science で初めて提案されて以来、情報科学の分野における研究のホットスポットとなっています。多くの人が、多様体学習の用途は何なのかと尋ねるかもしれません。まず、多様体学習はデータの次元を削減する方法として使用できます。次に、多様体はデータの本質を特徴付けることができます。主な代表的な手法としては、等角投影法、局所線形埋め込み法などがあります。それでは、多様体学習 2.0 として知られる潜在グラフ学習法についてはどうでしょうか?

ニューラルネットワークは提案されて以来、顔認識、音声認識などの分野で優れた性能を示してきました。以前は手動での特徴抽出を必要としていた機械学習タスクは、エンドツーエンドのアプローチを通じて解決できるようになりました。

従来のディープラーニング手法は、ユークリッド空間データ（たとえば、画像は規則的な正方格子であり、音声データは 1 次元のシーケンス）から特徴を抽出することに大きな成功を収めてきました。しかし、多くのタスクでは、データは規則的な空間構造を持たず、電子取引や推奨システムからの抽象グラフなど、グラフ内の各ノードと他のノード間の接続が固定されていない非ユークリッド空間のデータです。従来の CNN、RNN などのフレームワークでは問題を解決できなかったり、結果が悪かったりしたため、グラフニューラルネットワークが誕生しました。

左（赤枠）：ユークリッド空間データ、右：非ユークリッド空間データ。

グラフニューラルネットワークは、関係帰納的バイアスを利用してデータをグラフ形式で処理します。しかし、多くの場合、すぐに利用できるグラフはありません。では、グラフディープラーニングはこのような状況に適用できるのでしょうか?この記事では、潜在グラフ学習とそれ以前の多様体学習について紹介します。

潜在画像学習

過去数年間、グラフ構造化されたデータを処理するために機械学習手法を使用することに大きな関心が寄せられてきました。この種のデータは、社会科学 (Twitter や Facebook でのユーザーフォローグラフなど)、化学 (分子は結合した原子のグラフとしてモデル化できます)、生物学 (異なる生体分子間の相互作用は多くの場合、インタラクトームグラフとしてモデル化されます) など、多くのアプリケーションで自然に発生します。グラフニューラルネットワーク (GNN) はグラフ学習に特に人気の高いアプローチであり、アルゴリズムは隣接するノード間で情報を交換する共有パラメータを介してローカルに動作します。

ただし、場合によっては、既存のグラフを入力として利用できないことがあります。これは特に生物学において当てはまります。生物学では、タンパク質相互作用を発見するための実験は費用がかかり、ノイズが多いため、タンパク質間相互作用などのマップは部分的にしかわかっていません。そのため、研究者はデータからグラフを推測し、それに GNN を適用し、それを「潜在グラフ学習」と呼んでいます。潜在グラフ学習はアプリケーション固有であり、下流のタスクに最適化されています。さらに、このようなプロットは、データに関する重要な洞察を伝え、結果を解釈する方法を提供できるため、タスク自体よりも重要になる場合があります。

潜在グラフ学習は、空のエッジセットを持つグラフを学習することです。この設定では、入力は高次元の特徴空間内のポイントクラウドです。各ポイントに共有の学習可能なポイント単位の関数を適用するコレクションに対するディープラーニング手法 (PointNet など) とは異なり、潜在グラフ学習ではポイント間で情報を転送することも試みます。

翻訳

最初のそのようなアーキテクチャは、MIT の Yue Wang によって開発された Point Cloud Dynamic Graph Convolutional Neural Network (DGCNN) です。 3D ポイントクラウド分析を含むコンピュータグラフィックスの問題にヒントを得て、提案されたアーキテクチャでは、ポイントクラウドの基礎となるローカルな滑らかな多様体構造の粗い表現としてグラフを使用します。 Yue 氏の重要な発見の 1 つは、グラフはニューラルネットワーク全体で静的である必要はなく、実際には動的に更新できるし、更新すべきだということでした。そのため、この手法は DGCNN と名付けられました。

DGCNN は、特徴拡散のために k 最近傍グラフを動的に構築します。グラフはタスクに依存し、各レイヤーの後に更新されます。この画像（[4]から改変）は赤い点までの距離（黄色はより近い点を表す）を示しており、セグメンテーションタスクでは、翼やエンジンのペアなどの幾何学的関係ではなく、より深いグラフが意味的関係を捉えていることを示しています。

デージーエム

DGCNN の 1 つの制限は、グラフとグラフ上の特徴を構築するために同じ空間が使用されることです。 Anees Kazi と Luca Cosmo は、次の図に示すように、グラフと特徴の構築を切り離すことで DGCNN を拡張する新しいアーキテクチャである Differentiable Graph Module (DGM) を提案しました。

DGM は、入力データに基づいてグラフを構築し、グラフ上に特徴を広めるメカニズムを提供します。（画像出典：[5]）

DGM は、脳画像データから病気を予測するなど、医療問題に適用した場合に優れた結果を示しています。これらのタスクでは、研究者は複数の患者の人口統計学的特性（年齢、性別など）や脳画像の特徴を含む電子健康記録を取得し、患者が神経疾患を患っているかどうかを予測しようとします。これまでの研究では、人口統計学的特性に基づいて手作りされた「患者グラフ」に特徴拡散を実行することで、この種のタスクへの GNN の適用が実証されています。 DGM は、特定の診断タスクにおいて特定の機能が相互にどのように依存しているかを伝えることができるグラフを学習できるという利点を提供します。 2 番目に、DGM はポイントクラウド分類タスクでも DGCNN に勝っていますが、その利点は小さいです。

多様な学習

DGCNN と DGM は、概念的には多様体学習や非線形次元削減アルゴリズムに似ており、これらは長い間使用されており、現在でもデータの視覚化に使用されています。多様体学習法の基本的な前提は、データが本質的に低次元構造を持っているということです。データは数百、あるいは数千の次元を持つ空間で表現できますが、以下に示すように、自由度はわずかしかありません。

このデータセット内の手の画像は高次元（64 x 64 ピクセルで 4096 次元）ですが、本質的には低次元であり、手首の回転と指の伸展という 2 つの自由度で説明できます。多様体学習アルゴリズムは、データセットのこの固有の低次元構造を捉え、それをユークリッド空間で表現することができます。（画像出典[9]）

たとえば、球面上の点 (つまり、3 次元ユークリッド空間内の点) は、次の 3 つ組で表すことができます。

しかし実際には、この 3 次元座標には θ と φ の 2 つの変数しかなく、自由度は 2 であると言えます。これは、まさに 2 次元多様体であることに対応しています。

多様体学習の目標は、これらの自由度を捉え、データの次元をその固有の次元まで削減することです。多様体学習と PCA などの線形次元削減方法との重要な違いは、データの非ユークリッド構造のため、線形投影によって多様体を回復できない場合があることです。下の図に示すように、線形次元削減（左）は線形次元削減であり、多様体学習（右）は非線形次元削減です。

多様体学習アルゴリズムは多様体を回復する方法が異なりますが、共通の青写真を共有しています。

まず、k 最近傍グラフを構築してローカル構造を捉えるためのデータ表現が作成されます。次に、元のデータの構造を維持するように、データの低次元表現 (埋め込み) が計算されます。これが、ほとんどの多様な学習方法の特徴です。この新しい表現は、元の非ユークリッド構造をより扱いやすいユークリッド空間に「平坦化」します。 3 番目に、表現が計算されると、機械学習アルゴリズム (通常はクラスタリング) が適用されます。

複数のマニフォールド学習方法の青写真: まず、データをグラフとして表現します。次に、このグラフの低次元埋め込みを計算します。最後に、この低次元表現に ML アルゴリズムを適用します。

課題の 1 つは、グラフ構築を ML アルゴリズムから切り離すことです。この分離には、下流のタスクが適切に機能するようにグラフを構築する方法を決定するために、正確なパラメータ調整 (近傍の数や近傍半径など) が必要になる場合があります。おそらく、多様体学習アルゴリズムのより深刻な欠点は、データが低次元の生の形式で表現されることがほとんどないことです。たとえば、画像を処理する場合、前処理手順としてさまざまな手作業による特徴抽出手法を使用する必要があります。

グラフディープラーニングは、上記の 3 つの段階を単一のグラフニューラルネットワークに置き換える最新のアプローチを提供します。たとえば、DGCNN や DGM では、グラフの構築と学習は同じアーキテクチャの一部です。

潜在グラフ学習は、グラフが学習され、下流のタスクの最適化のためのエンドツーエンドの GNN パイプラインの一部として使用される、多様体学習問題の現代的な設定として考えることができます。

このアプローチの魅力は、個々のデータポイントとそれらが存在するスペースの両方を同じパイプラインに組み合わせることです。画像の場合、従来の CNN を使用して各画像から視覚的な特徴を抽出し、GNN を使用してそれらの間の関係をモデル化できます。

PeerNet は、標準 CNN のグラフベースの正規化レイヤーであり、複数の画像から類似のピクセルを集約して、敵対的摂動に対する感度を低減します。（画像出典[12]）

潜在グラフ学習のその他の応用

潜在グラフ学習には、他にも興味深い応用が数多くあります。

1 つ目は、少数のサンプルから一般化するためにグラフベースの方法を使用する、少数のショット学習です (重要: 必要なラベル付きサンプルは少数のみです)。コンピュータービジョンでは、データ注釈の量は数千から数万に及び、非常にコストがかかるため、少量ショット学習がますます重要になります。

2 つ目は生物学の分野です。実験を通じてタンパク質などの生体分子の発現レベルを観察し、それらの相互作用やシグナル伝達ネットワークを再構築しようとすることがよくあります。

3 つ目は物理システムの分析です。グラフを使用して複数のオブジェクト間の相互作用を記述できます。特に複雑な粒子相互作用を扱う物理学者は、最近グラフベースの手法に大きな関心を示しています。

4 番目は NLP の問題です。NLP の分野では、グラフニューラルネットワークはトランスフォーマーアーキテクチャの一般化として考えることができます。言及されている問題の多くは、グラフ構造に事前の知識を組み込むという問題も提起しており、これは大部分が未解決のままです。たとえば、グラフを特定の構築ルールに従わせたり、特定の統計モデルと互換性を持たせたりしたい場合があります。

潜在グラフ学習は、完全に新しい分野ではありませんが、古い問題に対する新しい視点を提供します。これは確かにグラフ機械学習の問題に対する興味深い設定であり、GNN 研究者に新たな方向性を提供します。

<<: 大企業の面接官によく聞かれるアルゴリズム図：スタック内の最小値を見つける方法がまだわかりませんか？

>>: プロのアニメーターがGANを使って「怠け者」を助ければ、数週間かかる仕事を数分で終わらせられる