グラフネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

グラフニューラルネットワーク (GNN) は、機械学習でグラフ構造データを活用するための強力なツールです。グラフは、さまざまな種類の関係をモデル化できる柔軟なデータ構造であり、交通予測、噂やフェイクニュースの検出、病気の拡散モデル化など、さまざまなアプリケーションで使用されてきました。

機械学習の標準の 1 つとして、GNN ではトレーニングサンプルが均一にランダムに選択される (つまり、独立した同一に分布したサンプル) と想定されます。この仮定は、研究分析用に特別に作成され、各データノードがすでにラベル付けされている標準的な学術データセットでは簡単に満たすことができます。

しかし、現実世界の多くのシナリオでは、データにラベルが付けられていません。実際、データのラベル付けは、熟練した人間によるレビューと制御を必要とする面倒なプロセスであることがよくあります。そのため、すべてのデータノードにラベルを付けるのは非常に困難な作業です。

さらに、データのラベル付けのためのノードを選択する行為は、通常、前述の「均一なランダム選択」ではないため、トレーニングデータの偏りも一般的な問題です。

たとえば、注釈付けの対象となるデータのサブセット（サブセット内のデータには共通の特性がある）を選択するために固定ヒューリスティックが使用される場合もあれば、人間のアナリストが複雑なドメイン知識を使用して注釈付けの対象となる特定のデータ項目を選択する場合もあります。

トレーニングセット内のバイアスの量を定量化するには、2 つの異なる確率分布間のシフトの大きさを測定する方法を使用できます。シフトのサイズは、バイアスの量と考えることができます。

このバイアスの量が大きいほど、機械学習モデルがバイアスのあるトレーニングセットから一般化することが難しくなります。これにより、モデルの一般化能力が著しく損なわれる可能性があります。学術データセットでは、ドメインシフトによってモデルのパフォーマンスが 15～20% 低下する可能性があります (F1 スコアで測定)。

論文リンク: https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf

この問題に対処するため、Google は NeurIPS 2021 で偏ったデータに対して GNN を使用するソリューションを発表しました。

この方法は、Shift-Robust GNN (SR-GNN) と呼ばれます。名前が示すように、この方法の目的は、問題領域が変更および移行されたときに、モデルが非常に堅牢な状態を維持し、パフォーマンスの低下を軽減することです。

研究者らは、半教師あり学習用の一般的な GNN ベンチマークデータセットで偏りのあるトレーニングデータセットを使用したさまざまな実験で SR-GNN の有効性を検証しました。実験では、SR-GNN が他の GNN ベンチマークよりも精度が高く、偏りのあるトレーニングデータの悪影響を 30～40% 削減することが示されました。

データ分布の偏差がGNNのパフォーマンスに与える影響

データ分布の変化が GNN のパフォーマンスにどのように影響するかを示すために、まず既知の学術データセットに対してバイアスのかかったトレーニングセットをいくつか生成します。次に、この効果を理解するために、一般化（テスト精度）を分布シフトの尺度（CMD）と比較しました。

たとえば、有名な PubMed 引用データセットを例にとると、これはグラフとして考えることができ、グラフのノードは医学研究論文であり、グラフの「エッジ」はこれらの論文間の引用です。 PubMed に対して偏りのあるトレーニングデータが生成される場合、このプロットは次のようになります。

データセットの分布シフトと分類精度の間には強い負の相関関係があることがわかります。CMD が増加すると、パフォーマンス (F1) が大幅に低下します。つまり、トレーニングデータがテストデータセットとあまり似ていないため、GNN の一般化が困難になる可能性があります。

この問題に対処するため、研究者らは、一般化に対して非常に堅牢で、トレーニングデータとラベルなしデータからのランダムな均一サンプル間の分布シフトを最小限に抑える正則化子を提案しました。

これを実現するために、研究者らはモデルのトレーニング中にドメインシフトをリアルタイムで測定し、これに基づいて直接ペナルティ戦略を使用して、モデルがトレーニングバイアスを可能な限り無視するように強制します。これにより、トレーニングデータ用にモデルが学習した特徴エンコーダーは、異なる分布から来る可能性のあるラベルなしデータに対しても効果的に機能できるようになります。

下の図は、SR-GNN モデルと従来の GNN モデルの比較を示しています。どちらも入力は同じで、レイヤーの数も同じです。 GNN の k 番目の層の最終的な埋め込み Zk をラベルなしデータポイントからの埋め込みと比較し、モデルが正しくエンコードされているかどうかを確認します。

この正規化は、トレーニングデータの表現と実際のデータの分布の間の距離に基づくモデル損失式の追加項として記述されます。

実験では、SR-GNN 正則化を追加した後、偏ったトレーニングデータラベルを使用した分類タスクで分類モデルのパフォーマンスが 30 ～ 40% 向上することが示されました。

さらに、この論文では、偏ったトレーニングデータがある場合にモデルの信頼性を高める方法についても研究しています。

構造上の違いにより、同じ正規化メカニズムを異なるモデルに直接適用することはできませんが、近似的な真の分布からの距離に応じてトレーニングインスタンスに再重み付けすることで、トレーニングバイアスを「修正」できます。これにより、モデル全体に勾配を伝播させることなく、トレーニングデータの偏った分布を修正できます。

これら 2 つの正則化を組み合わせると、ドメイン正則化とインスタンスの重み付けを組み合わせた一般化された損失正則化を形成できます (損失の式を含む詳細については、論文を参照してください)。

結論は

現実のシナリオでは、偏ったトレーニングデータはよく見られます。これらの偏りは、大量のデータに注釈を付ける難しさ、注釈付きノードを選択するためのさまざまなヒューリスティックまたは一貫性のない手法、データラベルの配布の遅延など、さまざまな理由によって発生する可能性があります。

この一般的なフレームワーク (SR-GNN) は、偏ったトレーニングデータの影響を軽減でき、これらのモデルの線形化された浅い GNN だけでなく、より深い GNN を含むさまざまな種類の GNN に適用できます。

<<: AI消費動向予測について

>>: Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

警察が採用したボストン・ダイナミクスの犬たちは、感情のない「監視ツール」になるのだろうか？

グラフネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

データ分布の偏差がGNNのパフォーマンスに与える影響

結論は

警察が採用したボストン・ダイナミクスの犬たちは、感情のない「監視ツール」になるのだろうか？

RPA プロジェクトを社内で開発すべきでない理由

ディープインテリジェンスとは: 2021 年のディープインテリジェンスのトレンドは何ですか?

中山大学、AIGCの大規模応用を促進するためにソース拡散モデル統合コードフレームワークを公開

小度が「画期的な」新製品を百度世界2020で初公開、CCTVと提携してスマートライフの全貌を披露

AI STUDIO - AI機能を実現するためのハードルゼロ

生産AI駆動型ホスト自動化テスト

大規模モデル開発の中核: データエンジニアリング、自動評価、ナレッジグラフとの統合

推薦する

AI時代のIVRテスト：人間と機械のギャップを埋める

Baidu Smart Cloud Qianfan AppBuilder を解体し、次世代の大規模モデルアプリケーションを予測する

15億パラメータのモデルを2日間でトレーニングし、国内オープンソースプロジェクトがNvidiaのMegatron-LMを上回った

音声における GPT の瞬間: Meta が複数のタスクを解決するための普遍的なモデルである「画期的な」生成音声システムをリリース

2019年中国インテリジェント製造業のトップ10の発展トレンド！

2024年のAIトレンド、このグラフをご覧ください、LeCun: オープンソースのビッグモデルがクローズドソースを上回る

OpenAIとAppleの分岐点、アルトマンとジョブズが排除された日

新型コロナウイルスに対して、最高のAI定量モデルでさえあまり信頼できない

モノのインターネットにおける人工知能と機械学習の役割は何ですか?

EU諸国の4分の1がAIによるサイバーセキュリティ管理を望んでいる

生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る！Karpathyが5億元の資金調達に投資

AIからドローンまで: 4Gと5Gが未来の工場をどう変えるのか

人工知能技術には明るい未来がある

EUはAI法に加えて、GPT-4などの高機能モデルにも追加の規則と制約を追加する予定である。