グラフ ネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

グラフ ネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

グラフ ニューラル ネットワーク (GNN) は、機械学習でグラフ構造データを活用するための強力なツールです。グラフは、さまざまな種類の関係をモデル化できる柔軟なデータ構造であり、交通予測、噂やフェイクニュースの検出、病気の拡散モデル化など、さまざまなアプリケーションで使用されてきました。

機械学習の標準の 1 つとして、GNN ではトレーニング サンプルが均一にランダムに選択される (つまり、独立した同一に分布したサンプル) と想定されます。この仮定は、研究分析用に特別に作成され、各データ ノードがすでにラベル付けされている標準的な学術データセットでは簡単に満たすことができます。

しかし、現実世界の多くのシナリオでは、データにラベルが付けられていません。実際、データのラベル付けは、熟練した人間によるレビューと制御を必要とする面倒なプロセスであることがよくあります。そのため、すべてのデータ ノードにラベルを付けるのは非常に困難な作業です。

さらに、データのラベル付けのためのノードを選択する行為は、通常、前述の「均一なランダム選択」ではないため、トレーニング データの偏りも一般的な問題です。

たとえば、注釈付けの対象となるデータのサブセット(サブセット内のデータには共通の特性がある)を選択するために固定ヒューリスティックが使用される場合もあれば、人間のアナリストが複雑なドメイン知識を使用して注釈付けの対象となる特定のデータ項目を選択する場合もあります。

トレーニング セット内のバイアスの量を定量化するには、2 つの異なる確率分布間のシフトの大きさを測定する方法を使用できます。シフトのサイズは、バイアスの量と考えることができます。

このバイアスの量が大きいほど、機械学習モデルがバイアスのあるトレーニング セットから一般化することが難しくなります。これにより、モデルの一般化能力が著しく損なわれる可能性があります。学術データセットでは、ドメインシフトによってモデルのパフォーマンスが 15~20% 低下する可能性があります (F1 スコアで測定)。

論文リンク: https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf

この問題に対処するため、Google は NeurIPS 2021 で偏ったデータに対して GNN を使用するソリューションを発表しました。

この方法は、Shift-Robust GNN (SR-GNN) と呼ばれます。名前が示すように、この方法の目的は、問題領域が変更および移行されたときに、モデルが非常に堅牢な状態を維持し、パフォーマンスの低下を軽減することです。

研究者らは、半教師あり学習用の一般的な GNN ベンチマーク データセットで偏りのあるトレーニング データセットを使用したさまざまな実験で SR-GNN の有効性を検証しました。実験では、SR-GNN が他の GNN ベンチマークよりも精度が高く、偏りのあるトレーニング データの悪影響を 30~40% 削減することが示されました。

データ分布の偏差がGNNのパフォーマンスに与える影響

データ分布の変化が GNN のパフォーマンスにどのように影響するかを示すために、まず既知の学術データセットに対してバイアスのかかったトレーニング セットをいくつか生成します。次に、この効果を理解するために、一般化(テスト精度)を分布シフトの尺度(CMD)と比較しました。

たとえば、有名な PubMed 引用データセットを例にとると、これはグラフとして考えることができ、グラフのノードは医学研究論文であり、グラフの「エッジ」はこれらの論文間の引用です。 PubMed に対して偏りのあるトレーニング データが生成される場合、このプロットは次のようになります。

データセットの分布シフトと分類精度の間には強い負の相関関係があることがわかります。CMD が増加すると、パフォーマンス (F1) が大幅に低下します。つまり、トレーニング データがテスト データセットとあまり似ていないため、GNN の一般化が困難になる可能性があります。

この問題に対処するため、研究者らは、一般化に対して非常に堅牢で、トレーニング データとラベルなしデータからのランダムな均一サンプル間の分布シフトを最小限に抑える正則化子を提案しました。

これを実現するために、研究者らはモデルのトレーニング中にドメインシフトをリアルタイムで測定し、これに基づいて直接ペナルティ戦略を使用して、モデルがトレーニングバイアスを可能な限り無視するように強制します。これにより、トレーニングデータ用にモデルが学習した特徴エンコーダーは、異なる分布から来る可能性のあるラベルなしデータに対しても効果的に機能できるようになります。

下の図は、SR-GNN モデルと従来の GNN モデルの比較を示しています。どちらも入力は同じで、レイヤーの数も同じです。 GNN の k 番目の層の最終的な埋め込み Zk をラベルなしデータ ポイントからの埋め込みと比較し、モデルが正しくエンコードされているかどうかを確認します。

この正規化は、トレーニング データの表現と実際のデータの分布の間の距離に基づくモデル損失式の追加項として記述されます。

実験では、SR-GNN 正則化を追加した後、偏ったトレーニング データ ラベルを使用した分類タスクで分類モデルのパフォーマンスが 30 ~ 40% 向上することが示されました。

さらに、この論文では、偏ったトレーニング データがある場合にモデルの信頼性を高める方法についても研究しています。

構造上の違いにより、同じ正規化メカニズムを異なるモデルに直接適用することはできませんが、近似的な真の分布からの距離に応じてトレーニングインスタンスに再重み付けすることで、トレーニングバイアスを「修正」できます。これにより、モデル全体に​​勾配を伝播させることなく、トレーニング データの偏った分布を修正できます。

これら 2 つの正則化を組み合わせると、ドメイン正則化とインスタンスの重み付けを組み合わせた一般化された損失正則化を形成できます (損失の式を含む詳細については、論文を参照してください)。

結論は

現実のシナリオでは、偏ったトレーニング データはよく見られます。これらの偏りは、大量のデータに注釈を付ける難しさ、注釈付きノードを選択するためのさまざまなヒューリスティックまたは一貫性のない手法、データ ラベルの配布の遅延など、さまざまな理由によって発生する可能性があります。

この一般的なフレームワーク (SR-GNN) は、偏ったトレーニング データの影響を軽減でき、これらのモデルの線形化された浅い GNN だけでなく、より深い GNN を含むさまざまな種類の GNN に適用できます。

<<:  AI消費動向予測について

>>:  Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

ブログ    

推薦する

ディープラーニングのコードを信頼できるのはなぜでしょうか?

ディープラーニングは、正確性を評価するのが難しい分野です。ランダムな初期化、膨大なデータセット、重み...

この AI 商用リストをお見逃しなく: アプリケーションで問題が解決するかもしれません (最終部分)

[[220562]]編纂者:小凡文、肖怡月、江宝尚長らくお待ちいただいておりましたが、ついにAIリ...

...

モノのインターネット(IoT)がビジネスに活力を与える:5つのビジネス事例が示すもの

モノのインターネットはさまざまな分野に浸透しており、その魅力と需要は徐々に高まっています。このテクノ...

天文学者は人工知能を使って宇宙の実際の形を明らかにする

日本の天文学者たちは、銀河の形状のランダムな変化によって生じる天文データの「ノイズ」を除去する新しい...

ML と AI の違い: 詳細ガイド

人工知能 (AI) と機械学習 (ML) は互換性があると考えられる場合もありますが、概念的には関連...

2024年の製造業の現状:完全デジタル化

世界全体、特に製造業は、パンデミック中に発生した問題や数年前の大規模なサプライチェーンの混乱から脱し...

面接中にアルゴリズムの質問を解く際にプログラマーが知っておくべきこと

面接でアルゴリズムのみをテストする質問は、一般的に多くのプログラマーの友人から嫌われます。ここでは、...

...

チャットボットをよりエレガントに設計する方法

AI アルゴリズムの人気により、近年会話型ロボットの人気が高まり、あらゆる分野で推進され、使用されて...

AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

[[322491]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

ChatGPT が 1 周年を迎えました: 革新、論争、AI のブレークスルーの 1 年

テクノロジーの世界を永遠に変えたかもしれない GenAI チャットボットである OpenAI の C...

Python は R を抜いて、データ サイエンスと機械学習プラットフォームで最も人気のある言語になるのでしょうか?

最近、kdnuggets はデータ サイエンスと機械学習言語の使用に関するアンケート調査を実施しまし...

Excelが変わりました! MicrosoftはPythonを搭載しているので、機械学習を直接行うことができます。

素晴らしいニュースです! Microsoft が Excel に Python を導入しました。 E...

グラフィカルな説明 | RSAアルゴリズムとは

[[339878]]この記事はWeChatパブリックアカウント「Backend Technology...