オイラー誕生!中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

オイラー誕生!中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

[[255980]]

ついに待望の登場です! Alibaba は、主要なオープンソース プロジェクトであるグラフ ディープラーニング フレームワーク Euler を正式に発表しました。これは、中国でコアビジネスに大規模に適用された最初のオープンソースのグラフディープラーニングフレームワークです。このオープンソースリリースでは、Euler はユーザーが直接使用できる多数のアルゴリズムを組み込んでおり、関連するコードはすでに GitHub からダウンロードできます。

グラフ学習とディープラーニングはどちらも人工知能の分野です。アリババのビッグデータマーケティングプラットフォームであるAlimamaは、グラフ学習とディープラーニングを革新的に組み合わせてEulerを立ち上げ、マーケティング効率を大幅に向上させることができます。オイラーは、アリババママのコアビジネスシナリオで改良され、検証されています。また、金融、通信、ヘルスケアなど、複雑なネットワーク分析を伴うシナリオでも高い応用価値を持っています。たとえば、ユーザーはオイラーを使用して、ユーザー取引などの金融データに基づいて構築された複雑な異種グラフを学習および推論し、それを金融詐欺防止などのシナリオに適用できます。

さあ、オイラーの世界に入りましょう。

オイラーオープンソースアドレス

https://github.com/alibaba/euler

1. 概要

過去数年間、データ規模とハードウェアの計算能力の急速な成長に伴い、ディープラーニング技術は産業界で広く使用されるようになり、莫大な技術的利益を生み出してきました。現在のアプリケーションは比較的成熟しており、私たちは次の技術的利益がどこにあるのかを積極的に模索しています。グラフニューラルネットワークは、エンドツーエンドの学習と帰納的推論を組み合わせたもので、関係推論や説明可能性など、ディープラーニングでは処理できない一連の問題を解決することが期待されています。構造的知識の表現、計算、組み合わせ一般化は、人間のような AI を実現するための鍵です。グラフ ニューラル ネットワークはこれらの分野でブレークスルーを達成し、マシンの能力をさらに強化することが期待されています。したがって、グラフ ニューラル ネットワークの徹底的な応用は、次の技術的利益の波を形成することが期待されています。

グラフは、強力な表現力を持つ一般的なデータ構造として、ソーシャル シナリオのユーザー ネットワーク、電子商取引シナリオのユーザーおよび製品ネットワーク、電気通信シナリオの通信ネットワーク、金融シナリオのトランザクション ネットワーク、医療シナリオの薬物分子ネットワークなど、現実世界の多くの問題を記述するために使用できます。テキスト、音声、画像などの分野のデータは、ユークリッド空間のグリッド型に処理しやすく、既存のディープラーニングモデルによる処理に適していますが、グラフは非ユークリッド空間のデータであり、既存の方法で直接適用することはできず、特別に設計されたグラフニューラルネットワークシステムが必要です。

1.1 オイラーのコア機能

1) 大規模グラフ上の分散学習

産業界のグラフには、数十億のノードと数百億のエッジが含まれることがよくあります。シナリオによっては、その数は数百億のノードと数千億のエッジに達することもあります。このサイズのグラフに対して、単一マシンでトレーニングを行うことは現実的ではありません。 Euler はグラフのセグメンテーションと効率的で安定した分散トレーニングをサポートし、数十億のポイントと数百億のエッジの計算スケールを簡単にサポートできます。

2) 複雑な異種グラフの表現をサポート

産業界のグラフ関係は大抵複雑で、ノードとエッジの関係の異質性に反映されています。さらに、ノードとエッジには非常に豊富な属性がある場合があり、一部の一般的なグラフ ニューラル ネットワークでは効果的な表現を学習することが困難です。オイラーは、グラフ構造のストレージとグラフ コンピューティングの抽象化の観点から異種のポイントとエッジに対する操作をサポートし、豊富な異種属性セットをサポートしているため、グラフ学習アルゴリズムで異種グラフの表現を簡単に学習できます。

3) グラフ学習とディープラーニングの組み合わせ

業界には、検索/推奨/広告シナリオなど、多くの古典的なシナリオがあります。従来のディープラーニング手法は優れた結果をもたらします。グラフ学習と従来の手法を組み合わせてモデル機能をさらに向上させる方法を検討する価値があります。 Euler は、ディープラーニング サンプルに基づくミニバッチ トレーニングをサポートし、グラフ表現をディープラーニング ネットワークに直接入力して共同トレーニングを行います。

4) 階層的抽象化と柔軟な拡張

オイラーシステムは、グラフエンジン層、グラフ演算オペレータ層、アルゴリズム実装層の 3 つの層に抽象化されており、高レベルのグラフ学習アルゴリズムを迅速に拡張できます。実際、オイラーには、誰でも直接使用できる組み込みアルゴリズム実装も多数あります。

1.2 オイラー組み込みアルゴリズムの実装

フレームワークの使いやすさを考慮して、複数のよく知られたアルゴリズムと、独自の革新的なアルゴリズムをいくつか組み込みました。アルゴリズムの効率性とアルゴリズムの結果が元の論文と一致していることを確認するために、すべての実装を慎重にテストしました。ユーザーは開発を行う必要がなく、プラットフォームにデータを注入した後、すぐに使用できます。組み込みアルゴリズムのリストを以下の表に示します。内部アルゴリズムの詳細については、セクション 2.3 を参照してください。

アルゴリズムの種類

自社開発かどうか

特徴

ディープウォーク

ランダムウォーク

いいえ

古典的な不偏ランダムウォークの教師なしアルゴリズム。

ノード2ベクトル

ランダムウォーク

いいえ

設定可能なパラメータを使用して、歩行時にBFSまたはDFSを優先する

ライン

他の

いいえ

1次および2次の近傍情報を柔軟に活用する教師なしアルゴリズム

ジーシーエヌ

近所の集まり

いいえ

CNN操作は非ユークリッド空間に一般化されたアルゴリズムに似ている

グラフSAGE

近所の集まり

いいえ

GCN の改善、近傍サンプリング、複数の集約関数など。

ガット

近所の集まり

いいえ

近隣集約のためのアテンション技術の使用

スケーラブル-GCN

近所の集まり

はい

GCNトレーニングをスピードアップする方法

LqCy

ランダムウォーク

はい

ディープネットワークコーディングを使用した異種グラフのランダムウォーク

ラスGNN

近所の集まり

はい

大規模異種グラフ畳み込みネットワークのための半教師あり学習法

2. システム設計

オイラー システム全体は、最下位レベルの分散グラフ エンジン、中位レベルのグラフ セマンティクス オペレーター、および高位レベルのグラフ表現学習アルゴリズムの 3 つのレイヤーに分けられます。

以下では、各レベルの主要な機能について個別に説明します。

図1 オイラーアーキテクチャの概要

2.1 分散グラフエンジン

当社のビジネスをサポートするには、超大規模なグラフのストレージとコンピューティングの課題に直面するだけでなく、さまざまな種類のポイント、エッジ、およびその属性で構成される異種グラフの複雑さにも対処する必要があります。当社の分散グラフ エンジンは、大規模なグラフ ストレージ、分散並列グラフ コンピューティング、異種グラフ向けに最適化されており、産業シナリオでの効果的なアプリケーションを保証します。

  • まず、超大規模グラフ(数十億のポイント、数百億のエッジ)を格納するために、オイラーは単一マシンの限界を打ち破り、分散ストレージ アーキテクチャを採用する必要があります。グラフをロードすると、エンジン内でグラフ全体が複数のサブグラフに分割され、各コンピューティング ノードに 1 つまたは複数のサブグラフが割り当てられてロードされます。

  • 各コンピューティング ノードの能力を最大限に活用するために、グラフ操作を実行するときに、トップレベルの操作がサブグラフ上の複数の操作に分解され、各ノードによって並列に実行されます。このように、ノードが追加されるにつれて、より優れたサービス機能が得られます。次に、複数のレプリカのサポートを導入しました。これにより、ユーザーはシャードとレプリカの数を柔軟にバランスさせ、より優れたサービス機能を実現できます。最後に、グラフ表現学習の基礎となるグラフストレージデータ構造と操作アルゴリズムを最適化し、単一マシンのグラフ操作パフォーマンスが数倍向上しました。

  • さまざまな種類のエッジ、ポイント、属性で構成される異種グラフは、多くの複雑なビジネス シナリオに不可欠です。異種グラフ コンピューティング機能をサポートするために、基盤となるストレージはさまざまなノードとエッジの種類に応じて編成されます。このようにして、異種グラフ操作を効率的にサポートできます。

2.2 中間グラフ演算演算子

グラフ学習アルゴリズムの多様性とビジネスの複雑さにより、数個または数十個の固定アルゴリズム実装ではすべての顧客ニーズを満たすことはできません。したがって、Euler の設計では、基盤となるシステムのコア機能を中心に柔軟で強力なグラフ操作演算子を設計することに重点を置き、すべての演算子が異種グラフ操作セマンティクスをサポートしています。ユーザーはこれを使用して、独自のビジネス ニーズを満たす独自のアルゴリズム バリアントを迅速に構築できます。

まず、オイラー分散グラフ エンジンは、すべてのグラフ操作を提供する C++ API を提供します。この API に基づいて、ディープラーニング フレームワークに基づくグラフ操作演算子を簡単に追加し、Euler C++ インターフェイスを使用して基盤となるグラフ エンジンの機能にアクセスできるようになります。 Alibaba の X-DeepLearning や人気の TensorFlow など、広く使用されているディープラーニング フレームワークをサポートしています。将来的には、PyTorch などの他のディープラーニング フレームワークのサポートも検討する予定です。

柔軟なグラフ演算演算子を使用することで、機械学習フレームワークは各ミニバッチでオイラーと対話し、トレーニング サンプルを動的に拡張および整理できます。このように、オイラーは従来のグラフ中心の学習モデルをサポートするだけでなく、従来の学習タスクにグラフ学習機能を注入してエンドツーエンドのトレーニングを実現することもできます。

機能分類によると、コアシステムで提供される API は次のように分類できます。

  • 重みを使用してポイントとエッジをグローバルにサンプリングする機能。主にミニバッチサンプルのランダム生成とネガティブサンプリングに使用されます。

  • 特定のノードに基づく近隣操作。これは、近傍の加重サンプリングや、最も重み付けされた近傍の取得など、グラフ コンピューティングのコア機能です。

  • 頂点/エッジ属性の検索。この機能により、アルゴリズムは頂点/エッジ ID 機能だけでなく、より豊富な機能を使用できるようになります。

2.3 高レベルアルゴリズムの実装

セクション 1.2 で述べたように、LINE アルゴリズムを除いて、実装したアルゴリズムはランダム ウォークと近傍集約の 2 つのカテゴリに分けられます。外部アルゴリズムの詳細については、セクション 1.2 に記載されている論文リンクを参照してください。以下では、3 つの革新的なアルゴリズムを詳しく紹介し、github 上の関連論文へのリンクを提供します。

  • スケーラブル-GCN

これは効率的な GCN トレーニング アルゴリズムです。 GCN およびより一般的なグラフ ニューラル ネットワーク (GNN) 方式は、グラフ構造情報を効果的に抽出できるため、多くのタスクで以前の方法よりも優れた結果を達成しています。しかし、GCN モデルでは膨大な量の計算が必要になるため、モデルのトレーニングに許容できない時間が発生します。 Scalable-GCN は、優れた結果を確保しながら、ミニバッチ GCN の計算の複雑さをレイヤー数の指数関数から線形関数に削減します。これにより、Alibaba Mamaの膨大なデータに3層GCNを適用することが可能となり、広告マッチングの効果が大幅に向上します。

  • LqCy

LsHNE は、Alibaba Mama 検索広告シナリオに基づいて私たちが提案した革新的な教師なし大規模異種ネットワーク埋め込み学習方法です。 DeepWalk アルゴリズムとは異なり、LsHNE には次の機能があります。a) ディープ ニューラル ネットワーク学習表現を使用して、属性情報を効果的に統合します。b) 埋め込み表現の距離に敏感な要件を考慮し、分布一貫性原理と弱相関原理という 2 つの負のサンプリング原理を提案します。c) 異種ネットワークをサポートします。

  • ラスGNN

LasGNN は、半教師ありの大規模異種グラフ畳み込みニューラル ネットワーク学習法です。グラフ構造の知識情報と大量のユーザー行動情報を効果的に統合し、モデルの精度を大幅に向上させます。これは、産業広告のシナリオにおける半教師ありグラフ手法の初めての応用です。この手法には、メタパスの考え方をグラフ畳み込みネットワークに適用し、異種ネットワークの畳み込み問題を効果的に解決するメタパスGCNモデルを提案するなど、多くの革新があります。また、効率的な近傍サンプリング法を設計して大規模な多層近傍畳み込みを可能にするメタパスSAGEモデルを提案しています。

3. 応用例

Euler プラットフォームは、Alimama 検索広告のさまざまなシナリオで広く使用されており、検索マッチング シナリオ、CTR 推定シナリオ、マーケティング ツール シナリオ、不正防止シナリオなど、優れたビジネス成果を達成しています。マッチングのシナリオを例に、オイラーの応用を見てみましょう。

広告マッチングのタスクは、ユーザーの検索リクエストが与えられると、マッチング モジュールがユーザーの意図を理解し、大量の広告の中から高品質で小規模な候補広告セットを迅速かつ正確に見つけ、下流のソート モジュールに送信してソートすることです。

まず、従来のマイニング アルゴリズムを使用して、ユーザー行動ログやコンテンツ属性などのディメンションから、Query (クエリ用語)、Item (製品)、Ad (広告) 間のさまざまな関係をマイニングします。次に、Euler プラットフォームの LsHNE メソッドを使用して、グラフ内のノードの埋め込みを学習します。ここで、埋め込み後のノードの空間距離は、元のグラフ内の関係を表します。オンライン リクエストの場合、ユーザーのクエリ用語ベクトル、以前の行動のノード ベクトル、および広告ノード ベクトル間の距離を計算して、効率的なベクトル化された最近傍検索を実行し、ユーザーの意図を満たす広告をすばやく一致させることができます。図 2 は、LsHNE メソッドのオフライン プロセスとオンライン プロセスを示しています。具体的には、図 3 にサンプルの構築とネットワーク構造を示します。

図2 DeepMatchリコールフレームワーク

図3 オフライントレーニングプロセス

<<:  世界的な「AI+教育」の波が到来、第3回AIAEDグローバルAIインテリジェントアダプティブ教育サミットのハイライトは「ネタバレ」

>>:  マイクロソフトのハリー・シャムがGitHub、データの信念、そしてコンピューティングの未来について語る

ブログ    

推薦する

美術系の学生は皆AIを崇拝しており、写真はすぐに絵画に描ける

ピエロの写真を入力するだけです。このプログラムは、油絵の肖像画を一筆一筆描いていく画家のようなもので...

エッジコンピューティングは産業界でどのような用途に使われていますか?

エッジ コンピューティングは、モバイル コンピューティングとモノのインターネット (IoT) テクノ...

機械学習プロジェクトを管理および組織化する方法

この記事では主に、機械学習プロジェクトの編成と管理に関する実践的な経験をいくつか紹介します。パイソン...

AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革

AI、IoT、ブロックチェーン、AR、VR、クラウドコンピューティング技術が建設業界に新たな形をもた...

自己回帰デコードが64倍高速化、Googleが新たな画像合成モデルMaskGITを提案

生成トランスフォーマーは、高忠実度かつ高解像度の画像を合成するために急速に人気を集めています。しかし...

AI消費動向予測について

インターネット データ センターの最新の消費者ガイド分析によると、2021 年から 2025 年の期...

自動運転が何千もの家庭に普及するまでにどれくらいの時間がかかるのでしょうか?

2019年9月に百度、海亮科技、センスタイムなどの企業が世界初の自動運転車の商用ライセンスを取得し...

内部テスト中です! Word、Excel、Outlookに機械学習が搭載される

マイクロソフトは、機械学習を使用して人々がより効率的に仕事を遂行できるよう支援する、多数の新機能を ...

...

再帰アルゴリズムの深い理解、誤解された再帰

[[333118]]再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムで...

アップルはiOS 18でクラウドやデバイスを含む生成AI機能を導入したと言われている。

海通国際証券のアナリスト、ジェフ・プー氏は本日、 Appleが早ければ2024年末にもiPhoneと...

...

...

大規模言語モデル評価における信頼性の低いデータに注意: Flan-T5 に基づくプロンプト選択のケーススタディ

翻訳者|朱 仙中レビュー | Chonglou導入信頼性の高いモデル評価はMLOP と LLMop ...