シンガポール国立大学と清華大学は、決定木向けに特別に設計され、高速かつ安全な新しい連合学習システムを共同で提案した。

シンガポール国立大学と清華大学は、決定木向けに特別に設計され、高速かつ安全な新しい連合学習システムを共同で提案した。

フェデレーテッド ラーニングは機械学習において非常に注目されている分野であり、複数の当事者がデータを転送せずに共同でモデルをトレーニングすることを指します。フェデレーテッドラーニングの発展に伴い、FATE、FedML、PaddleFL、TensorFlow-Federated などのフェデレーテッドラーニングシステムが次々と登場しています。ただし、ほとんどの連合学習システムは、ツリー モデルの連合学習トレーニングをサポートしていません。ニューラル ネットワークと比較すると、ツリー モデルはトレーニングが速く、解釈性が高く、表形式のデータに適しています。ツリーモデルは、広告の推奨、株価予測など、金融、医療、インターネットなどの分野で幅広い応用シナリオを持っています。

決定木の代表的なモデルは、勾配ブースティング決定木 (GBDT) です。単一のツリーの予測能力には限界があるため、GBDT はブースティング法を使用して複数のツリーを連続してトレーニングし、各ツリーを使用して現在の予測値とラベル値の残差を適合させることで、最終的に良好な予測効果を実現します。代表的な GBDT システムには、XGBoost、LightGBM、CatBoost、ThunderGBM などがあります。XGBoost は、KDD カップの優勝チームによって何度も使用されています。ただし、これらのシステムはいずれも、フェデレーテッド ラーニング シナリオでの GBDT トレーニングをサポートしていません。最近、シンガポール国立大学と清華大学の研究者らは、ツリーモデルのトレーニングに重点を置いた新しい連合学習システム「FedTree」を提案した。

  • 論文アドレス: https://github.com/Xtra-Computing/FedTree/blob/main/FedTree_draft_paper.pdf
  • プロジェクトアドレス: https://github.com/Xtra-Computing/FedTree

FedTree システムの概要FedTree のアーキテクチャ図を図 1 に示します。インターフェイス、環境、フレームワーク、プライバシー保護、モデルの 5 つのモジュールがあります。

図1: FedTreeシステムアーキテクチャ

インターフェース: FedTree は、コマンド ライン インターフェースと Python インターフェースの 2 つのインターフェースをサポートしています。ユーザーはパラメータ(参加者数、フェデレーション シナリオなど)を指定するだけで、1 行のコマンドで FedTree をトレーニング用に実行できます。 FedTree の Python インターフェースは scikit-learn と互換性があり、トレーニングと予測のために fit() と predict() を呼び出すことができます。

環境: FedTree は、単一のマシン上でのフェデレーテッド ラーニングのシミュレーション展開と、複数のマシン上での分散フェデレーテッド ラーニングの展開をサポートします。スタンドアロン環境では、FedTree はデータを複数のサブデータセットに分割し、各サブデータセットを参加者としてトレーニングすることをサポートします。マルチマシン環境では、FedTree は各マシンを参加者としてサポートし、マシンは gRPC を介して相互に通信します。同時に、FedTree は CPU に加えて、トレーニングを高速化するために GPU の使用をサポートしています。

フレームワーク: FedTree は、水平および垂直の連合学習シナリオの両方で GBDT トレーニングをサポートします。水平シナリオでは、参加者ごとに異なるトレーニング サンプルと同じ特徴空間が存在します。縦断的シナリオでは、参加者ごとに特徴空間が異なり、トレーニング サンプルは同じです。パフォーマンスを確保するために、どちらのシナリオでも、複数の当事者が共同で各ノードのトレーニングに参加します。さらに、FedTree は、参加者がツリーを並行してトレーニングし、それらを集約して参加者間の通信オーバーヘッドを削減するアンサンブル学習もサポートしています。

プライバシー: トレーニング中に渡される勾配によってトレーニング データに関する情報が漏洩する可能性があるため、FedTree は準同型暗号化 (HE) やセキュア集約 (SA) など、勾配情報をさらに保護するためのさまざまなプライバシー保護方法を提供します。同時に、FedTree は最終的にトレーニングされたモデルを保護するために差分プライバシーを提供します。

モデル: ツリーのトレーニングに基づいて、FedTree はブースティング/バギング手法による GBDT/ランダム フォレストのトレーニングをサポートします。異なる損失関数を設定することにより、FedTree によってトレーニングされたモデルは、分類や回帰を含む複数のタスクをサポートします。

実験表 1 は、a9a、breast、credit におけるさまざまなシステムの AUC と abalone における RMSE をまとめたものです。FedTree のモデル効果は、すべてのデータでトレーニングされた GBDT (XGBoost、ThunderGBM) および FATE の SecureBoost (SBT) の効果とほぼ同じです。さらに、プライバシー保護戦略 SA と HE はモデルのパフォーマンスに影響を与えません。

表1: 異なるシステムのモデル効果の比較

表 2 は、さまざまなシステムにおける各ツリーのトレーニング時間 (秒単位) をまとめたものです。FedTree は FATE よりもはるかに高速であり、水平連合学習シナリオでは 100 倍以上の高速化率を達成できることがわかります。

表2: 異なるシステムにおけるツリーあたりのトレーニング時間の比較

研究の詳細については、FedTree のオリジナルの論文を参照してください。

<<:  DeepMind の最新研究: AI が人間に勝ち、より優れた経済メカニズムを設計 | Nature サブジャーナル

>>:  時代遅れのリソグラフィー機械は中国に販売できません!米国がオランダのASMLに不当な圧力をかけ、国産チップが再び抑制される

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2020年の情報セキュリティ:人工知能(AI)はさまざまな情報セキュリティシステムで広く利用されている

マーク・カネル、イマジネーション・テクノロジーズ、 戦略およびセキュリティ担当副社長[[281448...

VRの悪夢にさよならしましょう! Meta Reality Labs は仮想世界の問題点を解決し、新しい VR の世界を再構築します

「世の中には2種類の人がいます。VRが世界を変えると考える人と、まだVRを試したことがない人です。」...

年齢を測るAI顔認識

Instagramは、顔をスキャンして年齢を推定できるサードパーティ企業Yotiが開発したAIツール...

法律教育ロボット「ダニウ」が潼南で任務に就き、一般市民に無料の法律サービスを提供

[[373347]]最近、法律相談ロボット「ダニウ」が潼南区公共サービス法律センターで正式に運用され...

AIが医療をどう変えるか リアルタイムのデータ分析は医療にとって重要

科学者たちは、人工知能が多くの分野で人間を日常的な作業から解放できると信じています。ヘルスケアはこう...

5分間の技術講演 | GPU仮想化に関する簡単な講演

パート01 背景1.1 GPU アプリケーションのシナリオGPU (グラフィックス プロセッシング ...

初心者のための CNN と Keras のクイックガイド

[[201203]] 1. Keras を使用する理由ディープラーニングが大人気の昨今、サードパーテ...

プレミアリーグの試合にファンを呼び戻すために AI は何ができるでしょうか?

COVID-19の影はまだ消えていないが、今年のプレミアリーグの試合の最初の週末は珍しい「好天」を...

予測: 2019 年に爆発的に普及する 10 の人工知能テクノロジー!

1. 自然言語生成自然言語生成は、データをテキストに変換し、コンピューターがこれまでにない精度でア...

AIと自動化でコンプライアンスコストを削減する5つの方法

規制は消費者と市場を保護するために設けられていますが、多くの場合、規制は複雑であり、遵守にはコストが...

...

ペアデータなしで学習!浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

マルチモーダル対照表現 (MCR) の目標は、異なるモダリティからの入力を意味的に整合された共有空間...

ベンジオ、ヒントン、張亜琴らAI界の巨人たちが新たな共同書簡を発表! AIは危険すぎるので、再配置する必要がある

AI リスク管理は、AI 大手企業によって再び議題に挙げられています。ちょうど今、ベンジオ、ヒントン...

米空軍、戦闘機で人工知能をテスト

人工知能は戦闘機を効果的に操縦できるのか?米空軍は、コードネームXQ-58ヴァルキリーという実験機で...