フェデレーテッド ラーニングは機械学習において非常に注目されている分野であり、複数の当事者がデータを転送せずに共同でモデルをトレーニングすることを指します。フェデレーテッドラーニングの発展に伴い、FATE、FedML、PaddleFL、TensorFlow-Federated などのフェデレーテッドラーニングシステムが次々と登場しています。ただし、ほとんどの連合学習システムは、ツリー モデルの連合学習トレーニングをサポートしていません。ニューラル ネットワークと比較すると、ツリー モデルはトレーニングが速く、解釈性が高く、表形式のデータに適しています。ツリーモデルは、広告の推奨、株価予測など、金融、医療、インターネットなどの分野で幅広い応用シナリオを持っています。 決定木の代表的なモデルは、勾配ブースティング決定木 (GBDT) です。単一のツリーの予測能力には限界があるため、GBDT はブースティング法を使用して複数のツリーを連続してトレーニングし、各ツリーを使用して現在の予測値とラベル値の残差を適合させることで、最終的に良好な予測効果を実現します。代表的な GBDT システムには、XGBoost、LightGBM、CatBoost、ThunderGBM などがあります。XGBoost は、KDD カップの優勝チームによって何度も使用されています。ただし、これらのシステムはいずれも、フェデレーテッド ラーニング シナリオでの GBDT トレーニングをサポートしていません。最近、シンガポール国立大学と清華大学の研究者らは、ツリーモデルのトレーニングに重点を置いた新しい連合学習システム「FedTree」を提案した。
FedTree システムの概要FedTree のアーキテクチャ図を図 1 に示します。インターフェイス、環境、フレームワーク、プライバシー保護、モデルの 5 つのモジュールがあります。 図1: FedTreeシステムアーキテクチャ インターフェース: FedTree は、コマンド ライン インターフェースと Python インターフェースの 2 つのインターフェースをサポートしています。ユーザーはパラメータ(参加者数、フェデレーション シナリオなど)を指定するだけで、1 行のコマンドで FedTree をトレーニング用に実行できます。 FedTree の Python インターフェースは scikit-learn と互換性があり、トレーニングと予測のために fit() と predict() を呼び出すことができます。 環境: FedTree は、単一のマシン上でのフェデレーテッド ラーニングのシミュレーション展開と、複数のマシン上での分散フェデレーテッド ラーニングの展開をサポートします。スタンドアロン環境では、FedTree はデータを複数のサブデータセットに分割し、各サブデータセットを参加者としてトレーニングすることをサポートします。マルチマシン環境では、FedTree は各マシンを参加者としてサポートし、マシンは gRPC を介して相互に通信します。同時に、FedTree は CPU に加えて、トレーニングを高速化するために GPU の使用をサポートしています。 フレームワーク: FedTree は、水平および垂直の連合学習シナリオの両方で GBDT トレーニングをサポートします。水平シナリオでは、参加者ごとに異なるトレーニング サンプルと同じ特徴空間が存在します。縦断的シナリオでは、参加者ごとに特徴空間が異なり、トレーニング サンプルは同じです。パフォーマンスを確保するために、どちらのシナリオでも、複数の当事者が共同で各ノードのトレーニングに参加します。さらに、FedTree は、参加者がツリーを並行してトレーニングし、それらを集約して参加者間の通信オーバーヘッドを削減するアンサンブル学習もサポートしています。 プライバシー: トレーニング中に渡される勾配によってトレーニング データに関する情報が漏洩する可能性があるため、FedTree は準同型暗号化 (HE) やセキュア集約 (SA) など、勾配情報をさらに保護するためのさまざまなプライバシー保護方法を提供します。同時に、FedTree は最終的にトレーニングされたモデルを保護するために差分プライバシーを提供します。 モデル: ツリーのトレーニングに基づいて、FedTree はブースティング/バギング手法による GBDT/ランダム フォレストのトレーニングをサポートします。異なる損失関数を設定することにより、FedTree によってトレーニングされたモデルは、分類や回帰を含む複数のタスクをサポートします。 実験表 1 は、a9a、breast、credit におけるさまざまなシステムの AUC と abalone における RMSE をまとめたものです。FedTree のモデル効果は、すべてのデータでトレーニングされた GBDT (XGBoost、ThunderGBM) および FATE の SecureBoost (SBT) の効果とほぼ同じです。さらに、プライバシー保護戦略 SA と HE はモデルのパフォーマンスに影響を与えません。 表1: 異なるシステムのモデル効果の比較 表 2 は、さまざまなシステムにおける各ツリーのトレーニング時間 (秒単位) をまとめたものです。FedTree は FATE よりもはるかに高速であり、水平連合学習シナリオでは 100 倍以上の高速化率を達成できることがわかります。 表2: 異なるシステムにおけるツリーあたりのトレーニング時間の比較 研究の詳細については、FedTree のオリジナルの論文を参照してください。 |
<<: DeepMind の最新研究: AI が人間に勝ち、より優れた経済メカニズムを設計 | Nature サブジャーナル
>>: 時代遅れのリソグラフィー機械は中国に販売できません!米国がオランダのASMLに不当な圧力をかけ、国産チップが再び抑制される
マーク・カネル、イマジネーション・テクノロジーズ、 戦略およびセキュリティ担当副社長[[281448...
「世の中には2種類の人がいます。VRが世界を変えると考える人と、まだVRを試したことがない人です。」...
Instagramは、顔をスキャンして年齢を推定できるサードパーティ企業Yotiが開発したAIツール...
[[373347]]最近、法律相談ロボット「ダニウ」が潼南区公共サービス法律センターで正式に運用され...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
科学者たちは、人工知能が多くの分野で人間を日常的な作業から解放できると信じています。ヘルスケアはこう...
パート01 背景1.1 GPU アプリケーションのシナリオGPU (グラフィックス プロセッシング ...
[[201203]] 1. Keras を使用する理由ディープラーニングが大人気の昨今、サードパーテ...
COVID-19の影はまだ消えていないが、今年のプレミアリーグの試合の最初の週末は珍しい「好天」を...
1. 自然言語生成自然言語生成は、データをテキストに変換し、コンピューターがこれまでにない精度でア...
規制は消費者と市場を保護するために設けられていますが、多くの場合、規制は複雑であり、遵守にはコストが...
マルチモーダル対照表現 (MCR) の目標は、異なるモダリティからの入力を意味的に整合された共有空間...
AI リスク管理は、AI 大手企業によって再び議題に挙げられています。ちょうど今、ベンジオ、ヒントン...
人工知能は戦闘機を効果的に操縦できるのか?米空軍は、コードネームXQ-58ヴァルキリーという実験機で...