フェデレーテッド ラーニングは機械学習において非常に注目されている分野であり、複数の当事者がデータを転送せずに共同でモデルをトレーニングすることを指します。フェデレーテッドラーニングの発展に伴い、FATE、FedML、PaddleFL、TensorFlow-Federated などのフェデレーテッドラーニングシステムが次々と登場しています。ただし、ほとんどの連合学習システムは、ツリー モデルの連合学習トレーニングをサポートしていません。ニューラル ネットワークと比較すると、ツリー モデルはトレーニングが速く、解釈性が高く、表形式のデータに適しています。ツリーモデルは、広告の推奨、株価予測など、金融、医療、インターネットなどの分野で幅広い応用シナリオを持っています。 決定木の代表的なモデルは、勾配ブースティング決定木 (GBDT) です。単一のツリーの予測能力には限界があるため、GBDT はブースティング法を使用して複数のツリーを連続してトレーニングし、各ツリーを使用して現在の予測値とラベル値の残差を適合させることで、最終的に良好な予測効果を実現します。代表的な GBDT システムには、XGBoost、LightGBM、CatBoost、ThunderGBM などがあります。XGBoost は、KDD カップの優勝チームによって何度も使用されています。ただし、これらのシステムはいずれも、フェデレーテッド ラーニング シナリオでの GBDT トレーニングをサポートしていません。最近、シンガポール国立大学と清華大学の研究者らは、ツリーモデルのトレーニングに重点を置いた新しい連合学習システム「FedTree」を提案した。
FedTree システムの概要FedTree のアーキテクチャ図を図 1 に示します。インターフェイス、環境、フレームワーク、プライバシー保護、モデルの 5 つのモジュールがあります。 図1: FedTreeシステムアーキテクチャ インターフェース: FedTree は、コマンド ライン インターフェースと Python インターフェースの 2 つのインターフェースをサポートしています。ユーザーはパラメータ(参加者数、フェデレーション シナリオなど)を指定するだけで、1 行のコマンドで FedTree をトレーニング用に実行できます。 FedTree の Python インターフェースは scikit-learn と互換性があり、トレーニングと予測のために fit() と predict() を呼び出すことができます。 環境: FedTree は、単一のマシン上でのフェデレーテッド ラーニングのシミュレーション展開と、複数のマシン上での分散フェデレーテッド ラーニングの展開をサポートします。スタンドアロン環境では、FedTree はデータを複数のサブデータセットに分割し、各サブデータセットを参加者としてトレーニングすることをサポートします。マルチマシン環境では、FedTree は各マシンを参加者としてサポートし、マシンは gRPC を介して相互に通信します。同時に、FedTree は CPU に加えて、トレーニングを高速化するために GPU の使用をサポートしています。 フレームワーク: FedTree は、水平および垂直の連合学習シナリオの両方で GBDT トレーニングをサポートします。水平シナリオでは、参加者ごとに異なるトレーニング サンプルと同じ特徴空間が存在します。縦断的シナリオでは、参加者ごとに特徴空間が異なり、トレーニング サンプルは同じです。パフォーマンスを確保するために、どちらのシナリオでも、複数の当事者が共同で各ノードのトレーニングに参加します。さらに、FedTree は、参加者がツリーを並行してトレーニングし、それらを集約して参加者間の通信オーバーヘッドを削減するアンサンブル学習もサポートしています。 プライバシー: トレーニング中に渡される勾配によってトレーニング データに関する情報が漏洩する可能性があるため、FedTree は準同型暗号化 (HE) やセキュア集約 (SA) など、勾配情報をさらに保護するためのさまざまなプライバシー保護方法を提供します。同時に、FedTree は最終的にトレーニングされたモデルを保護するために差分プライバシーを提供します。 モデル: ツリーのトレーニングに基づいて、FedTree はブースティング/バギング手法による GBDT/ランダム フォレストのトレーニングをサポートします。異なる損失関数を設定することにより、FedTree によってトレーニングされたモデルは、分類や回帰を含む複数のタスクをサポートします。 実験表 1 は、a9a、breast、credit におけるさまざまなシステムの AUC と abalone における RMSE をまとめたものです。FedTree のモデル効果は、すべてのデータでトレーニングされた GBDT (XGBoost、ThunderGBM) および FATE の SecureBoost (SBT) の効果とほぼ同じです。さらに、プライバシー保護戦略 SA と HE はモデルのパフォーマンスに影響を与えません。 表1: 異なるシステムのモデル効果の比較 表 2 は、さまざまなシステムにおける各ツリーのトレーニング時間 (秒単位) をまとめたものです。FedTree は FATE よりもはるかに高速であり、水平連合学習シナリオでは 100 倍以上の高速化率を達成できることがわかります。 表2: 異なるシステムにおけるツリーあたりのトレーニング時間の比較 研究の詳細については、FedTree のオリジナルの論文を参照してください。 |
<<: DeepMind の最新研究: AI が人間に勝ち、より優れた経済メカニズムを設計 | Nature サブジャーナル
>>: 時代遅れのリソグラフィー機械は中国に販売できません!米国がオランダのASMLに不当な圧力をかけ、国産チップが再び抑制される
GenAI は、ユーザーが独自の方法でデータをクエリし、ニーズに合わせた回答を受け取ることができるイ...
俳優や声優(声優)の保護に取り組む日本俳優協会は6月14日、「生成型人工知能技術の活用に関する提言」...
ちょうど今日、Meta 社は商用 AI に注力するため、AI を使用して約 6 億個のタンパク質の折...
新年を迎え、皆様にお楽しみいただいている「まとめ記事」が今年も登場です! 2020年に人工知能が大き...
[[247844]]近年、FacebookやGoogleなどのインターネット大手は、ユーザーデータの...
SambaNova Systems が調査した企業の大多数は、2022 年までに AI を主要な収...
大規模モデルには、幻覚を生成するという致命的な問題が長い間存在していました。データセットの複雑さによ...
なぜこれほど多くの AI プロジェクトが失敗するのでしょうか。そして、ビジネス リーダーはどうすれば...
人工知能の時代が来るとよく言われます。20年後に私たちの子供たちが社会に出たとき、彼らはおそらくロボ...
[[401970]]メラニー・ベイリー博士は、工学・物理科学研究評議会 (EPSRC) の研究員です...
OpenAI深夜アップデート! 5 つの大きなモデルが一気に投げられました。新しい GPT-4 Tu...
AIインテリジェンスは近年急速に発展しており、技術の進歩をもたらす一方で、一部の業界にも影響を与え...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...