シンガポール国立大学と清華大学は、決定木向けに特別に設計され、高速かつ安全な新しい連合学習システムを共同で提案した。

シンガポール国立大学と清華大学は、決定木向けに特別に設計され、高速かつ安全な新しい連合学習システムを共同で提案した。

フェデレーテッド ラーニングは機械学習において非常に注目されている分野であり、複数の当事者がデータを転送せずに共同でモデルをトレーニングすることを指します。フェデレーテッドラーニングの発展に伴い、FATE、FedML、PaddleFL、TensorFlow-Federated などのフェデレーテッドラーニングシステムが次々と登場しています。ただし、ほとんどの連合学習システムは、ツリー モデルの連合学習トレーニングをサポートしていません。ニューラル ネットワークと比較すると、ツリー モデルはトレーニングが速く、解釈性が高く、表形式のデータに適しています。ツリーモデルは、広告の推奨、株価予測など、金融、医療、インターネットなどの分野で幅広い応用シナリオを持っています。

決定木の代表的なモデルは、勾配ブースティング決定木 (GBDT) です。単一のツリーの予測能力には限界があるため、GBDT はブースティング法を使用して複数のツリーを連続してトレーニングし、各ツリーを使用して現在の予測値とラベル値の残差を適合させることで、最終的に良好な予測効果を実現します。代表的な GBDT システムには、XGBoost、LightGBM、CatBoost、ThunderGBM などがあります。XGBoost は、KDD カップの優勝チームによって何度も使用されています。ただし、これらのシステムはいずれも、フェデレーテッド ラーニング シナリオでの GBDT トレーニングをサポートしていません。最近、シンガポール国立大学と清華大学の研究者らは、ツリーモデルのトレーニングに重点を置いた新しい連合学習システム「FedTree」を提案した。

  • 論文アドレス: https://github.com/Xtra-Computing/FedTree/blob/main/FedTree_draft_paper.pdf
  • プロジェクトアドレス: https://github.com/Xtra-Computing/FedTree

FedTree システムの概要FedTree のアーキテクチャ図を図 1 に示します。インターフェイス、環境、フレームワーク、プライバシー保護、モデルの 5 つのモジュールがあります。

図1: FedTreeシステムアーキテクチャ

インターフェース: FedTree は、コマンド ライン インターフェースと Python インターフェースの 2 つのインターフェースをサポートしています。ユーザーはパラメータ(参加者数、フェデレーション シナリオなど)を指定するだけで、1 行のコマンドで FedTree をトレーニング用に実行できます。 FedTree の Python インターフェースは scikit-learn と互換性があり、トレーニングと予測のために fit() と predict() を呼び出すことができます。

環境: FedTree は、単一のマシン上でのフェデレーテッド ラーニングのシミュレーション展開と、複数のマシン上での分散フェデレーテッド ラーニングの展開をサポートします。スタンドアロン環境では、FedTree はデータを複数のサブデータセットに分割し、各サブデータセットを参加者としてトレーニングすることをサポートします。マルチマシン環境では、FedTree は各マシンを参加者としてサポートし、マシンは gRPC を介して相互に通信します。同時に、FedTree は CPU に加えて、トレーニングを高速化するために GPU の使用をサポートしています。

フレームワーク: FedTree は、水平および垂直の連合学習シナリオの両方で GBDT トレーニングをサポートします。水平シナリオでは、参加者ごとに異なるトレーニング サンプルと同じ特徴空間が存在します。縦断的シナリオでは、参加者ごとに特徴空間が異なり、トレーニング サンプルは同じです。パフォーマンスを確保するために、どちらのシナリオでも、複数の当事者が共同で各ノードのトレーニングに参加します。さらに、FedTree は、参加者がツリーを並行してトレーニングし、それらを集約して参加者間の通信オーバーヘッドを削減するアンサンブル学習もサポートしています。

プライバシー: トレーニング中に渡される勾配によってトレーニング データに関する情報が漏洩する可能性があるため、FedTree は準同型暗号化 (HE) やセキュア集約 (SA) など、勾配情報をさらに保護するためのさまざまなプライバシー保護方法を提供します。同時に、FedTree は最終的にトレーニングされたモデルを保護するために差分プライバシーを提供します。

モデル: ツリーのトレーニングに基づいて、FedTree はブースティング/バギング手法による GBDT/ランダム フォレストのトレーニングをサポートします。異なる損失関数を設定することにより、FedTree によってトレーニングされたモデルは、分類や回帰を含む複数のタスクをサポートします。

実験表 1 は、a9a、breast、credit におけるさまざまなシステムの AUC と abalone における RMSE をまとめたものです。FedTree のモデル効果は、すべてのデータでトレーニングされた GBDT (XGBoost、ThunderGBM) および FATE の SecureBoost (SBT) の効果とほぼ同じです。さらに、プライバシー保護戦略 SA と HE はモデルのパフォーマンスに影響を与えません。

表1: 異なるシステムのモデル効果の比較

表 2 は、さまざまなシステムにおける各ツリーのトレーニング時間 (秒単位) をまとめたものです。FedTree は FATE よりもはるかに高速であり、水平連合学習シナリオでは 100 倍以上の高速化率を達成できることがわかります。

表2: 異なるシステムにおけるツリーあたりのトレーニング時間の比較

研究の詳細については、FedTree のオリジナルの論文を参照してください。

<<:  DeepMind の最新研究: AI が人間に勝ち、より優れた経済メカニズムを設計 | Nature サブジャーナル

>>:  時代遅れのリソグラフィー機械は中国に販売できません!米国がオランダのASMLに不当な圧力をかけ、国産チップが再び抑制される

ブログ    
ブログ    

推薦する

...

GenAIがより良い回答を提供するためのヒント

GenAI は、ユーザーが独自の方法でデータをクエリし、ニーズに合わせた回答を受け取ることができるイ...

...

日本俳優連合がAI法案を提案、「声の肖像権」創設求める

俳優や声優(声優)の保護に取り組む日本俳優協会は6月14日、「生成型人工知能技術の活用に関する提言」...

AlphaFold 2 の最強のライバルが自らを弱体化させます!メタ、12人チームを即刻解散

ちょうど今日、Meta 社は商用 AI に注力するため、AI を使用して約 6 億個のタンパク質の折...

2020年が到来。人工知能について知っておくべきこと

新年を迎え、皆様にお楽しみいただいている「まとめ記事」が今年も登場です! 2020年に人工知能が大き...

クック:人工知能が本当に知的であるためには、人間の価値観を尊重しなければならない

[[247844]]近年、FacebookやGoogleなどのインターネット大手は、ユーザーデータの...

企業の78%が2022年までにAIを主要な収益源と見なしている

SambaNova Systems が調査した企業の大多数は、2022 年までに AI を主要な収...

オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです

大規模モデルには、幻覚を生成するという致命的な問題が長い間存在していました。データセットの複雑さによ...

ビジネスリーダーが AI プロジェクトの失敗を回避する 3 つの方法

なぜこれほど多くの AI プロジェクトが失敗するのでしょうか。そして、ビジネス リーダーはどうすれば...

機械分野では人材不足が起きているのでしょうか?人工知能の時代はあなたが思っているよりもずっと早く来ています!

人工知能の時代が来るとよく言われます。20年後に私たちの子供たちが社会に出たとき、彼らはおそらくロボ...

新しい指紋技術でコカインの使用を検出できる

[[401970]]メラニー・ベイリー博士は、工学・物理科学研究評議会 (EPSRC) の研究員です...

GPT-4 はもう怠け者ではありません! OpenAI、5つの大型モデルを最大80%割引で販売

OpenAI深夜アップデート! 5 つの大きなモデルが一気に投げられました。新しい GPT-4 Tu...

これを読めば分かるでしょう。これらは人工知能によって排除されつつある主要な職業です。

AIインテリジェンスは近年急速に発展しており、技術の進歩をもたらす一方で、一部の業界にも影響を与え...

はるか先へ! BEVHeight++: 道路脇の視覚的な 3D オブジェクト検出のための新しいソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...