あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

[[261420]]

ビッグデータダイジェスト制作

出典: MITテクノロジーレビュー

編集者: stats bear

国内外を問わず、プライバシー保護に対する国民の意識は高まっています。

特に医療データの場合、ほとんどの患者が診断結果などの個人情報を開示することを望まないため、病気の診断や探索における機械学習の可能性は大きく抑制されています。

2017 年、Google は機械学習への新しいアプローチに関するブログ記事をひっそりと公開しました。

データを一元管理する必要のある従来の方法とは異なり、新しい方法では、学習のために複数のデータソースからデータを取得します。この新しい方法の登場により、Google は、テキスト メッセージを読んだり転送したりすることなく、Android スマートフォンのユーザーが送受信するテキスト メッセージで使用される予測意味モデルをトレーニングできるようになりました。

これはプライバシーを保護できるあまり知られていないトレーニング方法です。

各病院からデータを出さずに全体のモデルトレーニングを完了することができ、精度は複数の病院のデータを統合してトレーニングしたモデルと同等です。

この連合学習アプローチは巧妙なものであったが、研究者らが指摘したように、当時は AI 界ではあまり支持されなかった。現在、この状況は、まったく新しい分野での応用が見出され、変わりつつあります。このプライバシー重視のアプローチは、医療における AI の障壁に対処するための強力な刺激となるでしょう。

MIT のコンピューターサイエンスの准教授である Ramesh Raskar 氏はかつてこう言っています。「患者データのプライバシーと社会に対するデータの有用性の間には誤った二分法があります。現在ではプライバシーと有用性の両方を同時に実現でき、データは私たちの足元の砂のようなもので、人々はそれに気付きさえしません。」

過去 10 年間で、ディープラーニングの急速な台頭により、多くの企業に変化がもたらされました。この増加により、自動運転車の開発が促進され、デバイスとのやり取りの方法が根本的に変えられ、サイバーセキュリティにおける新たな発明が生まれています。医療分野では、ディープラーニングが病気の検出や診断に有効であることを示す研究が数多くあるにもかかわらず、機械学習を実際の患者に役立てる進歩は遅れています。

[[261421]]

今日の一般的なアルゴリズムは、学習に大量のデータを必要とします。ほとんどの場合、アルゴリズムのデータが多いほど、結果は良くなります。病院や研究機関が大規模かつ多様なデータ リソース プールを必要とする場合は、データをまとめて保存する必要があります。

特に米国と英国では、機密性の高い医療情報がテクノロジー大手の手に集中管理されていることが、極めて不評で、驚くべきことではないことが繰り返し証明されている。

したがって、診断研究に人工知能を適用する範囲と適用可能性は非常に狭くなります。乳がん検出モデルは、同じ病院の数千人の患者でしか検証されていないため、世界中に展開することはできません。

これらはすべて、連合学習を通じて変化します。この技術により、病院の環境を離れたり、テクノロジー企業のサーバーにアクセスしたりすることなく、複数の異なる病院のデータを利用することができます。

具体的な操作方法

[[261422]]

これはどのように行われるのでしょうか? まず、さまざまな病院が独自のデータを使用してさまざまなモデルをトレーニングし、次にこれらのモデルを中央プロセッサに送信して、完璧なモデルに統合します。

各病院が継続的にデータを取得すると、新しく優れたモデルが病院側にダウンロードされ、新しいデータがインポートされて中央サーバーにプッシュバックされます。このような手順では、新しいデータは交換されず、モデルのみが交換されるため、データが逆に公開されることはありません。

フェデレーテッドラーニングの課題

もちろん、このような共同学習には依然として多くの課題が残っています。たとえば、複数の独立したモデルを 1 つの完璧なモデルに組み合わせると、個々のモデルを単独で使用した場合よりも大きなリスクが生じます。ラスカー氏は、研究者らはこの種の問題が二度と起こらないように既存の技術の改善に取り組んでいると述べた。

[[261423]]

もう 1 つの課題は、フェデレーテッド ラーニングでは、各病院が機械学習モデルをトレーニングするためのインフラストラクチャと基本的な機能を備えている必要があることです。同時に、病院全体から収集されたデータをどのように標準化するかも大きな障害となっています。しかし、ラスカール氏が言うように、「まだやるべきことはたくさんあるが、ほとんどは応急処置にすぎない」ので、乗り越えられない障害はない。

その他のプライバシー重視の機械学習

実際、プライバシーを最優先する他の分散学習技術では、すでにこれらの問題に対処できます。たとえば、ラスカー氏と彼の学生たちは最近、解離学習を開発しました。連合学習では、各病院は独立したモデルのトレーニングから始めますが、トレーニングは途中までしか行われません。これらの半完成モデルは、中央サーバーに送信され、統合およびトレーニングされます。

これにより、一部の病院では独自の計算にかかる負担を軽減できるというメリットがあります。この技術はまだ概念実証の段階にあるが、これまでの実験により、ラスカールの研究チームは、中央データプールでトレーニングすればほぼ完璧なモデルが形成されることを証明した。

IBM Research を含む少数の企業が、ヘルスケア分野の実際の AI アプリケーションにフェデレーテッド ラーニングを導入しています。パリを拠点とするオウキン氏は、グーグルの投資会社の協力を得て、連合学習を適用し、患者の薬剤耐性や治療耐性を予測するとともに、特定の病気に対する生存率も調べ始めた。

同社はまた、米国や欧州のがん研究センターのデータを活用し、モデル研究を行っている。同社の創設者らは、患者の病理マップに基づいて希少がんの生存率を予測できるモデルに関するこの共同研究の成果が、近々発表される研究論文に掲載される予定であると述べた。

「とても興奮しています」と、オーキンの共同創設者で臨床研究医のトーマス・クロゼル氏は言う。「現在、腫瘍学における最大の障壁は知識です。私たちはその知識を解き放ち、医療分野に革新をもたらすことができることにとても興奮しています。」

ラスカー氏は、分散学習におけるこれらのアプリケーションは医療の領域をはるかに超えて、特に人々がデータを共有したくない分野にまで拡大すると考えています。最後に彼はこう結論づけた。「分散化された信頼のない環境では、この種の学習方法は非常に非常に役立つだろう。」

カレン・ハオは、MITテクノロジーレビューの人工知能記者です。特に、彼女の取材範囲は、テクノロジーの倫理的、社会的影響と、その社会への応用です。

関連レポート:

https://www.technologyreview.com/s/613098/a-little-known-ai-method-can-train-on-your-health-data-without-threatening-your-privacy/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  私の国の人工知能の医療応用シナリオは非常に人気があり、既存の実践では依然として3つのボトルネックを突破する必要があります。

>>:  フォーブスの分析:深刻な問題により自動運転技術は「寒い冬」を迎える可能性がある

ブログ    

推薦する

CNN 推論エンジンを使用して IoT デバイスにディープラーニングを実装するにはどうすればよいですか?

[[212457]]ディープラーニング技術により、モノのインターネット (IoT) デバイスは非構...

AIトレーニングの福音: 合成データについて

今日、AI テクノロジーは克服するのが難しいいくつかの主要な課題に直面しています。正確な結果を提供す...

15歳の少女が農場の収穫機にヒントを得てピンポン球を拾うロボットを発明

最近、上海の15歳の中学生が卓球ボールを拾うロボットを発明した。体育館の床に散らばった卓球ボールを自...

...

中国初!最も人気のあるMoE大型モデルアプリがここにあります。無料でダウンロードでき、誰でもプレイできます。

MoE(Mixed of Experts)モデルは最近とても人気があるので、詳しく紹介する必要はな...

Facebook、MITなどが研究論文を発表:ディープラーニングの実際の仕組みを説明する理論

Facebook、プリンストン大学、MITのAI研究者らは最近、「ディープラーニング理論の原理:ニュ...

AIopsにおける人工知能

組織にとって、機械学習 (ML)、自動化、人工知能 (AI) 機能を備えたテクノロジー プラットフォ...

ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習トランスフォーマーアーキテクチャの謎を解く

翻訳者|朱 仙中レビュー | Chonglou Transformers は 2017 年の発売以来...

ディープラーニングが従来の方法ほど効果的ではない典型的な事例にはどのようなものがありますか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...

OpenAIは、かつてAGIロボットの開発に取り組んだロボット工学チームを解散。創設者:最良の決断

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

銀行は人工知能を導入し、スマートな顧客サービス以上のものを提供している

[[433578]]最近、ある有名なメディア関係者が銀行からカスタマーサービスに電話を受け、しばらく...