あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

[[261420]]

ビッグデータダイジェスト制作

出典: MITテクノロジーレビュー

編集者: stats bear

国内外を問わず、プライバシー保護に対する国民の意識は高まっています。

特に医療データの場合、ほとんどの患者が診断結果などの個人情報を開示することを望まないため、病気の診断や探索における機械学習の可能性は大きく抑制されています。

2017 年、Google は機械学習への新しいアプローチに関するブログ記事をひっそりと公開しました。

データを一元管理する必要のある従来の方法とは異なり、新しい方法では、学習のために複数のデータソースからデータを取得します。この新しい方法の登場により、Google は、テキスト メッセージを読んだり転送したりすることなく、Android スマートフォンのユーザーが送受信するテキスト メッセージで使用される予測意味モデルをトレーニングできるようになりました。

これはプライバシーを保護できるあまり知られていないトレーニング方法です。

各病院からデータを出さずに全体のモデルトレーニングを完了することができ、精度は複数の病院のデータを統合してトレーニングしたモデルと同等です。

この連合学習アプローチは巧妙なものであったが、研究者らが指摘したように、当時は AI 界ではあまり支持されなかった。現在、この状況は、まったく新しい分野での応用が見出され、変わりつつあります。このプライバシー重視のアプローチは、医療における AI の障壁に対処するための強力な刺激となるでしょう。

MIT のコンピューターサイエンスの准教授である Ramesh Raskar 氏はかつてこう言っています。「患者データのプライバシーと社会に対するデータの有用性の間には誤った二分法があります。現在ではプライバシーと有用性の両方を同時に実現でき、データは私たちの足元の砂のようなもので、人々はそれに気付きさえしません。」

過去 10 年間で、ディープラーニングの急速な台頭により、多くの企業に変化がもたらされました。この増加により、自動運転車の開発が促進され、デバイスとのやり取りの方法が根本的に変えられ、サイバーセキュリティにおける新たな発明が生まれています。医療分野では、ディープラーニングが病気の検出や診断に有効であることを示す研究が数多くあるにもかかわらず、機械学習を実際の患者に役立てる進歩は遅れています。

[[261421]]

今日の一般的なアルゴリズムは、学習に大量のデータを必要とします。ほとんどの場合、アルゴリズムのデータが多いほど、結果は良くなります。病院や研究機関が大規模かつ多様なデータ リソース プールを必要とする場合は、データをまとめて保存する必要があります。

特に米国と英国では、機密性の高い医療情報がテクノロジー大手の手に集中管理されていることが、極めて不評で、驚くべきことではないことが繰り返し証明されている。

したがって、診断研究に人工知能を適用する範囲と適用可能性は非常に狭くなります。乳がん検出モデルは、同じ病院の数千人の患者でしか検証されていないため、世界中に展開することはできません。

これらはすべて、連合学習を通じて変化します。この技術により、病院の環境を離れたり、テクノロジー企業のサーバーにアクセスしたりすることなく、複数の異なる病院のデータを利用することができます。

具体的な操作方法

[[261422]]

これはどのように行われるのでしょうか? まず、さまざまな病院が独自のデータを使用してさまざまなモデルをトレーニングし、次にこれらのモデルを中央プロセッサに送信して、完璧なモデルに統合します。

各病院が継続的にデータを取得すると、新しく優れたモデルが病院側にダウンロードされ、新しいデータがインポートされて中央サーバーにプッシュバックされます。このような手順では、新しいデータは交換されず、モデルのみが交換されるため、データが逆に公開されることはありません。

フェデレーテッドラーニングの課題

もちろん、このような共同学習には依然として多くの課題が残っています。たとえば、複数の独立したモデルを 1 つの完璧なモデルに組み合わせると、個々のモデルを単独で使用した場合よりも大きなリスクが生じます。ラスカー氏は、研究者らはこの種の問題が二度と起こらないように既存の技術の改善に取り組んでいると述べた。

[[261423]]

もう 1 つの課題は、フェデレーテッド ラーニングでは、各病院が機械学習モデルをトレーニングするためのインフラストラクチャと基本的な機能を備えている必要があることです。同時に、病院全体から収集されたデータをどのように標準化するかも大きな障害となっています。しかし、ラスカール氏が言うように、「まだやるべきことはたくさんあるが、ほとんどは応急処置にすぎない」ので、乗り越えられない障害はない。

その他のプライバシー重視の機械学習

実際、プライバシーを最優先する他の分散学習技術では、すでにこれらの問題に対処できます。たとえば、ラスカー氏と彼の学生たちは最近、解離学習を開発しました。連合学習では、各病院は独立したモデルのトレーニングから始めますが、トレーニングは途中までしか行われません。これらの半完成モデルは、中央サーバーに送信され、統合およびトレーニングされます。

これにより、一部の病院では独自の計算にかかる負担を軽減できるというメリットがあります。この技術はまだ概念実証の段階にあるが、これまでの実験により、ラスカールの研究チームは、中央データプールでトレーニングすればほぼ完璧なモデルが形成されることを証明した。

IBM Research を含む少数の企業が、ヘルスケア分野の実際の AI アプリケーションにフェデレーテッド ラーニングを導入しています。パリを拠点とするオウキン氏は、グーグルの投資会社の協力を得て、連合学習を適用し、患者の薬剤耐性や治療耐性を予測するとともに、特定の病気に対する生存率も調べ始めた。

同社はまた、米国や欧州のがん研究センターのデータを活用し、モデル研究を行っている。同社の創設者らは、患者の病理マップに基づいて希少がんの生存率を予測できるモデルに関するこの共同研究の成果が、近々発表される研究論文に掲載される予定であると述べた。

「とても興奮しています」と、オーキンの共同創設者で臨床研究医のトーマス・クロゼル氏は言う。「現在、腫瘍学における最大の障壁は知識です。私たちはその知識を解き放ち、医療分野に革新をもたらすことができることにとても興奮しています。」

ラスカー氏は、分散学習におけるこれらのアプリケーションは医療の領域をはるかに超えて、特に人々がデータを共有したくない分野にまで拡大すると考えています。最後に彼はこう結論づけた。「分散化された信頼のない環境では、この種の学習方法は非常に非常に役立つだろう。」

カレン・ハオは、MITテクノロジーレビューの人工知能記者です。特に、彼女の取材範囲は、テクノロジーの倫理的、社会的影響と、その社会への応用です。

関連レポート:

https://www.technologyreview.com/s/613098/a-little-known-ai-method-can-train-on-your-health-data-without-threatening-your-privacy/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  私の国の人工知能の医療応用シナリオは非常に人気があり、既存の実践では依然として3つのボトルネックを突破する必要があります。

>>:  フォーブスの分析:深刻な問題により自動運転技術は「寒い冬」を迎える可能性がある

ブログ    
ブログ    
ブログ    

推薦する

...

人工知能の進歩:ロボットの台頭

人工知能の革新により、よりスマートなロボットが開発されました。ロボットはコンピューターによってプログ...

最新のClaude2.1とLlama 2をご利用いただけます。アマゾンが生成型AI開発の参入障壁を下げる

良いニュースです。生成 AI アプリケーションの敷居が大幅に下がりました。先ほど、Amazon We...

Text2Image: NLP への新しいアプローチ

コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えら...

看護師の負担を軽減し、病院の効率化を実現します!医療物流ロボットが「新たな人気」に

[[399194]]ロボット産業は、我が国のインテリジェント製造業の発展における重要なリンクであり、...

AI向けに構築されたコンピューターに最適なアクセサリと外部コンポーネント

[[435844]]人工知能用に構築されたコンピュータ システムに最適なアクセサリとコンポーネントは...

ライフル銃で動くロボット犬の発明者が恐怖を巻き起こす:プログラミング制御は恐れる必要はない

[[429985]]先週、米国陸軍協会(AUSA)の会議がワシントンで開催されました。アメリカのロボ...

...

...

...

クラウド コンピューティングを超えて考える: インテリジェント エッジはコンピューティングと AI の未来です

インテリジェント エッジは、スマート デバイスとモノのインターネットをデータ収集ポイントから、組織に...

2021年、多くのAI企業が株式公開に向けて競争を始めました。どの企業がより有望だと思いますか?

[[382172]]人工知能企業が株式を公開すると、株主は成長の配当を分け合えるようになるのでしょ...

完全なルーティングアルゴリズムの設計目標の分析

ルーティング アルゴリズムには通常、次の 1 つ以上の設計目標があります。最適化:最適化とは、メトリ...

なぜ2G/3GとAIは火花を散らすことができないのでしょうか?この論文で答えが分かります

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...