プライバシー保護を再構築するには、AIモデルに「あなたを忘れさせる」ことを早く行う必要がある

プライバシー保護を再構築するには、AIモデルに「あなたを忘れさせる」ことを早く行う必要がある

この時代において、プライバシーは長い間誤った主張となってきました。

プライバシー保護をある程度回復するための取り組みとして、欧州の一般データ保護規則や米国のカリフォルニア州消費者プライバシー法など、最近のいくつかの立法イニシアチブでは、個人情報の消去に関する規定が設けられています。ただし、トレーニング済みの AI モデルに「自分を忘れさせる」場合、従来の方法では、新しいデータを使用して最初から再トレーニングする必要があります。このプロセス全体には数週間かかる場合があり、コストもかなりかかります。

[[313564]]

最近発表された 2 つの論文 (1 つはスタンフォード大学、もう 1 つはトロント大学 (プレプ​​リント)) では、AI モデルからレコードを削除する効率的な方法が示されており、これにより膨大な量のエネルギーを節約し、コンプライアンスを確実に確保できると期待されています。 「企業間の実際の連携を簡素化し、実装の難しさがプライバシー規制違反の言い訳にならないようにするための新しいアルゴリズムが必要なようだ」と、スタンフォード大学のコンピューター科学者で最初の論文の共著者であるメロディ・グアン氏は述べた。

効率的なデータ削除に関する文献は非常に限られているため、スタンフォード大学の著者らはまず問題を明確に定義し、問題を軽減するのに役立つ 4 つの設計原則を提案しています。

  • 最初の原則は「線形性」です。単純な AI モデルでは、数値の加算と乗算のみを実行する必要があるため、いわゆる非線形数学関数の介入が回避され、ステップ分解がよりシンプルで実装が容易になります。

  • 2 つ目は「怠惰」の原則です。これは、予測が本当に必要な場合を除いて、計算操作を可能な限り延期するというものです。

  • 3 つ目は「モジュール性」です。可能であれば、分離可能な形式でモデルをトレーニングし、結果を組み合わせます。

  • 4 番目の項目は「量子化」です。つまり、平均値を特定の離散間隔内に固定できる限り、平均結果にほとんど影響を与えない値は削除されます。

スタンフォード大学の研究者たちは、これらの原則のうち 2 つを、k-means クラスタリングと呼ばれる機械学習アルゴリズムに適用しました。このアルゴリズムは、データ ポイントを自然なクラスターに分類するために使用されます。たとえば、密接に関連する集団間の遺伝的差異を分析する場合に使用されます。 (このクラスタリングアルゴリズムは、すでに英国バイオバンク医療データベースで実用化されており、一部の患者はデータベースの作成者に自分の記録をデータベースから削除するよう通知している。)研究者らは定量的技術を使用してQk平均アルゴリズムを開発し、細胞タイプ、手書きの数字、ジェスチャー、森林被覆率、接続されたデバイスのハッキングを分類する6つのデータセットでテストした。各データセットから 1,000 個のデータ ポイントを 1 つずつ削除しました。結果は、Qk-means アルゴリズムが従来の k-means アルゴリズムよりも 2 ~ 584 倍高速であり、精度がほとんど損なわれないことを示しています。

モジュール方式を使用して、彼らは DC-k-means (分割統治法の実装用) を開発しました。データ内の各ポイントはランダムに複数のサブセットに分割され、各サブセットは独立してクラスター化されます。これらのサブセットは、その後、新しいクラスターに形成されます。単一のサブセットからポイントを削除しても、他のサブセットの結果には影響しないことがわかります。新しいアルゴリズムは、精度の低下をほとんど伴わずに、16 ~ 71 倍の高速化を実現します。この研究は先月、カナダのバンクーバーで開催されたNeural Information Processing Systems (NerulPS) 会議で発表されました。

「この論文の素晴らしい点は、アルゴリズムの基本的な側面、つまりK平均法クラスタリングを利用して、これまでは不可能だったことを実現している点です」と、トロント大学およびベクター研究所のコンピューター科学者であるニコラス・ペーパーノット氏は言う。しかし、これらのアプローチの一部は、ディープラーニングで使用される人工ニューラルネットワークなど、他のタイプのアルゴリズムではうまく機能しない。先月、パエルノット氏と他の共著者らは、SISA(シャーディング、分離、スライシング、集約)トレーニングと呼ばれるニューラルネットワークのトレーニング方法について言及した論文をウェブサイトarXivに発表した。

この新しいアプローチでは、2 つの異なるモジュール実装が必要です。まず、シャーディング部分でデータセットを複数のサブセットに分割し、モデルのセットごとに独立したトレーニング モデルのコピーを構築します。予測が必要な場合、各モデルの予測結果が統合されて 1 つの統一された結果になります。このように、データ ポイントが削除された場合、モデルの 1 つだけを再トレーニングする必要があります。 2 番目の方法はスライスであり、各サブセットをさらに細分化します。このサブセットのモデルは、最初にスライス 1 でトレーニングされ、次にスライス 1 とスライス 2 で同時にトレーニングされ、その後スライス 1、スライス 2、スライス 3 でトレーニングされるというように続きます。最後に、各ステップを完了した後、トレーニング済みのモデルをアーカイブします。この方法では、スライス 3 のデータ ポイントが削除された場合でも、トレーニングの 3 番目のステップにすぐに戻り、この開始点からトレーニングを続行できます。ペーパーノット氏は、シャーディングとスライシングのアプローチは「モデルトレーニングプロセスに2つの調整ノブを提供する」と述べた。グアン氏もこのアプローチを「非常に直感的」と称賛したが、「使用されるレコード削除基準は十分に厳密ではない」と述べた。

トロントの研究者たちは、2つの大規模なデータセットでニューラルネットワークをトレーニングすることで、自分たちのアプローチをテストしました。 1 つのデータセットには、自宅住所コードに関連付けられた 600,000 を超える画像が含まれており、もう 1 つのデータセットには 300,000 を超える購入履歴レコードが含まれています。各データセットから 0.001% のデータを削除してモデルを再トレーニングしたところ、シャーディング (20 シャード) によって、住所関連のタスクの再トレーニングが 3.75 倍、購入記録関連のタスクの再トレーニングが 8.31 倍高速化され (標準モデルの再トレーニング方法と比較して)、精度にはほとんど影響がないことがわかりました。スライス方式と組み合わせることで、住所関連タスクの速度がさらに18%向上し、購入記録関連タスクの速度は43%向上し、精度の低下はありませんでした。

公開されたデータによれば、データの0.001%のみを削除するのは軽すぎるように思われるが、ペーパーノット氏は、Google検索などの再トレーニングサービスの規模はこの数字よりも桁違いに小さいと述べた。さらに、18% の速度向上は限られているように思えるかもしれませんが、メインフレームの使用シナリオでは、膨大な時間とコストを節約できます。さらに、場合によっては、少数民族の人々や特定の病状を持つ人々など、プライバシー侵害の影響を受けないようにするために、無視する価値がある特定のデータ ポイントを特定できることもあります。これらのデータ ポイントを組み合わせると、除去効果がさらに向上します。 Papernot は、SISA メソッドのカスタマイズ レベルをさらに向上させることを願って、データ セットの知識の整理も積極的に行っていると述べました。

グアン氏は、一部の AI 手法はプライバシーを考慮して設計されているものの、ユーザーが特定のデータ ポイントを削除する必要がある場合もあると説明した。たとえば、信用できない企業にデータを提供したくない人もいるでしょうし、科学者は問題のあるデータ ポイント (ハッカーがデータ セットを「汚染」するために使用した偽の記録など) を削除する必要がある場合もあります。いずれの場合も、AIモデル内のデータを削除することが必要な対策になります。

グアン氏は次のように結論付けました。「もちろん、まだ完全なソリューションは構築できていません。しかし、問題を明確に定義することが、問題解決の重要な前提条件だと考えています。アルゴリズムを設計する際には、最初からデータ保護の必要性を十分に考慮していただければと思います。」

<<:  2019年に主流となった10のAIテクノロジー

>>:  2020 年に慈善活動を変える主要なテクノロジー トレンドのリスト

ブログ    

推薦する

...

AmapとDAMO Academyが共同で車載ARナビゲーションを導入し、従来の運転体験を覆す

Amapは本日、車載ARナビゲーションを共同で立ち上げるためにDAMOアカデミーと協力関係を結んだと...

2ポインタアルゴリズムを学んでLeetCodeをプレイする

[[421659]]みなさんこんにちは。私は梁唐です。今日は、非常に古典的で非常にシンプルなアルゴリ...

...

この AI 商用リストをお見逃しなく: アプリケーションで問題が解決するかもしれません (最終部分)

[[220562]]編纂者:小凡文、肖怡月、江宝尚長らくお待ちいただいておりましたが、ついにAIリ...

AIはあなたより年上かもしれない

[[349378]]現在、ほとんどの調査会社は、人工知能が近い将来ますます重要な役割を果たすと予測し...

AIに関する誤解

企業は意思決定を強化し、消費者体験を向上させるために、幅広いアプリケーションで人工知能を活用すること...

ディープラーニング入門 - TensorFlow を使ってモデルをトレーニングする方法を教えます

[[206688]]導入Tensorflow はバージョン 1.0 へのアップデート後に多くの新機能...

マスク氏、さらに 4 人の「民間」宇宙飛行士を宇宙に送り出す!スペースXは12回の有人ミッションを成功させた

北京時間の今朝早く、SpaceXは再び人類を宇宙に送り出すことに成功した。これは、米国の民間航空宇宙...

...

EUはAI法に加えて、GPT-4などの高機能モデルにも追加の規則と制約を追加する予定である。

今週末の12月10日、欧州連合はChatGPTを含む一般的な人工知能システムを対象とする世界初のAI...

Chain World: シンプルで効果的な人間行動エージェントモデル強化学習フレームワーク

強化学習は、エージェントが環境と対話し、蓄積された報酬を最大化するために最適なアクションを選択する方...

クラウド上の優れた機械学習サービス

クラウドの優れた機械学習サービスを使用すると、ユーザーはデータをより適切に分析し、新たな洞察を得るこ...

ビジュアル Transformer アーキテクチャの進歩を整理した記事: CNN と比較して、ViT が勝っているのはどこでしょうか?

注意ベースのエンコーダー/デコーダー アーキテクチャである Transformer は、自然言語処理...