機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?

機械学習の目的は誰もが理解しており、それが作業効率の向上に役立ちます。しかし、機械による忘却の目的は何でしょうか? 「学校を辞める」ということでしょうか?

現在、機械に関する議論が白熱しているだけでなく、機械による忘却に特化したチャレンジも開催されています。

最近、Google AI は、幅広い学術および業界の研究チームと協力し、初の Machine Unlearning Challenge を開催すると発表しました。

Google は、この機械忘却チャレンジを開催する目的について、機械忘却の SOTA レベルの向上に貢献し、効率的で効果的かつ倫理的な忘却アルゴリズムの開発を促進することを目指していると述べています。

写真

コンテストの内容は何ですか?

具体的には、このチャレンジでは、年齢予測器が顔画像データでトレーニングされ、トレーニング後に、関係する個人のプライバシーやその他の権利を保護するために、トレーニング画像のサブセットを忘れる必要があるという現実世界のシナリオを検討します。

写真

年齢注釈付きの顔共感覚データセットからの画像。

コンテストは Kaggle プラットフォーム上で開催され、提出された作品は忘却品質とモデルの有用性に基づいて自動的に採点されます。

忘却性を評価するために、このチャレンジでは、LiRa などのメンバーシップ推論攻撃 (MIA) にヒントを得たツールを使用します。 MIA はもともとプライバシーとセキュリティに関する文献で開発され、どの例がトレーニング セットの一部であるかを推測することを目的としています。

率直に言えば、忘却が成功した場合、忘れられたモデルには忘れられた例の痕跡が含まれず、MIA の失敗につながります。つまり、攻撃者は忘れられたセットが実際には元のトレーニング セットの一部であることを知ることができません。

さらに、評価では統計テストを使用して、忘れられたモデルの分布が最初から再トレーニングされたモデルの分布とどの程度異なるかを定量化します。

関連するコンテストに関する情報は、次の 2 つのリンクでご覧いただけます。

  • https://unlearning-challenge.github.io/
  • https://groups.google.com/g/unlearning-challenge

読者の中には、機械学習の潮流の中で、なぜ機械による忘却という「逆流」が起きているのかと疑問に思う人もいるかもしれません。

機械忘却とは何ですか?

機械忘却は、機械学習における新しい分野です。その最終的な目標は、トレーニング モデルのトレーニング サンプルの特定のサブセットの影響を排除すること、つまり「忘却セット」の影響を排除することです。

さらに、理想的な忘却アルゴリズムは、残りのトレーニング セットの精度や保持されたサンプルへの一般化など、他の有益な特性を保持しながら、特定のサンプルの影響を排除する必要があります。

下の図は忘却学習の構造を示しています。忘却アルゴリズムは、事前トレーニング済みのモデルと、トレーニング セットから忘れられる 1 つ以上の例を入力として受け取ります。次に、このモデル、忘れられたセット、および保持されたセットに基づいて、忘却アルゴリズムは更新されたモデルを生成します。完全な忘却アルゴリズムによって生成されたモデルは、忘却セットなしでトレーニングされたモデルと区別がつきません。

写真

実際、この理想的なモデルを取得するための非常に「強引な」方法があり、それは忘れられたセットのサンプルを除外した後にモデルを再トレーニングすることです。この「ブルートフォース」方式はすぐに効果を発揮しますが、ディープモデルの再トレーニングにかかる​​コストが高すぎるため、実現可能ではありません。

したがって、忘却学習アルゴリズムは、トレーニング済みのモデルに基づいて、必要なデータの影響を排除するように調整する必要があります。

機械忘却学習は、ユーザーのプライバシーを保護するために使用されるだけでなく、トレーニングを通じてトレーニング モデル内の不正確または古い情報、さらには異常または有害なデータを削除することもできます。もちろん、これはいくつかの指定された忘却セットを削除するよりもはるかに困難ですが、それはまた、より有用であることを意味します。たとえば、異なるグループに属する人々に対する偏見や差別を修正することで、モデルの公平性を向上させることができます。

「片付けて、片付けて、全部捨てて」

なぜ機械忘却を開発するのですか?

私たちは皆、インターネット上で簡単に情報を入手できるという恩恵を受けていますが、インターネット全体から特定の情報を削除することの難しさを見落としがちです。これは、一握りの砂を海に投げ込み、絶えず波打つ海水から砂粒を一つずつ拾い上げるようなものです。さらに重要なのは、これらの砂粒が継続的に複製される可能性があることです。

これは、情報が時間の経過とともに削除されたとしても、さまざまな手段によって保持できることを示しています。

インターネット上に残された痕跡は照会できないかもしれませんが、その痕跡は永久に残ります。 2012年、欧州委員会は、データ主体が「忘れられる権利」を享受すべきであると提案する草案を公表した。これは、ビッグデータを背景としたインターネット業界の発展に広範囲かつ広範囲な影響を及ぼします。

言うまでもなく、最近人気となっている大規模な言語モデルは、膨大なデータセットに基づいて開発されています。大規模なモデルは、ユーザーの個人情報を含むトレーニング セットの詳細を学習して記憶するため、より深刻なプライバシー リスクにつながる可能性があります。

したがって、機械学習モデルにおけるセキュリティとプライバシーの問題は、研究者が直面しなければならない課題です。

写真

ネットユーザーらは、このチャレンジはプライバシー保護を促進するだろうと述べた。

このような困難で複雑な状況下で、機械の忘却が生まれ、それに関する議論と学習が機械学習の分野における焦点の 1 つになってきました。


<<: 

>>:  phind: 開発者に特化したAI検索エンジンの誕生!

ブログ    
ブログ    

推薦する

AIによるパスワードの盗難を防ぐ方法

翻訳者 | 陳俊レビュー | Chonglou現在、人工知能 (AI) アプリケーションの人気と急速...

顔認証+総合決済、モバイル決済が新たな形を生む

モバイル決済は今や人々の生活の一部となり、人々に迅速で便利なショッピング体験をもたらしています。現在...

スタンフォード大学は4年連続でAIレポートを発表しています。今年はどんな内容が取り上げられたのでしょうか?

2021年スタンフォードAIインデックスレポートが正式にリリースされ、過去1年間のAIの全体的な発...

強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

[[433351]]強化学習AIは囲碁、スタークラフト、王者栄耀などのゲームで絶対的な優位性を持って...

...

AIの次の大きな課題:言語のニュアンスを理解すること

それは非常に奥深く、微妙なことです。同じ文でも、文脈によって意味が変わることがよくあります。人間でさ...

AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。

機械学習が「人間レベル」の能力に到達するには、多くのトレーニング反復とラベル付きデータが必要です。こ...

AIが大学入試のエッセイを書いたら何点取れるでしょうか?

みなさんこんにちは。私はシュイです。気がつけば、またこの2日間で大学入試の時期になりました。私が大学...

AIチャットボットがコロナウイルスによる人員不足の問題を緩和する方法

人工知能 (AI) の最も魅力的な利点の 1 つは、人々がより多くのタスクを達成できるように支援でき...

...

米国労働統計局は機械学習を使用してデータコーディングを自動化しています

政府機関には常にさまざまな文書が詰まっていますが、その多くは紙の文書であり、電子文書であっても、実際...

...

AI プロジェクトの 85% が失敗する理由は何ですか?

現在、人工知能(AI)は、人事、サプライチェーン、マルチレベルマーケティングなど、さまざまな分野で広...

...

CNNを称賛するのはやめろ。類似点と相違点さえ区別できない

[[416629]]セサミストリートには「One of These Things Is Not Li...