機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?

機械学習の目的は誰もが理解しており、それが作業効率の向上に役立ちます。しかし、機械による忘却の目的は何でしょうか? 「学校を辞める」ということでしょうか?

現在、機械に関する議論が白熱しているだけでなく、機械による忘却に特化したチャレンジも開催されています。

最近、Google AI は、幅広い学術および業界の研究チームと協力し、初の Machine Unlearning Challenge を開催すると発表しました。

Google は、この機械忘却チャレンジを開催する目的について、機械忘却の SOTA レベルの向上に貢献し、効率的で効果的かつ倫理的な忘却アルゴリズムの開発を促進することを目指していると述べています。

写真

コンテストの内容は何ですか?

具体的には、このチャレンジでは、年齢予測器が顔画像データでトレーニングされ、トレーニング後に、関係する個人のプライバシーやその他の権利を保護するために、トレーニング画像のサブセットを忘れる必要があるという現実世界のシナリオを検討します。

写真

年齢注釈付きの顔共感覚データセットからの画像。

コンテストは Kaggle プラットフォーム上で開催され、提出された作品は忘却品質とモデルの有用性に基づいて自動的に採点されます。

忘却性を評価するために、このチャレンジでは、LiRa などのメンバーシップ推論攻撃 (MIA) にヒントを得たツールを使用します。 MIA はもともとプライバシーとセキュリティに関する文献で開発され、どの例がトレーニング セットの一部であるかを推測することを目的としています。

率直に言えば、忘却が成功した場合、忘れられたモデルには忘れられた例の痕跡が含まれず、MIA の失敗につながります。つまり、攻撃者は忘れられたセットが実際には元のトレーニング セットの一部であることを知ることができません。

さらに、評価では統計テストを使用して、忘れられたモデルの分布が最初から再トレーニングされたモデルの分布とどの程度異なるかを定量化します。

関連するコンテストに関する情報は、次の 2 つのリンクでご覧いただけます。

  • https://unlearning-challenge.github.io/
  • https://groups.google.com/g/unlearning-challenge

読者の中には、機械学習の潮流の中で、なぜ機械による忘却という「逆流」が起きているのかと疑問に思う人もいるかもしれません。

機械忘却とは何ですか?

機械忘却は、機械学習における新しい分野です。その最終的な目標は、トレーニング モデルのトレーニング サンプルの特定のサブセットの影響を排除すること、つまり「忘却セット」の影響を排除することです。

さらに、理想的な忘却アルゴリズムは、残りのトレーニング セットの精度や保持されたサンプルへの一般化など、他の有益な特性を保持しながら、特定のサンプルの影響を排除する必要があります。

下の図は忘却学習の構造を示しています。忘却アルゴリズムは、事前トレーニング済みのモデルと、トレーニング セットから忘れられる 1 つ以上の例を入力として受け取ります。次に、このモデル、忘れられたセット、および保持されたセットに基づいて、忘却アルゴリズムは更新されたモデルを生成します。完全な忘却アルゴリズムによって生成されたモデルは、忘却セットなしでトレーニングされたモデルと区別がつきません。

写真

実際、この理想的なモデルを取得するための非常に「強引な」方法があり、それは忘れられたセットのサンプルを除外した後にモデルを再トレーニングすることです。この「ブルートフォース」方式はすぐに効果を発揮しますが、ディープモデルの再トレーニングにかかる​​コストが高すぎるため、実現可能ではありません。

したがって、忘却学習アルゴリズムは、トレーニング済みのモデルに基づいて、必要なデータの影響を排除するように調整する必要があります。

機械忘却学習は、ユーザーのプライバシーを保護するために使用されるだけでなく、トレーニングを通じてトレーニング モデル内の不正確または古い情報、さらには異常または有害なデータを削除することもできます。もちろん、これはいくつかの指定された忘却セットを削除するよりもはるかに困難ですが、それはまた、より有用であることを意味します。たとえば、異なるグループに属する人々に対する偏見や差別を修正することで、モデルの公平性を向上させることができます。

「片付けて、片付けて、全部捨てて」

なぜ機械忘却を開発するのですか?

私たちは皆、インターネット上で簡単に情報を入手できるという恩恵を受けていますが、インターネット全体から特定の情報を削除することの難しさを見落としがちです。これは、一握りの砂を海に投げ込み、絶えず波打つ海水から砂粒を一つずつ拾い上げるようなものです。さらに重要なのは、これらの砂粒が継続的に複製される可能性があることです。

これは、情報が時間の経過とともに削除されたとしても、さまざまな手段によって保持できることを示しています。

インターネット上に残された痕跡は照会できないかもしれませんが、その痕跡は永久に残ります。 2012年、欧州委員会は、データ主体が「忘れられる権利」を享受すべきであると提案する草案を公表した。これは、ビッグデータを背景としたインターネット業界の発展に広範囲かつ広範囲な影響を及ぼします。

言うまでもなく、最近人気となっている大規模な言語モデルは、膨大なデータセットに基づいて開発されています。大規模なモデルは、ユーザーの個人情報を含むトレーニング セットの詳細を学習して記憶するため、より深刻なプライバシー リスクにつながる可能性があります。

したがって、機械学習モデルにおけるセキュリティとプライバシーの問題は、研究者が直面しなければならない課題です。

写真

ネットユーザーらは、このチャレンジはプライバシー保護を促進するだろうと述べた。

このような困難で複雑な状況下で、機械の忘却が生まれ、それに関する議論と学習が機械学習の分野における焦点の 1 つになってきました。


<<: 

>>:  phind: 開発者に特化したAI検索エンジンの誕生!

ブログ    

推薦する

...

自然言語処理: コンピュータに人間の言語を理解して処理させる

自然言語処理 (NLP) は、人工知能の分野における重要かつ刺激的なテクノロジーです。その目標は、コ...

認知的ブレークスルー II: 人工知能の時代に私たちが経験している社会的、文化的変化

人類はアフリカでホモ・サピエンスとして誕生して以来、約50万年にわたる進化の過程を経てきました。人類...

超大型モデルの登場でAIはゲームオーバーになるのか?ゲイリー・マーカス:道は狭くなっている

最近、人工知能技術は大規模モデルにおいて飛躍的な進歩を遂げています。昨日、Google が提案した ...

AIと新技術が商業用不動産投資に革命を起こす

商業用不動産業界は進化を遂げており、人工知能 (AI) などのテクノロジーが、このダイナミックな市場...

覚えておいてください!私たちの未来に影響を与えるのはビッグデータや人工知能ではなくブロックチェーンです!

[[216863]]私たちの未来に影響を与えるそれは「ビッグデータ」でも「モノのインターネット」で...

DNAを使って画像を直接保存する「生きた細胞カメラ」は96ピクセルの解像度を持つ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

日本は人間支援ロボットの世界標準を確立したいと考えている

日本は人間支援ロボットの規格策定に向け、国際標準化機構(ISO)と協議を行っている。ロボット工学に対...

ニューラルネットワークの不気味な評判

[[185985]]ニューラル ネットワークが無限のトリックを実行するのを見ると、最近ではディープラ...

機械学習のための3つの主要な学習リソースを丁寧に整理

機械学習はここしばらく話題になっていますが、それには十分な理由があります。機械学習は、将来の行動を予...

回帰問題に最適な機械学習アルゴリズムを選択する

あらゆる種類の機械学習 (ML) の問題に取り組む場合、選択できるさまざまなアルゴリズムがあります。...

人工知能について知っておくべき4つのこと!

1950 年代以来、コンピューター科学者は人間の知能を模倣するプログラムの開発に取り組んできました...

エッジAIはテクノロジー業界に大きな変化をもたらしている

近年、人工知能 (AI) の出現により、私たちの産業や個人の生活は真に革命的な変化を遂げ、これまでに...

顔認識システムに関するよくある質問8つ

今日のスマートフォンやノートパソコンに搭載されている顔認識機能のおかげで、顔認識テクノロジーの概念は...