データ汚染:次の大きな脅威

データ汚染:次の大きな脅威

人工知能 (AI) と機械学習 (ML) を使用したセキュリティ ソフトウェアを標的としたデータ ポイズニングは、次の大きなサイバー セキュリティ リスクとなる可能性があります。 SANS Technology Instituteの研究ディレクターであるヨハネス・ウルリッヒ氏は、RSA 2021の基調講演で、これは誰もが懸念すべき脅威であると述べました。

「機械学習における最も根本的な脅威の1つは、攻撃者がモデルのトレーニングに使用するサンプルに実際に影響を与えることができることだ」とウルリッヒ氏はRSAで語った。

この新たな脅威が急速に出現する中、防御者はデータ汚染攻撃の検出方法と防止方法を学ぶ必要があります。そうしないと、ビジネスやサイバーセキュリティに関する決定が誤ったデータに基づいて行われることになります。

データポイズニングとは何ですか?

攻撃者が AI モデルのトレーニングに使用されるデータを改ざんすると、そのデータは事実上「汚染」されます。 AI は正確な予測を行う方法を学習するためにこのデータに依存するため、アルゴリズムによって生成される予測は不正確になります。

脅威アクターは現在、サイバー攻撃に使用できる方法でデータを処理しています。たとえば、レコメンデーション エンジンのデータを変更することで、さまざまなことが可能になります。そこから、マルウェア アプリケーションをダウンロードさせたり、感染したリンクをクリックさせたりすることができます。

データ汚染は、人工知能を私たちに対して使用するため、非常に危険です。私たちは、私生活や仕事の多くの側面について AI の予測をますます信頼するようになっています。視聴する映画の選択から、サービスを解約する可能性が高い顧客を知らせることまで、あらゆることを行います。

COVID-19の影響でデジタルトランスフォーメーションが加速し、AIがより普及するようになりました。デジタル取引と接続は例外ではなく標準です。

データ汚染とサイバーセキュリティツール

脅威の攻撃者は、データ ポイズニングを使用して、防御側が脅威を検出するために使用するツールに侵入することもあります。まず、データを変更したり、データを追加したりして、誤った分類を作成する可能性があります。さらに、攻撃者はデータポイズニングを利用してバックドアを作成します。

AI ツールに対するデータ汚染攻撃が増加していることは、企業や機関がこれらのツールの導入を躊躇する可能性があることを意味します。また、防御側がどのデータを信頼すべきかを判断することがより困難になります。

基調講演の中で、ウルリッヒ氏は、解決策はAIサイバーセキュリティツールで使用されるモデルを包括的に理解することから始まると述べた。何がデータを保護しているかを理解していないと、これらのテクノロジーとツールが正確かどうかを判断するのは困難です。

データポイズニング攻撃の特定

データ汚染攻撃を検出するのは困難で時間がかかります。そのため、被害者は問題に気付いたときには、すでに被害が甚大になっていることに気づくことが多いのです。

さらに、どのデータが本物で、どのデータが操作されたのか全く分かりません。データ ポイズニング攻撃は通常、内部で行われ、非常にゆっくりとしたペースで進行します。どちらの場合も、データの変更を見逃しやすくなります。

RSA カンファレンスのセッション「回避、ポイズニング、抽出、推論: 防御と評価のためのツール」で、IBM リサーチの Abigail Goldsteen 氏は、サイバーセキュリティの専門家が Adversarial Robustness 360 Toolbox (ART) を使用してデータ ポイズニング攻撃を識別、ブロック、防止することを推奨しました。このオープンソース ツールキットを使用すると、開発者は機械学習モデルを迅速に作成、分析、攻撃し、適切な防御方法を迅速に選択できます。

私たちが持っているツールを使って

では、AI を使うべきではないでしょうか? 現時点では、AI を完全に放棄するのは非現実的です。そうすると、脅威の主体は AI と ML を単純に使用して、防御できない攻撃を作成することになります。

逆に、防御側として、私たちが持っているツールやデータを盲目的に信頼することはできません。アルゴリズムの仕組みをより深く理解し、データ内の異常を定期的にチェックすることで、攻撃に先手を打つことができます。

<<:  学者がインテリジェンス、モデルとデータAI、デジタルトランスフォーメーションについて語る。このAIイベントには技術的な内容が含まれている。

>>:  NLP がヘルスケアにおける AI の価値を実現する方法

ブログ    
ブログ    
ブログ    

推薦する

ディープインテリジェンスとは: 2021 年のディープインテリジェンスのトレンドは何ですか?

人工知能の開発は60年以上前に遡りますが、技術的な理由により、ディープラーニングの出現により再び人工...

機械学習モデルのパフォーマンスを評価する方法

教師あり機械学習モデルを一日中トレーニングすることはできますが、そのパフォーマンスを評価しなければ、...

...

マルウェア検出のための機械学習

[[188537]] 1. はじめに機械学習は、コンピュータにデータから学習する能力を与え、現在イ...

機械学習入門: HelloWorld (Tensorflow)

ソースコードのダウンロードアドレス: https://share.weiyun.com/a0c166...

AI 初心者必読 | パラメーターとハイパーパラメーターの違いがまだよくわかりませんか?

[[244078]]コンピュータサイエンスには多くの用語があり、それらの多くは一貫して使用されてい...

ペアデータなしで学習!浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

マルチモーダル対照表現 (MCR) の目標は、異なるモダリティからの入力を意味的に整合された共有空間...

...

...

Googleは、携帯電話で0.2秒で画像を生成できる超高速拡散モデルMobileDiffusionを開発、現在最速

Stable Diffusionなどの大規模なAIモデルを携帯電話などのモバイルデバイスで実行するこ...

Google Cloud が AI を活用したパーソナライズされたおすすめ商品をオンライン小売業者向けに提供開始

海外メディアの報道によると、1月22日、Google Cloudは、世界中の小売業者が電子商取引機能...

Appleが大規模モデル圧縮技術を革新、大規模モデルを携帯電話に搭載可能に

大規模言語モデル (LLM)、特に生成事前トレーニング済みトランスフォーマー (GPT) モデルは、...

ラスベガスの「チャイナナイト」:中国の人工知能が外国人に人生への疑問を抱かせ始める!

CES は世界最大かつ最も影響力のある消費者向け電子機器展示会です。米国時間1月8日、ラスベガスで...

データに飽きた?人工知能は良い選択です

今日のデジタル マーケティング担当者にとっての課題は、共感を得るためにすべてのプラットフォームでブラ...

...