データ汚染:次の大きな脅威

データ汚染:次の大きな脅威

人工知能 (AI) と機械学習 (ML) を使用したセキュリティ ソフトウェアを標的としたデータ ポイズニングは、次の大きなサイバー セキュリティ リスクとなる可能性があります。 SANS Technology Instituteの研究ディレクターであるヨハネス・ウルリッヒ氏は、RSA 2021の基調講演で、これは誰もが懸念すべき脅威であると述べました。

「機械学習における最も根本的な脅威の1つは、攻撃者がモデルのトレーニングに使用するサンプルに実際に影響を与えることができることだ」とウルリッヒ氏はRSAで語った。

この新たな脅威が急速に出現する中、防御者はデータ汚染攻撃の検出方法と防止方法を学ぶ必要があります。そうしないと、ビジネスやサイバーセキュリティに関する決定が誤ったデータに基づいて行われることになります。

データポイズニングとは何ですか?

攻撃者が AI モデルのトレーニングに使用されるデータを改ざんすると、そのデータは事実上「汚染」されます。 AI は正確な予測を行う方法を学習するためにこのデータに依存するため、アルゴリズムによって生成される予測は不正確になります。

脅威アクターは現在、サイバー攻撃に使用できる方法でデータを処理しています。たとえば、レコメンデーション エンジンのデータを変更することで、さまざまなことが可能になります。そこから、マルウェア アプリケーションをダウンロードさせたり、感染したリンクをクリックさせたりすることができます。

データ汚染は、人工知能を私たちに対して使用するため、非常に危険です。私たちは、私生活や仕事の多くの側面について AI の予測をますます信頼するようになっています。視聴する映画の選択から、サービスを解約する可能性が高い顧客を知らせることまで、あらゆることを行います。

COVID-19の影響でデジタルトランスフォーメーションが加速し、AIがより普及するようになりました。デジタル取引と接続は例外ではなく標準です。

データ汚染とサイバーセキュリティツール

脅威の攻撃者は、データ ポイズニングを使用して、防御側が脅威を検出するために使用するツールに侵入することもあります。まず、データを変更したり、データを追加したりして、誤った分類を作成する可能性があります。さらに、攻撃者はデータポイズニングを利用してバックドアを作成します。

AI ツールに対するデータ汚染攻撃が増加していることは、企業や機関がこれらのツールの導入を躊躇する可能性があることを意味します。また、防御側がどのデータを信頼すべきかを判断することがより困難になります。

基調講演の中で、ウルリッヒ氏は、解決策はAIサイバーセキュリティツールで使用されるモデルを包括的に理解することから始まると述べた。何がデータを保護しているかを理解していないと、これらのテクノロジーとツールが正確かどうかを判断するのは困難です。

データポイズニング攻撃の特定

データ汚染攻撃を検出するのは困難で時間がかかります。そのため、被害者は問題に気付いたときには、すでに被害が甚大になっていることに気づくことが多いのです。

さらに、どのデータが本物で、どのデータが操作されたのか全く分かりません。データ ポイズニング攻撃は通常、内部で行われ、非常にゆっくりとしたペースで進行します。どちらの場合も、データの変更を見逃しやすくなります。

RSA カンファレンスのセッション「回避、ポイズニング、抽出、推論: 防御と評価のためのツール」で、IBM リサーチの Abigail Goldsteen 氏は、サイバーセキュリティの専門家が Adversarial Robustness 360 Toolbox (ART) を使用してデータ ポイズニング攻撃を識別、ブロック、防止することを推奨しました。このオープンソース ツールキットを使用すると、開発者は機械学習モデルを迅速に作成、分析、攻撃し、適切な防御方法を迅速に選択できます。

私たちが持っているツールを使って

では、AI を使うべきではないでしょうか? 現時点では、AI を完全に放棄するのは非現実的です。そうすると、脅威の主体は AI と ML を単純に使用して、防御できない攻撃を作成することになります。

逆に、防御側として、私たちが持っているツールやデータを盲目的に信頼することはできません。アルゴリズムの仕組みをより深く理解し、データ内の異常を定期的にチェックすることで、攻撃に先手を打つことができます。

<<:  学者がインテリジェンス、モデルとデータAI、デジタルトランスフォーメーションについて語る。このAIイベントには技術的な内容が含まれている。

>>:  NLP がヘルスケアにおける AI の価値を実現する方法

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

TinyML を理解する: エッジでの超低消費電力機械学習

導入最も普及している IoT デバイスは小型で、電力が限られている傾向があります。これらは、組み込み...

大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

最近、Claude 2 が発表され、Google Bard が中国語をサポートし、Open AI が...

...

海雲捷迅2018ビッグデータ博覧会ツアー——2018ビッグデータ博覧会人工知能世界大会決勝戦が終了

5月25日、2018年中国国際ビッグデータ博覧会人工知能世界大会決勝戦が予定通り貴陽で開催され、世界...

卒業後すぐに年収56万は貰えるんですか?右! Twitterの機械学習の専門家が書いた上級マニュアルをご覧ください

[[210651]]年収10万?プログラマーにとっては、これで十分です。国家統計局が今年上半期に発表...

...

人工知能の分野でデータの機密性をどのように保護するか?

進化するインテリジェントな世界では、データの機密性と AI 倫理の融合が企業と社会にとって大きな懸念...

...

ドイツメディア:EUは人工知能の乱用を制限する法律制定を計画

専門家は、人工知能も気候変動への取り組みにおいて重要な役割を果たすことができると考えている。しかし一...

政府規制のAIの時代が到来

スティーブン・ホーキング博士はかつてこう言った。「効果的な人工知能の開発に成功すれば、私たちの文明史...

「顔認識」は「性格認識」を生み出しました。テクノロジーが善のために使われるようになるまでにはどれくらい時間がかかるのでしょうか?

最近、顔認識の新技術に関する記事が科学誌「サイエンティフィック・リポーツ」に掲載された。ロシアの研究...

機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から...

バイナリ検索ツリーの検証: インターネット上の古典的なアルゴリズム

[[427951]]この記事はWeChatの公開アカウント「Programmer Bear」から転載...