ニューラルネットワークはマルウェアを隠すことができる、と研究で判明

ニューラルネットワークはマルウェアを隠すことができる、と研究で判明

[[441136]]

[51CTO.com クイック翻訳]ディープラーニング モデルには数百万、あるいは数十億もの数値パラメータがあるため、写真内のオブジェクトの検出、音声の認識、テキストの生成、さらにはマルウェアの隠蔽など、さまざまなことが可能になります。カリフォルニア大学サンディエゴ校とイリノイ大学の研究者らは、マルウェア対策ソフトウェアを起動させることなく、ニューラルネットワークをマルウェアに埋め込むことができることを発見した。

マルウェア隠蔽技術「EvilModel」はディープラーニングのセキュリティ問題を明らかにし、機械学習やサイバーセキュリティのカンファレンスで話題となっている。ディープラーニングが人々が使用するアプリケーションにさらに組み込まれるようになるにつれて、セキュリティ コミュニティは新たな脅威からユーザーを保護するための新しい方法を検討する必要があります。

ディープラーニングモデルにマルウェアを隠す

各ディープラーニング モデルは、複数の人工ニューロン層で構成されています。層の種類に応じて、各ニューロンは前の層と次の層のニューロンのすべてまたは一部に接続されます。これらの接続の強さは、ディープラーニング モデルが設計されたタスクを学習するトレーニング プロセス中に数値パラメータによって定義されます。大規模なニューラル ネットワークには、数億、あるいは数十億のパラメータが含まれる場合があります。

EvilModelのワークフローは、ニューラルネットワークにマルウェアを埋め込む技術です。

EvilModel の背後にある主なアイデアは、マルウェアをニューラル ネットワークのパラメーターに埋め込み、マルウェア スキャンで検出できないようにすることです。これはステガノグラフィの一種で、1 つのメッセージを別のメッセージ内に隠すことができます。

同時に、侵害されたディープラーニング モデルは、疑惑を引き起こしたり被害者にとって無効になったりしないように、クリーンなモデルと同等かそれに近いレベルで主要なタスク (画像分類など) を実行する必要があります。

最後に、攻撃者は感染したモデルをターゲットデバイスに送信し、ニューラルネットワークのパラメータからマルウェアを抽出するメカニズムを持っている必要があります。

パラメータ値の変更

ほとんどのディープラーニング モデルでは、パラメータ値を格納するために 32 ビット (4 バイト) の浮動小数点数を使用します。研究者の実験によると、サイバー攻撃者はパラメータ値に大きな影響を与えることなく、各パラメータに最大 3 バイトのマルウェアを保存できるという。

ニューラル ネットワーク内の各パラメーターは、4 バイトの浮動小数点数で構成されます。研究者らは、数値を大きく変えずに悪意のあるコードを埋め込むのに最大3バイトを使用できると述べた。

攻撃者はディープラーニング モデルに感染する際に、マルウェアを 3 バイトのフラグメントに分割し、そのデータをパラメータに埋め込みました。サイバー攻撃者は、マルウェアをターゲットに配信するために、GitHub や TorchHub などディープラーニング モデルを含む複数のオンライン ロケーションのいずれかに、感染したニューラル ネットワークを投稿する可能性があります。あるいは、サイバー攻撃者は、標的のデバイスにインストールされているソフトウェアの自動更新を通じて感染モデルを配信する、より高度な形態のサプライ チェーン攻撃を実行する可能性もあります。

感染したモデルが被害者に配信されると、ソフトウェアがペイロードを抽出して実行します。

畳み込みニューラルネットワークにマルウェアを隠す

EvilModel の実現可能性を検証するために、研究者らはそれをいくつかの畳み込みニューラル ネットワーク (CNN) でテストしました。畳み込みニューラル ネットワーク (CNN) は、いくつかの理由から研究するのが興味深いものです。まず、それらは非常に大きく、通常は数十のレイヤーと数百万のパラメータが含まれています。 2 番目に、これらにはさまざまなアーキテクチャが含まれており、さまざまなタイプのレイヤー (完全接続、畳み込み) とさまざまな一般化手法 (バッチ正規化、ドロップアウト、プーリングなど) が含まれているため、さまざまな設定で埋め込まれたマルウェアの影響を評価することができます。 3 つ目は、畳み込みニューラル ネットワーク (CNN) はコンピューター ビジョン アプリケーションで広く使用されているため、悪意のある攻撃者の主なターゲットになる可能性があることです。最後に、事前トレーニング済みの畳み込みニューラル ネットワーク (CNN) は数多くあり、変更を加えることなくアプリケーションに統合できます。また、多くの開発者は、ディープラーニングが内部でどのように機能するかを必ずしも理解することなく、事前トレーニング済みの畳み込みニューラル ネットワーク (CNN) をアプリケーションで使用しています。

研究者らはまず、2012年にディープラーニングへの関心を復活させた人気の畳み込みニューラルネットワーク(CNN)であるAlexNetにマルウェアを埋め込むことを試みた。 AlexNet は 178 メガバイトで、5 つの畳み込み層と 3 つの密な (または完全に接続された) 層があります。

AlexNet 畳み込みニューラル ネットワーク (CNN)

AlexNet がバッチ正規化と呼ばれる手法を使用してトレーニングされたとき、研究者は、クリーンなバージョンの 1 パーセント以内の精度を保ちながら、26.8 メガバイトのマルウェアをモデルに埋め込むことができました。バッチ正規化レイヤーは、トレーニング例をディープラーニング モデルで実行する前にグループに正規化する手法です。マルウェアデータの量が増えると、精度は大幅に低下し始めます。

次に、研究者たちはモデルを感染させた後に再トレーニングを試みた。影響を受けたニューロンを凍結することで、追加のトレーニングサイクル中にニューロンが変更されるのを防ぎました。研究者らはバッチ正規化と再トレーニングを通じて、モデルの精度を 90 パーセント以上に保ちながら、マルウェア データの容量を 36.9 テラバイトまで増やすことができました。

左: より深いニューラル ネットワークは、マルウェアに感染しても精度を維持できます。右: バッチ正規化レイヤーと感染後の再トレーニングによりモデルの精度が向上します

モデルは、InQuest データベースの 8 つの感染サンプルから派生したもので、そのすべてがオンラインの VirusTotal スキャナーによってマルウェアとして識別されました。サンプルがニューラル ネットワークに埋め込まれると、モデル全体が VirusTotal にアップロードされましたが、安全であるとマークされ、マルウェアが適切に隠蔽されていたことが証明されました。

研究者らは、VGG、Resnet、Inception、Mobilenet など、他のいくつかの畳み込みニューラル ネットワーク (CNN) アーキテクチャでもこの手法をテストしました。彼らは同様の結果を得ており、悪意のある埋め込みは大規模なニューラルネットワークに対する一般的な脅威であることを示唆しています。

機械学習パイプラインのセキュリティ保護

マルウェア スキャナーはディープラーニング モデルに埋め込まれた悪意のあるペイロードを検出できないため、EvilModel に対抗する唯一の方法はマルウェアを破壊することです。

ペイロードは、そのバイトがそのままである限り、その整合性を維持します。そのため、EvilModel の受信者が感染層をフリーズせずにニューラル ネットワークを再トレーニングすると、そのパラメーター値が変更され、マルウェアのデータが破壊されます。 1 段階のトレーニングでも、ディープラーニング モデルに埋め込まれたマルウェアを破壊するのに十分です。

ただし、ほとんどの開発者は、別のアプリケーション用に微調整する場合を除き、事前トレーニング済みのモデルを使用します。微調整の一部の形式では、ネットワーク内の既存のほとんどのレイヤーがフリーズしますが、これには感染したレイヤーも含まれる可能性があります。

これは、敵対的攻撃、データ汚染、メンバーシップ推論、およびその他の既知のセキュリティ問題に加えて、マルウェアに感染したニューラル ネットワークがディープラーニングの将来に真の脅威をもたらすことを意味します。

敵対的機械学習脅威マトリックスは機械学習パイプラインの弱点を提供します

機械学習モデルと従来のルールベースのソフトウェアの違いにより、セキュリティの脅威について考える新しい方法が必要になります。今年初め、いくつかの組織が、機械学習パイプラインの弱点を発見し、セキュリティギャップを修正するのに役立つフレームワークである「Adversarial Machine Learning Threat Matrix」を導入しました。

脅威マトリックスは敵対的攻撃に重点を置いていますが、そのアプローチは悪意のある攻撃などの脅威にも適用できます。研究者がディープニューラルネットワークでマルウェアを検出してブロックするためのより信頼性の高い方法を見つけるまで、機械学習パイプラインで信頼のチェーンを確立する必要があります。マルウェア スキャナーや静的分析ツールでは感染したモデルを検出できないため、開発者はモデルが信頼できるソースからのものであり、トレーニング データと学習したパラメータの出所が侵害されていないことを確認する必要があります。ディープラーニングの安全性について学び続ける中で、写真の分析や音声の認識を行う何百万もの数値パラメータの背後に何が潜んでいるかについて、私たちは警戒しなければなりません。

原題: ニューラルネットワークはマルウェアを隠すことができる、研究者が発見、著者: ベン・ディクソン

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  人間の脳細胞は、マトリックスのように、AIよりも速く、エネルギー効率よく、ペトリ皿の中でゲームをすることを学ぶ

>>:  AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

オタクなおじさんが独学でAIを学んでマスターレベルを作成し、Twitterで人気になった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Baidu World 2018 の開会式で最初の切り札が切られました。Baidu AI City が新しい世界への機関車としてスタートしました!

スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...

諸刃の剣、顔認識技術はどのように発展すべきか?

[[265710]]長らく技術革命の中心地となってきたサンフランシスコは、現地時間の火曜日に「秘密...

...

中国では人工知能が非常に人気のある職業になる

中国IDCサークルニュース:中国のオンライン求人プラットフォームBoss Zhipinは、中国政府が...

科学者はロボットに人間に近い触覚を与える人工指先を開発

ロボットは車を持ち上げたり、手術を手伝ったりするようにプログラムできますが、卵など、これまで扱ったこ...

Google エンジニア: AI テクノロジーにより、5 年以内に人間とコンピューターの会話が実現する

人間の言語を習得することはコンピューターにとって依然として課題だが、グーグルのエンジニアは人工知能(...

...

Alibaba DAMO Academyが2019年のトップ10テクノロジートレンドを発表:AI、ブロックチェーンなど

Alibaba DAMO Academy は、2019 年のトップ 10 テクノロジー トレンド予測...

LLaVA-1.6は非常に強力で、Gemini Proを上回り、推論機能とOCR機能が向上しています。

昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同...

HTTPS の脆弱性が再び明らかに、企業は SSL/TLS 暗号化アルゴリズムをアップグレードする必要がある

CBC および RC4 暗号化アルゴリズムが相次いで「衰退」しているため、SSL/TLS に依存して...

知っておくべきビッグデータ用語 75 選

パート1(25用語)ビッグデータに不慣れな場合、この分野を理解したり、どこから始めればよいのかわから...

...