ニューラルネットワークはマルウェアを隠すことができる、と研究で判明

[[441136]]

[51CTO.com クイック翻訳]ディープラーニングモデルには数百万、あるいは数十億もの数値パラメータがあるため、写真内のオブジェクトの検出、音声の認識、テキストの生成、さらにはマルウェアの隠蔽など、さまざまなことが可能になります。カリフォルニア大学サンディエゴ校とイリノイ大学の研究者らは、マルウェア対策ソフトウェアを起動させることなく、ニューラルネットワークをマルウェアに埋め込むことができることを発見した。

マルウェア隠蔽技術「EvilModel」はディープラーニングのセキュリティ問題を明らかにし、機械学習やサイバーセキュリティのカンファレンスで話題となっている。ディープラーニングが人々が使用するアプリケーションにさらに組み込まれるようになるにつれて、セキュリティコミュニティは新たな脅威からユーザーを保護するための新しい方法を検討する必要があります。

ディープラーニングモデルにマルウェアを隠す

各ディープラーニングモデルは、複数の人工ニューロン層で構成されています。層の種類に応じて、各ニューロンは前の層と次の層のニューロンのすべてまたは一部に接続されます。これらの接続の強さは、ディープラーニングモデルが設計されたタスクを学習するトレーニングプロセス中に数値パラメータによって定義されます。大規模なニューラルネットワークには、数億、あるいは数十億のパラメータが含まれる場合があります。

EvilModelのワークフローは、ニューラルネットワークにマルウェアを埋め込む技術です。

EvilModel の背後にある主なアイデアは、マルウェアをニューラルネットワークのパラメーターに埋め込み、マルウェアスキャンで検出できないようにすることです。これはステガノグラフィの一種で、1 つのメッセージを別のメッセージ内に隠すことができます。

同時に、侵害されたディープラーニングモデルは、疑惑を引き起こしたり被害者にとって無効になったりしないように、クリーンなモデルと同等かそれに近いレベルで主要なタスク (画像分類など) を実行する必要があります。

最後に、攻撃者は感染したモデルをターゲットデバイスに送信し、ニューラルネットワークのパラメータからマルウェアを抽出するメカニズムを持っている必要があります。

パラメータ値の変更

ほとんどのディープラーニングモデルでは、パラメータ値を格納するために 32 ビット (4 バイト) の浮動小数点数を使用します。研究者の実験によると、サイバー攻撃者はパラメータ値に大きな影響を与えることなく、各パラメータに最大 3 バイトのマルウェアを保存できるという。

ニューラルネットワーク内の各パラメーターは、4 バイトの浮動小数点数で構成されます。研究者らは、数値を大きく変えずに悪意のあるコードを埋め込むのに最大3バイトを使用できると述べた。

攻撃者はディープラーニングモデルに感染する際に、マルウェアを 3 バイトのフラグメントに分割し、そのデータをパラメータに埋め込みました。サイバー攻撃者は、マルウェアをターゲットに配信するために、GitHub や TorchHub などディープラーニングモデルを含む複数のオンラインロケーションのいずれかに、感染したニューラルネットワークを投稿する可能性があります。あるいは、サイバー攻撃者は、標的のデバイスにインストールされているソフトウェアの自動更新を通じて感染モデルを配信する、より高度な形態のサプライチェーン攻撃を実行する可能性もあります。

感染したモデルが被害者に配信されると、ソフトウェアがペイロードを抽出して実行します。

畳み込みニューラルネットワークにマルウェアを隠す

EvilModel の実現可能性を検証するために、研究者らはそれをいくつかの畳み込みニューラルネットワーク (CNN) でテストしました。畳み込みニューラルネットワーク (CNN) は、いくつかの理由から研究するのが興味深いものです。まず、それらは非常に大きく、通常は数十のレイヤーと数百万のパラメータが含まれています。 2 番目に、これらにはさまざまなアーキテクチャが含まれており、さまざまなタイプのレイヤー (完全接続、畳み込み) とさまざまな一般化手法 (バッチ正規化、ドロップアウト、プーリングなど) が含まれているため、さまざまな設定で埋め込まれたマルウェアの影響を評価することができます。 3 つ目は、畳み込みニューラルネットワーク (CNN) はコンピュータービジョンアプリケーションで広く使用されているため、悪意のある攻撃者の主なターゲットになる可能性があることです。最後に、事前トレーニング済みの畳み込みニューラルネットワーク (CNN) は数多くあり、変更を加えることなくアプリケーションに統合できます。また、多くの開発者は、ディープラーニングが内部でどのように機能するかを必ずしも理解することなく、事前トレーニング済みの畳み込みニューラルネットワーク (CNN) をアプリケーションで使用しています。

研究者らはまず、2012年にディープラーニングへの関心を復活させた人気の畳み込みニューラルネットワーク（CNN）であるAlexNetにマルウェアを埋め込むことを試みた。 AlexNet は 178 メガバイトで、5 つの畳み込み層と 3 つの密な (または完全に接続された) 層があります。

AlexNet 畳み込みニューラルネットワーク (CNN)

AlexNet がバッチ正規化と呼ばれる手法を使用してトレーニングされたとき、研究者は、クリーンなバージョンの 1 パーセント以内の精度を保ちながら、26.8 メガバイトのマルウェアをモデルに埋め込むことができました。バッチ正規化レイヤーは、トレーニング例をディープラーニングモデルで実行する前にグループに正規化する手法です。マルウェアデータの量が増えると、精度は大幅に低下し始めます。

次に、研究者たちはモデルを感染させた後に再トレーニングを試みた。影響を受けたニューロンを凍結することで、追加のトレーニングサイクル中にニューロンが変更されるのを防ぎました。研究者らはバッチ正規化と再トレーニングを通じて、モデルの精度を 90 パーセント以上に保ちながら、マルウェアデータの容量を 36.9 テラバイトまで増やすことができました。

左: より深いニューラルネットワークは、マルウェアに感染しても精度を維持できます。右: バッチ正規化レイヤーと感染後の再トレーニングによりモデルの精度が向上します

モデルは、InQuest データベースの 8 つの感染サンプルから派生したもので、そのすべてがオンラインの VirusTotal スキャナーによってマルウェアとして識別されました。サンプルがニューラルネットワークに埋め込まれると、モデル全体が VirusTotal にアップロードされましたが、安全であるとマークされ、マルウェアが適切に隠蔽されていたことが証明されました。

研究者らは、VGG、Resnet、Inception、Mobilenet など、他のいくつかの畳み込みニューラルネットワーク (CNN) アーキテクチャでもこの手法をテストしました。彼らは同様の結果を得ており、悪意のある埋め込みは大規模なニューラルネットワークに対する一般的な脅威であることを示唆しています。

機械学習パイプラインのセキュリティ保護

マルウェアスキャナーはディープラーニングモデルに埋め込まれた悪意のあるペイロードを検出できないため、EvilModel に対抗する唯一の方法はマルウェアを破壊することです。

ペイロードは、そのバイトがそのままである限り、その整合性を維持します。そのため、EvilModel の受信者が感染層をフリーズせずにニューラルネットワークを再トレーニングすると、そのパラメーター値が変更され、マルウェアのデータが破壊されます。 1 段階のトレーニングでも、ディープラーニングモデルに埋め込まれたマルウェアを破壊するのに十分です。

ただし、ほとんどの開発者は、別のアプリケーション用に微調整する場合を除き、事前トレーニング済みのモデルを使用します。微調整の一部の形式では、ネットワーク内の既存のほとんどのレイヤーがフリーズしますが、これには感染したレイヤーも含まれる可能性があります。

これは、敵対的攻撃、データ汚染、メンバーシップ推論、およびその他の既知のセキュリティ問題に加えて、マルウェアに感染したニューラルネットワークがディープラーニングの将来に真の脅威をもたらすことを意味します。

敵対的機械学習脅威マトリックスは機械学習パイプラインの弱点を提供します

機械学習モデルと従来のルールベースのソフトウェアの違いにより、セキュリティの脅威について考える新しい方法が必要になります。今年初め、いくつかの組織が、機械学習パイプラインの弱点を発見し、セキュリティギャップを修正するのに役立つフレームワークである「Adversarial Machine Learning Threat Matrix」を導入しました。

脅威マトリックスは敵対的攻撃に重点を置いていますが、そのアプローチは悪意のある攻撃などの脅威にも適用できます。研究者がディープニューラルネットワークでマルウェアを検出してブロックするためのより信頼性の高い方法を見つけるまで、機械学習パイプラインで信頼のチェーンを確立する必要があります。マルウェアスキャナーや静的分析ツールでは感染したモデルを検出できないため、開発者はモデルが信頼できるソースからのものであり、トレーニングデータと学習したパラメータの出所が侵害されていないことを確認する必要があります。ディープラーニングの安全性について学び続ける中で、写真の分析や音声の認識を行う何百万もの数値パラメータの背後に何が潜んでいるかについて、私たちは警戒しなければなりません。

原題: ニューラルネットワークはマルウェアを隠すことができる、研究者が発見、著者: ベン・ディクソン

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: 人間の脳細胞は、マトリックスのように、AIよりも速く、エネルギー効率よく、ペトリ皿の中でゲームをすることを学ぶ

>>: AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?