知っておきたい！AI を活用したサイバー犯罪対策に機械学習を活用する方法

[51CTO.com クイック翻訳] 今日のインターネット時代において、ネットワークセキュリティはさまざまな分野にさまざまな程度の大きな問題と課題をもたらしています。 2004 年時点では、サイバーセキュリティの世界市場価値はわずか 35 億米ドルでしたが、2017 年末までにサイバーセキュリティの世界市場価値は 1,200 億米ドルに急上昇すると予想されています。

[[207100]]

データセキュリティは、これまでも、そしてこれからも、さまざまな組織において継続的な改善が求められる重要な分野です。猫とネズミのゲームのように、ハッカーは常にセキュリティシステムに侵入する新しい方法を探しています。同様に、セキュリティシステムもさまざまな攻撃戦略やツールに対応するために、継続的にアップグレードします。

ビッグデータ

人工知能の出現により、多くの仕事が徐々にコンピューターやロボットに置き換えられつつあります。一般的なデスクトップに付属しているウイルス対策ソフトウェアについて話しているのではなく、次のようなシナリオを想像してみてください。数千人の従業員を抱える大規模な組織があるとします。組織内のすべてのコンピューターはペタバイト単位のログを生成し、それらはデータベースに保存されて日常のアクティビティを記録し、その後、個別の脅威分析と相関脅威分析に使用されます。これらの膨大な結果により、いわゆる「ビッグデータ」が生成されます。

2012 年、ガートナーはビッグデータを次のように定義しました。「より強力な意思決定、洞察の発見、プロセス最適化機能を実現するには、新しい処理モデルを必要とする、大規模で急成長し、多様な情報資産」。今日でも、ガートナーの 3V 定義は広く使用されており、「大規模で急成長し、多様な特性を持つこれらの情報資産は、特定のテクノロジと分析手法を通じて価値に変換される必要がある」という点については誰もが同意しています。

機械学習

上記のビッグデータの定義を踏まえて、次に行うべきステップはビッグデータを分析することです。さまざまな種類の分析を実行して、特定の目的に合わせてコンピューターをトレーニングすることができます。このトレーニングプロセスは「機械学習」と呼ばれ、パターン認識と計算学習理論に基づく人工知能の進化形です。

機械学習は、アルゴリズムの構造を探索および研究することでデータの予測を実現します。機械学習は、設計され事前にプログラムされたアルゴリズムを使用して、幅広いコンピューティングタスクを効率的に完了します。最も一般的なアプリケーションには、電子メールのフィルタリング、ネットワーク侵入検知、悪意のある内部者によるデータ漏洩、光学文字認識 (OCR)、ランク付けの学習、コンピュータービジョンなどがあります。

今日では多くの場合、組織の規模が大きくなるほど、サイバーセキュリティの課題は難しくなります。このため、ほとんどの大規模組織には独自のサイバーセキュリティ部門が設けられています。規模と脅威の種類に関する統計を見てみましょう。

マルウェア

マルウェアは、コンピュータシステムを妨害したり、損傷したり、通常のアクセスを取得することを目的として特別に設計されたソフトウェアとして分類されます。 2016 年の第 3 四半期だけで、セキュリティ会社は 1,800 万件の新しいマルウェアサンプルを捕捉しました。これは 1 日平均 20 万件に相当します。マルウェアは速度が増すだけでなく、ウイルス対策保護を回避する能力も進化し続けています。これらは、あなたの会社、IT チーム、サプライヤーが達成できないことです。

ランサムウェア

名前が示すように、このタイプのソフトウェアは、身代金を支払うまでシステムの画面またはユーザーのファイルをロックして、ユーザーによるシステムへのアクセスをブロックまたは制限します。 2016 年以降、毎日 4,000 件のランサムウェア攻撃が発生しています。これは、2015 年の 1 日あたり 1,000 件から 300% の増加です。

コンピュータウイルス統計

脅威の種類

漏れの種類

漏洩チャネル

セキュリティ情報とイベント管理

大規模組織のサイバーセキュリティ部門が毎日、さまざまな種類のマルウェアによる数十億の攻撃に直面していることを認識した今、セキュリティ構成では、脅威に遭遇したときにタイムリーに警告を提供する機能を向上させるだけでなく、ユーザーが状況を完全に理解できるように、さまざまな脅威を識別して分類できる必要があります。

したがって、私たちのセキュリティシステムは静止しているわけではなく、さまざまなイベント通知を相関させてユーザーをガイドし、ユーザーが属する動的システム内のさまざまな状況の「明確な画像」を示すことで、探偵のような足跡を形成する必要があります。この目的を達成するソフトウェアは、SIEM (セキュリティ情報およびイベント管理)、SEM (セキュリティイベント管理)、または SIM (セキュリティ情報管理) に分類されます。

もちろん、これらの用語は、さまざまなコンテキストでこのタイプのソフトウェアを指すために互換的に使用されることがよくあります。高度なカスタマイズとトレーニングを可能にするために、機械学習がサイバー犯罪と戦うためにどのように使用されているかを見てみましょう。これらのインテリジェントソフトウェアは、次のセクションで説明するディープラーニングなどの技術を使用していることに注意してください。

脅威インテリジェンスシステム

ディープラーニングと人工ニューラルネットワーク (ANN)

個々のマルウェアは「作成するのは簡単だが、検出するのは難しい」とよく言われます。システムがそれを認識できるようになると、次回どのように対応するかを「学習」できるようになります。ただし、元のマルウェアがわずかに変更されている場合、システムはそれを認識できない可能性があります。

実際には、単一のオリジナルソフトウェアに基づいて、数百、あるいは数千もの新しいマルウェア系統が再作成されます。したがって、この場合は、安全ゾーンを効果的に作成するために別の戦略を使用する必要があります。そこでは、人工ニューラルネットワークは、さまざまな例を参照してタスクを実行することを学習し (徐々にパフォーマンスが向上します)、通常はタスク固有の追加プログラミングは必要ありません。

たとえば、画像認識に関しては、手動で「猫」または「猫ではない」とラベル付けされた複数の例を見て、猫が含まれている他の画像を分析して認識することを学習します。また、ほとんどのアプリケーションは、ルールベースのプログラミングに基づく従来のコンピューターアルゴリズムを使用して正確に表現することが難しいこともわかりました。

サイバーセキュリティの分野では、システムが識別した一般的なマルウェアの種類との類似性レベルに基づいて、さまざまなソフトウェアがマルウェアであるかどうかを判断できます。もちろん、人工ニューラルネットワークがまだ「トレーニング」を完了していない場合、これを一夜にして達成することはできません。また、ディープラーニング自体は、かなり時間のかかるプロセスです。

人工ニューラルネットワーク (ANN) は、生物学的ニューラルネットワークにヒントを得たもので、人工ニューロン (生物学的脳の軸索に類似) と呼ばれる接続されたユニットの集合として実装されます。ニューロン間の各接続（シナプス）は、別のニューロンに信号を送信することができます。受信側（シナプス後）ニューロンは信号を処理し、その接続を下流のニューロンに送信します。

ニューロンの状態は通常、0 から 1 までの実数で表されます。学習が進むにつれて、ニューロンとシナプスの重みが変化し、下流に送信される信号の強度の増加または減少を反映します。あるいは、しきい値が設定され、集約された信号がこの値を下回る (または上回る) 場合にのみダウンリンク信号が送信される場合もあります。

通常、ニューロンは多層構造をしています。異なるレイヤーは、異なる入力に基づいて、異なるタイプの変換を実行できます。信号は最初の（入力）レイヤーから始まり、複数回のトラバーサルを経て最後の（出力）レイヤーに到達する場合があります。

単層フィードフォワード人工ニューラルネットワークを下図に示します。

単層フィードフォワード

2 層のフィードフォワード人工ニューラルネットワークを次の図に示します。

二重層フィードフォワード

したがって、SIEM ソフトウェアにマルウェアに関する利用可能なすべての情報を提供して、SIEM ソフトウェアがあらゆる種類のマルウェアの存在を同時に識別し、確立されたインテリジェンス標準に従って特定のレベルに達するさまざまなマルウェアを分類できるようにする必要があります。これにより、学習プロセス全体が、半人間による監督のみ、または人間による監督がまったく必要ない高度なレベルにまで向上します。

ユーザー行動分析

以上の分析を通じて、SIEM がどのように外部からの侵入を検知し、防御するのかがわかりました。しかし、セキュリティの世界では、考慮すべき別の側面があります。それは、内部者の脅威です。

ここで、例を考えてみましょう。ある従業員が VPN を使用してタスクを完了しているときにフィッシング攻撃の被害者となり、ユーザー名とパスワード情報が盗まれ、システムがデータ漏洩攻撃に直面しているとします。したがって、SIM では、こうした異常な個人の行動や一連のアクティビティを検知すれば、それらを結び付けて、データ漏洩や国境を越えた転送の異常または危険なケースを指摘し、一致させることができるはずです。

SIM には、ユーザーと環境のさまざまな動作を理解して分析し、さまざまなアクティビティを関連付けて、いわゆる「攻撃チェーン」を生成できるほど高度なシステムが必要です。ここでの攻撃チェーンとは、全体的なイベント「チェーン」の識別を指します。これには、現在のイベントに関する誰が、何を、どこで、いつ、なぜ、どのようになどの具体的な詳細が含まれ、最終的にはイベント全体の現在の状態を明確に示します。

これらは、何が起こったのか、何が確認されたのかをユーザーが理解するのに役立ちます。システムによって提供される情報は非常に貴重です。これらは、ユーザーがタイムラインや影響など人工知能にさらなるフィードバックを提供するのに役立ち、最終的にはシステムが何百万もの通常のイベントを適切に分類し、何千もの「異常なイベント」をマークし、そのうちのどれが実際の「攻撃イベント」であるかを判断し、ANN によって確認されたすべての「攻撃チェーン」を関係図を含めて提供できるようにします。

結論は

人工知能技術のさまざまな利点は、現在のネットワークセキュリティインフラストラクチャに適用できます。もちろん、近い将来、人工知能 (AI) システムがさらに強力になるにつれ、より自動化され、より洗練されたソーシャルエンジニアリング攻撃も見られるようになるでしょう。さまざまな種類の AI を利用したサイバー攻撃により、ネットワークへの侵入や個人データの盗難が爆発的に増加し、コンピューターウイルスが巧妙に拡散することになります。

皮肉なことに、私たちは今でも AI を使ってさまざまな攻撃を防御することを望んでいます。諺にもあるように、「美徳が高ければ、悪も高まる」。このまま事態が進展すれば、AI 型の「軍拡競争」につながり、その結果はますます複雑化するだろう。

原題: 機械学習を利用した攻撃、著者: Saman Abbad

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: ディープラーニングでは複素数を使うべきでしょうか?

>>: 3日間で自己学習したAlphaZeroがAlphaGoに勝利。GitHubの2017年年次レポートは人工知能の人気ぶりを示す！