IDSにおける機械学習アルゴリズムの応用

IDSにおける機械学習アルゴリズムの応用

[[267184]]

[51CTO.com クイック翻訳] 近年の機械学習技術の急速な発展により、ネットワークセキュリティシステムの強化に、拡張予測機能を備えたさまざまな自動化技術が応用されています。

周知のとおり、ネットワーク セキュリティに対する最も一般的なリスクは、ブルート フォース クラッキング、サービス拒否、ネットワーク侵入などの侵入から生じます。今日、ネットワークの動作パターンが変化するにつれて、業界では一般的に、静的なデータ セット戦略だけではトラフィックの特定の構成を捕捉して傍受することはできないと考えています。したがって、さまざまな侵入を検出し防御するための動的なアプローチを採用する必要があります。

言い換えれば、従来の侵入検知システム (IDS) を簡単に回避できる複雑な攻撃ベクトルを学習して処理するには、変更可能で、繰り返し可能で、スケーラブルなデータセットが必要です。次に、機械学習が侵入検知にどのように役立ち、より強力で堅牢な IDS を構築できるかについて説明します。

IDSに関連する機械学習関連の概念

さまざまな機械学習アルゴリズムの中で、教師なし学習アルゴリズムは、ネットワークからさまざまな典型的なパターンを「学習」し、ラベル付けされたデータセットなしで異常を報告できます。さまざまな新しいタイプの侵入を検出できますが、誤検知が発生しやすくなります。したがって、ここでは教師なし K 平均法クラスタリング アルゴリズムについてのみ説明します。さらに、誤検知を減らすために、ラベル付けされたデータセットを導入し、教師あり機械学習モデルを構築して、ネットワーク内の通常のデータパケットと攻撃トラフィック間の特性の違いをトレーニングすることができます。このような教師ありモデルは、さまざまな既知の攻撃を巧みに処理し、そのような攻撃の亜種を識別することができます。したがって、以下で説明する標準的な教師ありアルゴリズムには、ベイジアン ネットワーク、ランダム フォレスト、ランダム ツリー、MLP、決定表が含まれます。

データセット

機械学習モデルの開始時に、最も重要かつ面倒なプロセスは、さまざまな信頼できるデータを取得することです。ここでは、KDD Cup 1999 のデータを使用して、侵入攻撃と本当に価値のあるトラフィック接続を区別するための予測モデルを構築します。 KDD Cup 1999 は、軍事ネットワーク環境でシミュレートされたさまざまな介入モデルを含む標準データセットです。4,898,431 個のインスタンスと 41 個の属性で構成されています。

次の 4 つの攻撃タイプを追跡し、各接続は正常または攻撃的としてマークされます。また、各接続レコードは約 100 バイトで構成されます。

  • サービス拒否
  • R2L: リモートマシンからの不正アクセス
  • U2R: ローカル ルート権限からの不正アクセス
  • 検出: 監視と再度の検査の要求

下表の通り、各タイプにはそれぞれ特有の攻撃形態があり、合計21種類あります。

KDDコレクション

次の表に示すように、TCP/IP プロトコルに基づく接続セットの基本的な分類特性をまとめます。

データを機械学習アルゴリズムで使用するには、まず特徴選択によって処理する必要があります。いくつかの要素の特徴は簡単に見つけることができますが、他の要素の特徴を見つけるには実験とテストが必要です。もちろん、一部の機能は冗長であり、異なるカテゴリを区別することに意味がない場合があるため、IDS でデータセットのすべての機能を使用することで必ずしも最高のパフォーマンスが達成されるわけではなく、場合によってはシステムの計算コストとエラー率が増加することもあります。

ここで、データセットの主な貢献は、上記の基本機能(DoS の検出、プロービング、R2L、U2R)を含む、専門家が提案する属性を導入することで、システムがさまざまな種類の攻撃動作を理解できるようにすることです。次の表は、さまざまな分野のナレッジベースによって提供されるコンテンツ機能のリストです。

機械学習アルゴリズムの簡単な紹介

K平均法クラスタリング

前述したように、K-means クラスタリングは教師なし学習手法です。これは最もシンプルで最も人気のある機械学習アルゴリズムの 1 つです。データ内の個別のグループを検索します。グループの数は変数 K で表されます。アルゴリズムは、データセットの特性に基づいて、異なるデータ ポイントを K グループの 1 つに割り当てます。さまざまな機能の類似性に基づいて、各データ ポイントがクラスター化されます。

ベイジアンネットワーク

ベイジアン ネットワークは確率的なグラフィカル モデルです。その原理は、有向グラフのエッジに依存関係を描き、条件の依存関係を最大限に活用することです。エッジで接続されていないすべてのノードは条件付きで独立していると想定します。そして、有向非巡回グラフを作成するときにこの事実を利用します。

ランダムフォレスト分類器

ランダムフォレストは、複数のアルゴリズムを組み合わせて分類を実現する統合分類器です。これらのアルゴリズムは、データのランダムなサブセットに対して複数の決定木を作成し、各木からの合計投票を集計してテストのクラスを決定します。同時に、個々のツリーの貢献度に重み値も割り当てます。

多層知覚 (MLP)

MLP はフィードフォワードニューラルネットワークです。少なくとも入力層、隠れ層、出力層の 3 つの層で構成されます。トレーニング中に、さまざまな重みやパラメータを調整することで、分類のエラーを最小限に抑えることができます。このアルゴリズムは、各隠しノードに非線形性を導入します。バックプロパゲーションは、エラーを参照して重みとバイアスを調整するために使用されます。

成し遂げる

以下では、Python とその広範なライブラリを使用して IDS を実装します。もちろん、事前に Pandas (Python ベースの大規模データセット分析ライブラリ)、NumPy (Python のオープンソース数値計算拡張機能)、Scipy (数学、科学、工学で使用できる一般的なソフトウェア パッケージで、Numpy 行列の計算によく使用され、Numpy と連携できます) をインストールする必要があります。 Ubuntu を使用している場合、対応するシェル コマンドは次のようになります。

  1. sudo pip インストール numpy scipy pandas

まず、データセットを前処理する必要があります。つまり、データセットをダウンロードして、プログラムに対応するフォルダーに抽出する必要があります。同時に、Python の読み取りを容易にするために、データセットは .csv 形式にする必要があります。したがって、具体的なコマンドは次のようになります。

  1. # パンダをインポートする
  2. pandasをpdとしてインポートする 
  3. # csv の読み取り
  4. ファイルデータセット = pd.read_csv( "filename.csv" )

上で説明したさまざまな機械学習アルゴリズムは、「魔法の」Scipy ライブラリに保存する必要があります。以下の手順に従って、さまざまなモデルを使用してターゲット データセットをすばやく実行できます。

K平均法

  1. numpyをnpとしてインポートする 
  2. sklearn.clusterから 
  3. KMeansをインポートする 
  4. 印刷(データセット.describe())  
  5.  読み込まれたデータセット概要を表示する 
  6. kmeans = KMeans(n_clusters=2)  
  7. # 脅威を 5つに分類します: Normal、DOS、PROBE、R2L U2R  
  8. kmeans.fit(X)  
  9. 予測 = kmeans.predict(データセット[0])  
  10. #最初エントリタイプを予測します 
  11. ランダムフォレスト
  12. #ランダムフォレストモデルのインポート 
  13. sklearn.ensembleより 
  14. RandomForestClassifierをインポートする 
  15. #ガウス分布を作成する 
  16. 分類器 clf=RandomForestClassifier(n_estimators=50)  
  17. #トレーニングを使用してモデルをトレーニングする 
  18. データセット clf.fit(データセット,データセット[:,LAST_COLUMN])  
  19. #LAST_COLUMNインデックスです  脅威または通常ラベル付き 
  20. pred = clf.predict(データセット)

ナイーブベイジアンネットワーク

  1. sklearn.naive_bayesより 
  2. GaussianNBをインポートする 
  3. #ガウス単純ベイズ分類器を作成する 
  4. gnb = ガウスNB()  
  5. gnb.fit(データセット,データセット[:,LAST_COLMN])  
  6. pred = 予測(gnb, データセット[0])

多層的な認識

  1. sklearn.neural_networkより 
  2. MLPClassifierをインポートする 
  3. #多層パーセプトロンを作成する 
  4. clf = MLPClassifier(ソルバー= 'lbfgs' 、アルファ=1e-5、隠しレイヤーサイズ=(5, 2)、ランダム状態=1)  
  5. clf.fit(データセット,データセット[:,LAST_COLMN])  
  6. データセット[0]を予測します。

結果

機械学習モデルの精度を測定するために、平均精度、偽陽性率、偽陰性率など、さまざまな測定次元の参照指標を紹介します。 K-means は教師なしアルゴリズムであるため、このメトリックからは除外されます。

以下の式に示すように、平均精度は、正しく分類されたデータ ポイントの総数に対する比率として定義されます。

明らかに、ここでの「誤検知」とは、脅威であると判断されるが実際にはそうではないデータ トラフィックを指します。同様に、「偽陰性」とは、実際には脅威であるが、IDS によって検出および報告されていないトラフィックを指します。

参照および測定できるその他の指標には、精度と真陽性が含まれます。で:

  • 精度は、検出された脅威の数と脅威の総数の比率です。
  • 真陽性とは、識別および判断できるすべてのパケットのうち、脅威パケットとして正常に識別できるパケットの比率を指します。

申請の意義

ある程度、現在のすべての IDS は、増大するネットワーク セキュリティの脅威に対処するために機械学習テクノロジを導入する必要があります。機械学習を活用した IDS は、きめ細やかで高精度な自動検出を実現します。その結果、企業はさまざまな検出結果を使用して攻撃元を追跡し、さらなる侵入を防ぎ、自社のネットワークを最適化することができます。さらに、ユーザー企業は脅威シグネチャを注文して新たな攻撃を特定するために時間と競争する必要がなくなります。もちろん、さまざまな機械学習アルゴリズムは、さまざまなアプリケーションや検出シナリオで独自の強みを持っています。ネットワークとユーザー トラフィックの特性に基づいて、環境に最適な機械学習ベースの IDS ソリューションを選択する必要があります。

原題: 侵入検知システム向け ML アルゴリズムの評価、著者: Aman Juneja

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  初心者必読!畳み込みニューラルネットワークの始め方

>>:  家のドアをロックするChuangmi Technologyは、スマートホームセキュリティブランドをリードするスマートドアロックC1を発売しました。

推薦する

AsiaInfoが中国聯通のネットワークAIフォーラムに参加し、自動運転ネットワークの革新研究拠点の設立を開始

9月24日、中国聯通の「ネットワークAIフォーラム」が北京で開催された。フォーラムは5GとAI技術の...

国内大学がSORA型VDTを開発、汎用ビデオ拡散トランスフォーマーがICLR2024に採択

2月16日のOpenAI Soraのリリースは、間違いなくビデオ生成の分野における大きな進歩を示しま...

人工知能応用シナリオのレビューと展望

2020 年は特別で忘れられない年であり、人工知能にとっても同じことが言えます。 [[374502]...

...

業界の洞察 | 世界の人工知能とその産業チェーン

18 世紀半ば以降、3 度の産業革命により、蒸気駆動の機械生産から電気駆動の機械生産へと、人類社会に...

ロボティック プロセス オートメーションについて知っておくべき 10 のこと

[[381496]]ロボティック プロセス オートメーションにより、ワークフローが合理化され、レガシ...

AIカンファレンスは数多くあるが、私たちは違う

[51CTO.com からのオリジナル記事] テクノロジーが国の基盤であるならば、人工知能は将来の技...

...

工業情報化部:電話ネットワークアクセスの物理チャネルに肖像マッチング技術を導入

今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...

将来、ロボットは人間よりもはるかに強力になります。ロボットは人間に反抗するでしょうか?

私たちは長い間、ロボットを私たちの世界から締め出すことができるのか、あるいは人間は人工知能(あるいは...

...

AIは地球を救うことができるのか

メタバースは現実世界を揺るがしており、未知の部分が多すぎるため、賛否両論の評価を受けています。しかし...

陳作寧院士:人工知能モデルとアルゴリズムの7つの発展傾向

[[344779]] 2020年は紆余曲折と困難の年でした。このような背景から、人類にさらに貢献し、...

AI時代には、ナレッジグラフとナレッジマネジメントの二重の価値を活用する必要がある

[[402551]]ナレッジマネジメントは企業と個人の両方にとって非常に重要です。従来の知識管理は、...