[51CTO.com クイック翻訳] 近年の機械学習技術の急速な発展により、ネットワークセキュリティシステムの強化に、拡張予測機能を備えたさまざまな自動化技術が応用されています。 周知のとおり、ネットワーク セキュリティに対する最も一般的なリスクは、ブルート フォース クラッキング、サービス拒否、ネットワーク侵入などの侵入から生じます。今日、ネットワークの動作パターンが変化するにつれて、業界では一般的に、静的なデータ セット戦略だけではトラフィックの特定の構成を捕捉して傍受することはできないと考えています。したがって、さまざまな侵入を検出し防御するための動的なアプローチを採用する必要があります。 言い換えれば、従来の侵入検知システム (IDS) を簡単に回避できる複雑な攻撃ベクトルを学習して処理するには、変更可能で、繰り返し可能で、スケーラブルなデータセットが必要です。次に、機械学習が侵入検知にどのように役立ち、より強力で堅牢な IDS を構築できるかについて説明します。 IDSに関連する機械学習関連の概念さまざまな機械学習アルゴリズムの中で、教師なし学習アルゴリズムは、ネットワークからさまざまな典型的なパターンを「学習」し、ラベル付けされたデータセットなしで異常を報告できます。さまざまな新しいタイプの侵入を検出できますが、誤検知が発生しやすくなります。したがって、ここでは教師なし K 平均法クラスタリング アルゴリズムについてのみ説明します。さらに、誤検知を減らすために、ラベル付けされたデータセットを導入し、教師あり機械学習モデルを構築して、ネットワーク内の通常のデータパケットと攻撃トラフィック間の特性の違いをトレーニングすることができます。このような教師ありモデルは、さまざまな既知の攻撃を巧みに処理し、そのような攻撃の亜種を識別することができます。したがって、以下で説明する標準的な教師ありアルゴリズムには、ベイジアン ネットワーク、ランダム フォレスト、ランダム ツリー、MLP、決定表が含まれます。 データセット機械学習モデルの開始時に、最も重要かつ面倒なプロセスは、さまざまな信頼できるデータを取得することです。ここでは、KDD Cup 1999 のデータを使用して、侵入攻撃と本当に価値のあるトラフィック接続を区別するための予測モデルを構築します。 KDD Cup 1999 は、軍事ネットワーク環境でシミュレートされたさまざまな介入モデルを含む標準データセットです。4,898,431 個のインスタンスと 41 個の属性で構成されています。 次の 4 つの攻撃タイプを追跡し、各接続は正常または攻撃的としてマークされます。また、各接続レコードは約 100 バイトで構成されます。
下表の通り、各タイプにはそれぞれ特有の攻撃形態があり、合計21種類あります。 KDDコレクション次の表に示すように、TCP/IP プロトコルに基づく接続セットの基本的な分類特性をまとめます。 データを機械学習アルゴリズムで使用するには、まず特徴選択によって処理する必要があります。いくつかの要素の特徴は簡単に見つけることができますが、他の要素の特徴を見つけるには実験とテストが必要です。もちろん、一部の機能は冗長であり、異なるカテゴリを区別することに意味がない場合があるため、IDS でデータセットのすべての機能を使用することで必ずしも最高のパフォーマンスが達成されるわけではなく、場合によってはシステムの計算コストとエラー率が増加することもあります。 ここで、データセットの主な貢献は、上記の基本機能(DoS の検出、プロービング、R2L、U2R)を含む、専門家が提案する属性を導入することで、システムがさまざまな種類の攻撃動作を理解できるようにすることです。次の表は、さまざまな分野のナレッジベースによって提供されるコンテンツ機能のリストです。 機械学習アルゴリズムの簡単な紹介K平均法クラスタリング 前述したように、K-means クラスタリングは教師なし学習手法です。これは最もシンプルで最も人気のある機械学習アルゴリズムの 1 つです。データ内の個別のグループを検索します。グループの数は変数 K で表されます。アルゴリズムは、データセットの特性に基づいて、異なるデータ ポイントを K グループの 1 つに割り当てます。さまざまな機能の類似性に基づいて、各データ ポイントがクラスター化されます。 ベイジアンネットワーク ベイジアン ネットワークは確率的なグラフィカル モデルです。その原理は、有向グラフのエッジに依存関係を描き、条件の依存関係を最大限に活用することです。エッジで接続されていないすべてのノードは条件付きで独立していると想定します。そして、有向非巡回グラフを作成するときにこの事実を利用します。 ランダムフォレスト分類器 ランダムフォレストは、複数のアルゴリズムを組み合わせて分類を実現する統合分類器です。これらのアルゴリズムは、データのランダムなサブセットに対して複数の決定木を作成し、各木からの合計投票を集計してテストのクラスを決定します。同時に、個々のツリーの貢献度に重み値も割り当てます。 多層知覚 (MLP) MLP はフィードフォワードニューラルネットワークです。少なくとも入力層、隠れ層、出力層の 3 つの層で構成されます。トレーニング中に、さまざまな重みやパラメータを調整することで、分類のエラーを最小限に抑えることができます。このアルゴリズムは、各隠しノードに非線形性を導入します。バックプロパゲーションは、エラーを参照して重みとバイアスを調整するために使用されます。 成し遂げる以下では、Python とその広範なライブラリを使用して IDS を実装します。もちろん、事前に Pandas (Python ベースの大規模データセット分析ライブラリ)、NumPy (Python のオープンソース数値計算拡張機能)、Scipy (数学、科学、工学で使用できる一般的なソフトウェア パッケージで、Numpy 行列の計算によく使用され、Numpy と連携できます) をインストールする必要があります。 Ubuntu を使用している場合、対応するシェル コマンドは次のようになります。
まず、データセットを前処理する必要があります。つまり、データセットをダウンロードして、プログラムに対応するフォルダーに抽出する必要があります。同時に、Python の読み取りを容易にするために、データセットは .csv 形式にする必要があります。したがって、具体的なコマンドは次のようになります。
上で説明したさまざまな機械学習アルゴリズムは、「魔法の」Scipy ライブラリに保存する必要があります。以下の手順に従って、さまざまなモデルを使用してターゲット データセットをすばやく実行できます。 K平均法
ナイーブベイジアンネットワーク
多層的な認識
結果機械学習モデルの精度を測定するために、平均精度、偽陽性率、偽陰性率など、さまざまな測定次元の参照指標を紹介します。 K-means は教師なしアルゴリズムであるため、このメトリックからは除外されます。 以下の式に示すように、平均精度は、正しく分類されたデータ ポイントの総数に対する比率として定義されます。 明らかに、ここでの「誤検知」とは、脅威であると判断されるが実際にはそうではないデータ トラフィックを指します。同様に、「偽陰性」とは、実際には脅威であるが、IDS によって検出および報告されていないトラフィックを指します。 参照および測定できるその他の指標には、精度と真陽性が含まれます。で:
申請の意義ある程度、現在のすべての IDS は、増大するネットワーク セキュリティの脅威に対処するために機械学習テクノロジを導入する必要があります。機械学習を活用した IDS は、きめ細やかで高精度な自動検出を実現します。その結果、企業はさまざまな検出結果を使用して攻撃元を追跡し、さらなる侵入を防ぎ、自社のネットワークを最適化することができます。さらに、ユーザー企業は脅威シグネチャを注文して新たな攻撃を特定するために時間と競争する必要がなくなります。もちろん、さまざまな機械学習アルゴリズムは、さまざまなアプリケーションや検出シナリオで独自の強みを持っています。ネットワークとユーザー トラフィックの特性に基づいて、環境に最適な機械学習ベースの IDS ソリューションを選択する必要があります。 原題: 侵入検知システム向け ML アルゴリズムの評価、著者: Aman Juneja [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
>>: 家のドアをロックするChuangmi Technologyは、スマートホームセキュリティブランドをリードするスマートドアロックC1を発売しました。
9月24日、中国聯通の「ネットワークAIフォーラム」が北京で開催された。フォーラムは5GとAI技術の...
2月16日のOpenAI Soraのリリースは、間違いなくビデオ生成の分野における大きな進歩を示しま...
2020 年は特別で忘れられない年であり、人工知能にとっても同じことが言えます。 [[374502]...
OpenAI 初の春祭りガラ、スタートアップ企業にとっての殺戮の夜。サム・アルトマンはこう言います。...
18 世紀半ば以降、3 度の産業革命により、蒸気駆動の機械生産から電気駆動の機械生産へと、人類社会に...
[[381496]]ロボティック プロセス オートメーションにより、ワークフローが合理化され、レガシ...
[51CTO.com からのオリジナル記事] テクノロジーが国の基盤であるならば、人工知能は将来の技...
今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...
私たちは長い間、ロボットを私たちの世界から締め出すことができるのか、あるいは人間は人工知能(あるいは...
メタバースは現実世界を揺るがしており、未知の部分が多すぎるため、賛否両論の評価を受けています。しかし...
[[344779]] 2020年は紆余曲折と困難の年でした。このような背景から、人類にさらに貢献し、...
[[402551]]ナレッジマネジメントは企業と個人の両方にとって非常に重要です。従来の知識管理は、...