ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状況を理解し、問題を特定し、リスクを予測するために使用され、無限のマーケティングの可能性をもたらします。理想的な状況は、機械学習プログラムを動かすデータを攻撃から抽出し、それをアルゴリズムに入力して、すべてを制御できるようにすることです。
情報セキュリティツールとしての「機械学習」に関する誇大宣伝は、データサイエンスのそれほど魅力的ではないが重要な側面、つまりデータの収集と準備(後者はデータサイエンティストの時間の約 80% を占めます)を覆い隠しています。実際のところ、効果的な結果を得るには、機械学習やその他のアルゴリズムを適切かつクリーンで十分に理解されたデータに適用する必要があります。 セキュリティ市場にこのような誤解を招く傾向があることは驚くことではありませんが、セキュリティ分野でそれが起こると、有害な影響を及ぼす可能性があります。情報セキュリティには、非常に多くの複雑で多様なデータ セットがあり、それらが統合され、さまざまな利害関係者グループ (CISO、セキュリティ オペレーター、IT オペレーター、リスク委員会など) 向けに自動分析を通じて提示されます。 機械学習製品が大きな約束をしながらも、得られる結果が限られている場合、それはデータ懐疑論者、さらにはセキュリティ プログラムの予算を決定する人々にとってさえ、問題となるでしょう。一度失敗すると、同じデータ主導のアプローチを再び採用する可能性は低くなります。 データを金に変えると主張する分析/メトリクス ツールを購入する場合、考慮すべき重要な情報は次のとおりです。 1. ツールが約束する結果を得るためにはどのようなデータが必要ですか? 一部の分析製品は、特定の方法でシステムからデータを取得しないと機能しません。たとえば、購入したいプラットフォームが Web プロキシ データを使用する場合、ログイン許可を与えるリスクと、セキュリティのために講じたさまざまな対策とのバランスをどのように取るのでしょうか。情報セキュリティの拡大に伴うログインのニーズをどのように満たすのでしょうか。データ ストレージのニーズをどのように満たすのでしょうか。 必要な情報を得るには、インターネット全体からより多くのデータを入手する必要があります。そうしないと、無視できないすべての重要なリスクではなく、目に見える危険だけに基づいて決定を下す可能性があります。 分析製品に利用できない特定のデータまたはデータ セットがある場合、ベンダーは意思決定に使用される情報の完全性とマーケティング資料との間の不一致について通知する必要があります。 さらに、さまざまなデータ ソースを取得するために実行する必要があるさまざまな些細なタスクを考慮する必要があります。このデータの所有者は誰ですか: 情報セキュリティ ベンダーですか、それともサードパーティ (インフラストラクチャや外部ベンダーなど) ですか? データにアクセスできますか? どのような形式で、データは変更されていますか? 変更された場合、分析結果に影響するため、これは非常に重要です。 データはどのくらい早く取得できますか。また、データが作成されてからどのくらい早く取得できますか。データは API 経由でクラウドから取得されるだけですか (脆弱性データなど)、それともネットワーク チームがインフラストラクチャを通じてログをダンプする必要がありますか (Active Directory イベント ログなど)。データの生成と取り込みの間の遅延は、タイムリーな対応能力に影響を与える可能性があります。 2. 約束されたレベルの精度と有効性を達成するには、製品のインストール後どのくらいの期間でデータを収集する必要がありますか。また、その前に、結果 (理想的ではない場合でも) はいつ入手できますか。 機械学習モデルをトレーニングする必要があります。たとえば、異常なネットワーク動作を探す脅威検出ツールには、まず、最近の一般的なネットワーク動作をすべて網羅したデータが提供される必要があります。モデルに多くのデータがあれば、本当に異常な動作をより正確に検出できるようになります。特定の時間にツールを使用して問題を解決する場合、ベンダーはモデル トレーニングに関するすべての詳細情報をタイムリーに提供する必要があります。 3. 分析ツールによって出力されたデータはどのように表示されますか? これらの出力を実用的な「結果」に変換するために、チームはどのようなフォローアップ作業を行う必要がありますか? 新しい脅威検出ソリューションによって、処理が必要なアラートが 1 日あたり 1,500 件生成される場合、セキュリティ運用を担当するスタッフをさらに雇用する必要があります。さらに、サービス プロバイダーは、これらのアラートのうちどれだけが本物であるかを自信を持って言うことができますか? 機械学習モデルは常に「偽の脅威」を返すため、アルゴリズムの精度(すべての脅威のうち何パーセントが真の脅威であるか)と、発生するデバッグ コストをベンダーに必ず確認してください。精度が低い場合、チームは多くのノイズコストに対処する必要があります。ノイズが大きすぎて、ベンダーのアナリストがそのレベルに到達するまでにまだ多くのデバッグが必要な場合は、その能力にあまり自信を持たない方がよいでしょう。 アクセスが難しく、インターネット経由で送信するのが難しい 7 つのソースからデータを取得する必要がある場合でも、問題にならない可能性があります。投資に見合った利益が得られるかを知るには、機械がトレーニングされるまで 9 か月待たなければならないとしても、それはおそらく大した問題ではありません。しかし、上記の可能性を知らないと、それは本当に面倒です。なぜなら、これらの要因は、時間、人材、お金をどのように投資するか、また結果に対する心理的な期待をどのように設定するかに影響を与えるからです。 |
<<: スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック
>>: Microsoft EdgeブラウザがGoogleのオープンソース圧縮アルゴリズムをサポート
[[251517]] 12月4日(浙江オンライン記者曽福全)このほど杭州で開催された浙江脳画像サミ...
ビッグデータが何であるかを知っている人は多いですが、スモールデータと機械学習におけるその重要性を知っ...
エッジ人工知能 (EdgeAI) は、人工知能の分野における新しい注目の領域の 1 つです。目標は、...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
デジタル変革は、現在の企業、特にハイテクの伝統的な製造業の主なテーマとなっています。人工知能、クラウ...
C# アルゴリズムの面接の質問: プログラミング: 猫が叫び、ネズミが全員逃げ出し、飼い主は目を覚ま...
海外メディアの報道によると、ニューヨーク州議会は、学校での顔認証やその他の生体認証技術の使用を202...
【51CTO.com クイック翻訳】 [[379353]]現代社会に人工知能の波が押し寄せる中、機械...
人工知能はあらゆる社会的立場を変えるイノベーションです。これは、データを統合し、情報を分析し、その後...
今日は、go-openai を使用して chatGPT を呼び出すという興味深いトピックを皆さんと共...
復旦大学データインテリジェンスおよびソーシャルコンピューティング研究所復旦大学のデータインテリジェン...
3月15日にも、別の悪徳業者が監視カメラで摘発されたが、消費者の関心を最も集めたニュースは「顔情報の...