機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティデータ分析は、状況を理解し、問題を特定し、リスクを予測するために使用され、無限のマーケティングの可能性をもたらします。理想的な状況は、機械学習プログラムを動かすデータを攻撃から抽出し、それをアルゴリズムに入力して、すべてを制御できるようにすることです。

[[179782]]

情報セキュリティツールとしての「機械学習」に関する誇大宣伝は、データサイエンスのそれほど魅力的ではないが重要な側面、つまりデータの収集と準備（後者はデータサイエンティストの時間の約 80% を占めます）を覆い隠しています。実際のところ、効果的な結果を得るには、機械学習やその他のアルゴリズムを適切かつクリーンで十分に理解されたデータに適用する必要があります。

セキュリティ市場にこのような誤解を招く傾向があることは驚くことではありませんが、セキュリティ分野でそれが起こると、有害な影響を及ぼす可能性があります。情報セキュリティには、非常に多くの複雑で多様なデータセットがあり、それらが統合され、さまざまな利害関係者グループ (CISO、セキュリティオペレーター、IT オペレーター、リスク委員会など) 向けに自動分析を通じて提示されます。

機械学習製品が大きな約束をしながらも、得られる結果が限られている場合、それはデータ懐疑論者、さらにはセキュリティプログラムの予算を決定する人々にとってさえ、問題となるでしょう。一度失敗すると、同じデータ主導のアプローチを再び採用する可能性は低くなります。

データを金に変えると主張する分析/メトリクスツールを購入する場合、考慮すべき重要な情報は次のとおりです。

1. ツールが約束する結果を得るためにはどのようなデータが必要ですか?

一部の分析製品は、特定の方法でシステムからデータを取得しないと機能しません。たとえば、購入したいプラットフォームが Web プロキシデータを使用する場合、ログイン許可を与えるリスクと、セキュリティのために講じたさまざまな対策とのバランスをどのように取るのでしょうか。情報セキュリティの拡大に伴うログインのニーズをどのように満たすのでしょうか。データストレージのニーズをどのように満たすのでしょうか。

必要な情報を得るには、インターネット全体からより多くのデータを入手する必要があります。そうしないと、無視できないすべての重要なリスクではなく、目に見える危険だけに基づいて決定を下す可能性があります。

分析製品に利用できない特定のデータまたはデータセットがある場合、ベンダーは意思決定に使用される情報の完全性とマーケティング資料との間の不一致について通知する必要があります。

さらに、さまざまなデータソースを取得するために実行する必要があるさまざまな些細なタスクを考慮する必要があります。このデータの所有者は誰ですか: 情報セキュリティベンダーですか、それともサードパーティ (インフラストラクチャや外部ベンダーなど) ですか? データにアクセスできますか? どのような形式で、データは変更されていますか? 変更された場合、分析結果に影響するため、これは非常に重要です。

データはどのくらい早く取得できますか。また、データが作成されてからどのくらい早く取得できますか。データは API 経由でクラウドから取得されるだけですか (脆弱性データなど)、それともネットワークチームがインフラストラクチャを通じてログをダンプする必要がありますか (Active Directory イベントログなど)。データの生成と取り込みの間の遅延は、タイムリーな対応能力に影響を与える可能性があります。

2. 約束されたレベルの精度と有効性を達成するには、製品のインストール後どのくらいの期間でデータを収集する必要がありますか。また、その前に、結果 (理想的ではない場合でも) はいつ入手できますか。

機械学習モデルをトレーニングする必要があります。たとえば、異常なネットワーク動作を探す脅威検出ツールには、まず、最近の一般的なネットワーク動作をすべて網羅したデータが提供される必要があります。モデルに多くのデータがあれば、本当に異常な動作をより正確に検出できるようになります。特定の時間にツールを使用して問題を解決する場合、ベンダーはモデルトレーニングに関するすべての詳細情報をタイムリーに提供する必要があります。

3. 分析ツールによって出力されたデータはどのように表示されますか? これらの出力を実用的な「結果」に変換するために、チームはどのようなフォローアップ作業を行う必要がありますか?

新しい脅威検出ソリューションによって、処理が必要なアラートが 1 日あたり 1,500 件生成される場合、セキュリティ運用を担当するスタッフをさらに雇用する必要があります。さらに、サービスプロバイダーは、これらのアラートのうちどれだけが本物であるかを自信を持って言うことができますか?

機械学習モデルは常に「偽の脅威」を返すため、アルゴリズムの精度（すべての脅威のうち何パーセントが真の脅威であるか）と、発生するデバッグコストをベンダーに必ず確認してください。精度が低い場合、チームは多くのノイズコストに対処する必要があります。ノイズが大きすぎて、ベンダーのアナリストがそのレベルに到達するまでにまだ多くのデバッグが必要な場合は、その能力にあまり自信を持たない方がよいでしょう。

アクセスが難しく、インターネット経由で送信するのが難しい 7 つのソースからデータを取得する必要がある場合でも、問題にならない可能性があります。投資に見合った利益が得られるかを知るには、機械がトレーニングされるまで 9 か月待たなければならないとしても、それはおそらく大した問題ではありません。しかし、上記の可能性を知らないと、それは本当に面倒です。なぜなら、これらの要因は、時間、人材、お金をどのように投資するか、また結果に対する心理的な期待をどのように設定するかに影響を与えるからです。

<<: スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック

>>: Microsoft EdgeブラウザがGoogleのオープンソース圧縮アルゴリズムをサポート