機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状況を理解し、問題を特定し、リスクを予測するために使用され、無限のマーケティングの可能性をもたらします。理想的な状況は、機械学習プログラムを動かすデータを攻撃から抽出し、それをアルゴリズムに入力して、すべてを制御できるようにすることです。

[[179782]]

情報セキュリティツールとしての「機械学習」に関する誇大宣伝は、データサイエンスのそれほど魅力的ではないが重要な側面、つまりデータの収集と準備(後者はデータサイエンティストの時間の約 80% を占めます)を覆い隠しています。実際のところ、効果的な結果を得るには、機械学習やその他のアルゴリズムを適切かつクリーンで十分に理解されたデータに適用する必要があります。

セキュリティ市場にこのような誤解を招く傾向があることは驚くことではありませんが、セキュリティ分野でそれが起こると、有害な影響を及ぼす可能性があります。情報セキュリティには、非常に多くの複雑で多様なデータ セットがあり、それらが統合され、さまざまな利害関係者グループ (CISO、セキュリティ オペレーター、IT オペレーター、リスク委員会など) 向けに自動分析を通じて提示されます。

機械学習製品が大きな約束をしながらも、得られる結果が限られている場合、それはデータ懐疑論者、さらにはセキュリティ プログラムの予算を決定する人々にとってさえ、問題となるでしょう。一度失敗すると、同じデータ主導のアプローチを再び採用する可能性は低くなります。

データを金に変えると主張する分析/メトリクス ツールを購入する場合、考慮すべき重要な情報は次のとおりです。

1. ツールが約束する結果を得るためにはどのようなデータが必要ですか?

一部の分析製品は、特定の方法でシステムからデータを取得しないと機能しません。たとえば、購入したいプラットフォームが Web プロキシ データを使用する場合、ログイン許可を与えるリスクと、セキュリティのために講じたさまざまな対策とのバランスをどのように取るのでしょうか。情報セキュリティの拡大に伴うログインのニーズをどのように満たすのでしょうか。データ ストレージのニーズをどのように満たすのでしょうか。

必要な情報を得るには、インターネット全体からより多くのデータを入手する必要があります。そうしないと、無視できないすべての重要なリスクではなく、目に見える危険だけに基づいて決定を下す可能性があります。

分析製品に利用できない特定のデータまたはデータ セットがある場合、ベンダーは意思決定に使用される情報の完全性とマーケティング資料との間の不一致について通知する必要があります。

さらに、さまざまなデータ ソースを取得するために実行する必要があるさまざまな些細なタスクを考慮する必要があります。このデータの所有者は誰ですか: 情報セキュリティ ベンダーですか、それともサードパーティ (インフラストラクチャや外部ベンダーなど) ですか? データにアクセスできますか? どのような形式で、データは変更されていますか? 変更された場合、分析結果に影響するため、これは非常に重要です。

データはどのくらい早く取得できますか。また、データが作成されてからどのくらい早く取得できますか。データは API 経由でクラウドから取得されるだけですか (脆弱性データなど)、それともネットワーク チームがインフラストラクチャを通じてログをダンプする必要がありますか (Active Directory イベント ログなど)。データの生成と取り込みの間の遅延は、タイムリーな対応能力に影響を与える可能性があります。

2. 約束されたレベルの精度と有効性を達成するには、製品のインストール後どのくらいの期間でデータを収集する必要がありますか。また、その前に、結果 (理想的ではない場合でも) はいつ入手できますか。

機械学習モデルをトレーニングする必要があります。たとえば、異常なネットワーク動作を探す脅威検出ツールには、まず、最近の一般的なネットワーク動作をすべて網羅したデータが提供される必要があります。モデルに多くのデータがあれば、本当に異常な動作をより正確に検出できるようになります。特定の時間にツールを使用して問題を解決する場合、ベンダーはモデル トレーニングに関するすべての詳細情報をタイムリーに提供する必要があります。

3. 分析ツールによって出力されたデータはどのように表示されますか? これらの出力を実用的な「結果」に変換するために、チームはどのようなフォローアップ作業を行う必要がありますか?

新しい脅威検出ソリューションによって、処理が必要なアラートが 1 日あたり 1,500 件生成される場合、セキュリティ運用を担当するスタッフをさらに雇用する必要があります。さらに、サービス プロバイダーは、これらのアラートのうちどれだけが本物であるかを自信を持って言うことができますか?

機械学習モデルは常に「偽の脅威」を返すため、アルゴリズムの精度(すべての脅威のうち何パーセントが真の脅威であるか)と、発生するデバッグ コストをベンダーに必ず確認してください。精度が低い場合、チームは多くのノイズコストに対処する必要があります。ノイズが大きすぎて、ベンダーのアナリストがそのレベルに到達するまでにまだ多くのデバッグが必要な場合は、その能力にあまり自信を持たない方がよいでしょう。

アクセスが難しく、インターネット経由で送信するのが難しい 7 つのソースからデータを取得する必要がある場合でも、問題にならない可能性があります。投資に見合った利益が得られるかを知るには、機械がトレーニングされるまで 9 か月待たなければならないとしても、それはおそらく大した問題ではありません。しかし、上記の可能性を知らないと、それは本当に面倒です。なぜなら、これらの要因は、時間、人材、お金をどのように投資するか、また結果に対する心理的な期待をどのように設定するかに影響を与えるからです。

<<:  スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック

>>:  Microsoft EdgeブラウザがGoogleのオープンソース圧縮アルゴリズムをサポート

ブログ    
ブログ    

推薦する

...

A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。

端末側での大規模言語モデルの適用により、コンピューティング性能とエネルギー効率の需要が「引き出され」...

AI ライティングの限界はどこにあるのでしょうか?

[[248875]]画像出典: Visual China本質的に、この記事は AI ライティングを...

新たな黄金の10年が近づく中、人工知能はどのような機会と課題に直面するのでしょうか?

3月11日、全国人民代表大会の2つの会議が閉会した。「人工知能」は引き続きホットな話題だが、今年の...

24時間365日対応のAI教師は生徒にどのような影響を与えるのでしょうか?

伝統的な教育方法は、過去 1 世紀か 2 世紀の間にあまり変わっていません。通常、生徒は教室で教師の...

ビジネスにおけるAIベースの音声認識アプリケーション

[[342735]] [51CTO.com クイック翻訳] 人工知能(AI)が今日、さまざまな業界で...

Salesforceは、20のコードタスクSOTAをリフレッシュするために、新しい基本的なLLMシリーズのエンコーダー/デコーダーコードT5 +を提案しています。

大規模言語モデル (LLM) は最近、コード レベルでのさまざまなダウンストリーム タスクで優れたパ...

...

重要なお知らせです!顔認識のために服を着用する必要があります!

[[409661]]画像はBaotu.comより顔認識は、多くのソフトウェアの ID セキュリティ...

ReAct: 言語モデルにおける推論とアクションを組み合わせてよりスマートな AI を実現

本日は、Google Research とプリンストン大学の研究者グループが言語モデルにおける推論と...

...

ペアデータなしで学習!浙江大学らは、マルチモーダルコントラスト表現C-MCRの接続を提案した。

マルチモーダル対照表現 (MCR) の目標は、異なるモダリティからの入力を意味的に整合された共有空間...

知能ロボットは世界経済を書き換えるだろうが、全てが良いわけではない

高度に自動化された社会では、人々の反復的な労働のレベルは最小限に抑えられています。人件費が高い分野で...