WatsonAIOps - AIの力を活用して、IT運用の効率とセキュリティの持続可能性を次のレベルに引き上げます

WatsonAIOps - AIの力を活用して、IT運用の効率とセキュリティの持続可能性を次のレベルに引き上げます

情報技術 (IT) 運用管理は、ミッションクリティカルなビジネス アプリケーションをサポートするために IT システムに依存しているほとんどの組織にとって頭痛の種です。

エンジニアの善意、巧みな設計、堅実な開発手法にもかかわらず、重要なビジネス アプリケーションを実行するために企業に導入されているソフトウェア システムとハードウェア システムは停止しやすく、毎年何百万ドルもの労働力、収益、顧客の不満の損失が生じています。

IT ダウンタイムをより正確に予測して対応するために、IT チームはトポロジ、ログ、チケット、アラートなどのソースから取得したデータを精査し始めます。しかし、これらの異なるデータ ソースとさまざまなツールがあっても、チームは単一の共有された視点から停止のトラブルシューティングを行うのに苦労していました。幸いなことに、IBM Cloud Pak for Watson AIOps を使用すると、これらすべてが可能になります。

ログ異常予測

Watson AIOps の最新の特許出願中のログ異常検出テクノロジーは、Splunk、Humio、LogDNA、Logstash などのログ集約ツールからの IT アプリケーションおよびインフラストラクチャ ログを自動的に解析し、リアルタイムで異常を自動的に検出します。これは、しきい値や誤った文字列一致タイプに基づく従来のアラート技術よりもはるかに高速であり、インシデントを診断する平均時間を大幅に短縮します。ログ解析中にログから特徴を抽出し、異常予測を実行するためにディープラーニングアルゴリズムを使用します。ユーザーは、異常を検出するために静的なしきい値や手動のルールを設定する必要はありません。 IT 運用スタッフが積極的に関与して異常を診断し、インシデントを解決します。さらに、選択した IT ツールセットを通じて明らかにされた洞察を解釈し、IT 運用スタッフが将来同じタイプのインシデントを自動的に解決できるようにします。

指標異常予測

Watson AIOps のメトリックベースの異常検出テクノロジーは、New Relic、AppDynamics、SolarWinds などのさまざまなシステムからのメトリック データを分析し、企業内のメトリックの正常な動作を自動的に学習して、その中で異常を検出します。実証済みの時系列アルゴリズムスイートを使用して、季節性や重要な傾向を捉え、予測を実行します。

イベントのグループ化

イベントは、IT 運用環境で発生した注目すべき出来事を表します。たとえば、アプリケーションが利用できない、またはディスクがいっぱい/十分な容量がないなどです。イベントのグループ化と分類の目的は、IT 運用管理者が気を散らすものを減らし、すぐに対応する必要がある重要なイベントの解決に集中できるようにすることです。 Watson AIOps は、時間、空間、関連ルール マイニングなどの複数のアルゴリズムを使用して、メトリック、ログ、チケットから検出された異常をグループ化することで、インシデントのグループ化を可能にします。

静的および動的トポロジ管理

アプリケーションおよびネットワーク トポロジとは、企業内のさまざまなミッション クリティカルなアプリケーション間の接続を示すマップまたは図を指します。静的トポロジとは、アプリケーションとインフラストラクチャ コンポーネントの情報が展開され、上記の上に構築されたマップを指します。対照的に、動的トポロジとは、実行時に環境が変化するにつれてリソースとその関係をキャプチャし、ほぼリアルタイムで同じ可視性を提供する動的マップを指します。

Watson AIOps の Topology Manager を使用すると、現在のトポロジーと履歴トポロジーを比較して、「何が起こったのか?」や「何が起きているのか?」などの質問に答えることができます。これは、インシデントに至るまでの詳細を調査し、時間の経過に伴ってトポロジ (および状態) がどのように変化するかを確認するのに役立ちます。さらに、断層の位置を位相的に特定することもできます。

断層の位置と爆発半径

エンティティ メンションは、例外ログ、アラート、チケット、イベントで参照されるリソース名 (サービスまたはアプリケーション コンポーネント名、サーバー名、サーバー IP アドレス、ポッド ID、ノード ID など) です。イベントがグループ化された後、イベント内の異常ログ、メトリック、アラート、およびエンティティの言及が抽出されます。これらのエンティティは、質問を見つけ、識別されたエンティティを、エンティティの言及が見つかった時刻と一致する対応する動的トポロジ インスタンスに配置するために、トポロジ リソースを使用して解決できます。アプリケーション、インフラストラクチャ、ネットワーク層のトポロジ グラフを走査することで、影響を受けるコンポーネント (爆発半径) を特定できます。

インシデント解決

Watson AIOps は、ServiceNow などのツールに接続して以前のインシデント チケット データを抽出およびマイニングし、現在診断されている問題に対する最善の対応策についてタイムリーで適切な推奨事項を提供します。現在のイベント機能を使用すると、インデックス付けされたチケット データを照会して、最も重要な関連する以前のイベント レコードを検索して取得できるだけでなく、関連する各レコードから重要なエンティティとアクション (名詞と動詞) のフレーズを抽出して、SRE が推奨されるアクションを簡単かつ迅速に理解できるようにすることもできます。ルールベースのシステムを含むさまざまな自然言語処理技術を適用して、エンティティとアクションフレーズを抽出します。

洞察と行動を提供する

Watson AIOps では、上記のすべての洞察が ChatOps とダッシュボードを通じて提供されます。リアルタイムの洞察は、ChatOps を介して SRE が作業する場所に直接配信されます。 ChatOps は、洞察の証拠を探索するだけでなく、他の共同作業者とのやり取りや、厳選されたインシデント解決の提案の共有もサポートします。 ChatOps を使用すると、SRE はログ、メトリック、チケット監視ツールを起動して、より詳細な情報を取得できます。同様に、SRE はインタラクティブなダッシュボードを起動して、イベント、イベント グループ、メトリックの異常、トポロジを詳細に調査できます。該当するアクション/ランブックは、ランブック実行によって自動的に実行されます。

AIモデルのライフサイクル管理に関する注意事項

Watson AIOps は、代表的なメトリック、ログ、チケット データのセットを使用して、教師なしモデルをトレーニングおよび構築します。これらのモデルは、環境内の最新のデータを使用して継続的に学習し、ユーザーからのフィードバックに基づいて改善するように設定されています。信頼を得るには、すべての AI モデルが透明性と説明可能性を備えている必要があります。AI 予測とモデルに信頼性と透明性を提供することは、世界中の企業にとって依然として最大の関心事です。

Watson AIOps の AI パイプライン。

Watson AIOps の今後の展開は?

次世代の Watson AIOps ソリューションでは、完全に機能し、監視可能で、自己認識できるだけでなく、自動化され、自律的な IT 運用環境を構想しています。 AIOps ソリューションは、リアクティブ モードで問題を解決するだけでなく、「開発、セキュリティ、運用 (DevSecOps)」ライフサイクル アクティビティを最初から設計することで、効率的な運用を可能にし、問題が発生する前に回避します。たとえば、インテリジェントなチェックとゲートにより、リスクの高いデプロイメントが実稼働環境に入るのを防ぎ、十分にテストされていないコード モジュールや危険なセキュリティ脆弱性を持つコードがデプロイメント段階に到達するのをブロックできます。私たちは未来を形作るのを心待ちにしており、この旅にぜひご参加ください。

IBM の詳細については、 http://cloud..com/act/ibm2021q3/cloud#p2 をご覧ください。

<<:  Google が新たなブラック テクノロジー プロジェクトを立ち上げました。産業用ロボットへの賭け

>>:  人工知能、機械学習、ディープラーニングの違いと関連性

ブログ    
ブログ    

推薦する

杭州妻殺害事件解決、警察AIも貢献

7月25日、杭州公安局は「杭州人妻殺害事件」について記者会見を開き、捜査結果を発表した。ネットユーザ...

まだ AI と機械学習を混同していませんか?まず、AIの6つの注目分野を見てみましょう。

AI の初心者向けに、AI の注目すべき 6 つの分野と、その概要、重要性、現在の使用方法、研究し...

...

売上を予測するための 5 つの機械学習テクニック

売上予測は、機械学習 (ML) の一般的かつ重要な用途です。予測売上は、ベースラインを確立して新しい...

ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

JD.com は今後 10 年間で従業員の 50% を解雇するでしょうか?ジャック・マー氏も人工知能が仕事を奪うことについて言及している

最近、劉強東氏は、今後10年間でJD.comの従業員数を現在の16万人から8万人に減らし、1人当たり...

RSA アルゴリズムが解読された場合、暗号化の将来はどうなるでしょうか?

インターネットのセキュリティ層に一夜にして巨大な亀裂が生じたらどうなるか考えたことがありますか? 亀...

杭州市の100以上の交差点で無人信号制御が実現し、杭州シティブレイン1.0が正式にリリースされました

10月11日、アリババは2017年杭州雲奇大会で、人類のテクノロジーの未来を探求する実験室「大墨学院...

オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

AIの波の中で、企業や国を問わず、コンピューティング能力に対する需要は日々高まっています。最近立ち上...

最もわかりやすいAIチップレポート!才能とテクノロジーのトレンドがすべてここにあります

2010年以降、ビッグデータ産業の発展により、データ量は爆発的な増加傾向を示し、従来のコンピューティ...

...

GAN は教師なし表現学習に使われており、その効果は今でも驚くべきものです...

全能の GAN がまたひとつの丘を征服しました。近年、DeepMindが提案したBigGANなど、G...

OpenAI、開発者向けGPTチャットボットAPIのメジャーアップデートを発表、価格を値下げ

OpenAI は本日、大規模言語モデル API (GPT-4 および gpt-3.5-turbo を...