人工知能がデータセンターを変革

[[253094]]

がんの早期発見から国境を越えた人間の言語理解、リアルタイムの高解像度ビデオでの顔の識別まで、人工知能 (AI) が今日のテクノロジーのあらゆる側面に浸透していることは間違いありません。多数の消費者向けアプリケーションが、AI の主流の需要、社会的受容、および採用の拡大に勢いと資金を提供しています。現在、人工知能の思考システムは、企業の IT 分野に急速に参入しつつあります。

多くの組織の IT チームは、スキルの高い労働力の緩やかな増加と IT ワークロードの急速な増加とのギャップが拡大していることを受けて、サイバーセキュリティ、IT 運用、監視、データ分析、ビジネスプロセスの自動化、インフラストラクチャのプロビジョニングなど、多くのタスクで AI が主流になっていることを目の当たりにしています。

ただし、データセンターの場合、主なアプリケーションは、データセンター向け AI と AI 向けデータセンターの 2 つだけです。

データセンター向け人工知能

現在、インテリジェント製品は、大量の複雑な運用テレメトリデータを精査し、異常を発見し、イベントを相関させ、根本原因を特定することで、IT 運用と分析をすでに強化しています。また、インフラストラクチャのプロビジョニングやプロセスの自動化に AI テクノロジーが追加され、最近では AI を新しい分野に導入する新製品がほぼ毎週のように発表されています。 IT 運用における AI の成熟に伴い、AI は、何が起こったかを説明したり、推奨事項を提示したり、異常を特定したりする受動的な報告者から、障害を予測し、プロセスステップを自律的に調整し、容量を自動的に展開または破棄する、より積極的な参加者へと変化します。

しかし、その最大の影響は、AI とデータセンター情報管理 (DCIM) システムを組み合わせてデータセンターのインテリジェントな運用を実現するデータセンターに現れる可能性があります。 2014 年、Google は DeepMind を使用してデータセンターのファン、換気装置、冷却装置を制御し、電気コストを 40% 削減しました。たとえば、今年、Google は冷却システム用の自己学習アルゴリズムを実装しました。このアルゴリズムは、変更を示すのではなく、制御を自律的に調整し、結果を観察し、学習を通じてよりスマートになります。結果を定量化するのは時期尚早ですが、初期の兆候は有望に見えます。

しかし、これはほんの始まりに過ぎません。これらのスマート製品は、熱を発生するコンピューティング負荷をコンピュータ室内のラック間で仮想的に再配置し、最適な温度制御を実現します。他の DCIM ベンダーも、変化するハードウェア許容値、電力/コストの傾向、一時的なワークロードに基づいてデータセンターの周囲温度を変更する AI アルゴリズムの開発に取り組んでいます。冷却装置の監視に加えて、配電システムを管理することでデータセンターの電気コストを節約できる AI の可能性も同様に魅力的です。 AI が世界中のすべてのデータセンターに拡大されれば、その影響は計り知れないものとなる可能性があります。

今後、新興のインテリジェント DCIM システムは、データセンターの IoT センサーデータ (熱、気流、振動、超音波、電力消費、水、煙の検知など) を AI ベースのプラットフォームに統合し、データセンターの異常な動作を検出するだけでなく、問題の根本原因と原因を特定します。近い将来、これらのスマート DCIM システムは、いつ、どこで、なぜ障害が発生したかを伝えるだけでなく、問題が発生する前にオペレーターに予測的に警告し、場合によっては自動的に無効にするようになります。

人工知能のためのデータセンター

AI はほぼすべてのデータセンターアプリケーションを変革するとともに、ソフトウェア開発ライフサイクル (SDLC) も再形成しています。従来のアプリケーションは、基盤となるコードベースに対するプログラムの変更を通じて進化し、その後、厳格なテストを使用して検証され、制御され、管理可能で、繰り返し可能な方法で本番環境に展開されます。ただし、AI ベースのアプリケーションは、コードの変更や一方向のデプロイメントに依存しません。代わりに、多くの企業は開発環境でよりスマートなモデルを開発し、それを本番環境に展開しています。また、本番環境で自らトレーニングを行い、現実世界のデータから学習して、その知識を開発環境に伝えている企業もあります。この双方向のニュアンスは、データセンターのネットワークトポロジに根本的な影響を与えます。

AI アルゴリズムは、従来のサードパーティアプリケーションに組み込まれている場合でも、社内で開発された場合でも、可能な限り現実的で関連性の高い大量のデータでトレーニングすると最も効果的に機能します。したがって、多くの場合、トレーニングにはライブの本番データが最適ですが、他のアプリケーションでは、非本番環境の外部データシステムと、その結果として得られるインテリジェントモデルが本番環境に展開されます。どちらの場合も、AI アプリケーションは非生産部門から生産部門だけでなく、その間にも適用されるため、環境間のネットワークセグメンテーションをより透過的にする必要があります。

人工知能のトレーニングには大量のコンピューティングと大量のデータが必要であり、データが多ければ多いほど良い結果が得られます。この膨大なコンピューティング能力の需要を満たすために、AI トレーニングは、桁違いに優れたパフォーマンスを提供する GPU、FPGA、カスタム ASIC、または専用のディープラーニングユニットをベースにした、CPU 中心ではないサーバーで行われることが多くなっています。残念ながら、これらのコンピューティングシステムは大量の電力を消費し、電力密度はラックあたり 30 ～ 50kW にも達します。次世代のコンピューティングシステムの電力密度は、驚異的な 100kW/ラックに達すると予測されています。「既存のデータセンターのほとんどは、液体冷却のような冷却封じ込めソリューションを大幅に再設計しなければ、これを大規模にサポートすることはできない」と、40以上のデータセンターを所有・運営するデータセンター運営会社、フレクセンシャルのクラウド担当ディレクター、ジェイソン・キャロラン氏は語る。

電源は別として、これらのスーパーコンピューターは、受信するトレーニングデータの速度に応じてのみ動作します。その結果、大容量で安価、超高速なニアラインストレージの需要が高まり、より高速なコントローラー、プロトコル (NVMe や NVMe-oF など)、ストレージメディア (3D XPoint や 3D NAND など) を求める競争が激化しています。

多くの場合、AI ベースのアプリケーションには、本番環境よりも高いコンピューティング能力とストレージ容量を備えた非本番トレーニング環境が必要です。このような状況により、開発環境やトレーニング環境への新しいコンピューティングおよびストレージプラットフォームの導入が促進され、最新のネットワーク、SAN、関連する監視および管理ツールへの変更もさらに進んでいます。こうした進化には、データセンター内のサーバーおよびストレージトポロジの根本的な変革が必要です。

今後登場する AI ベースの製品とサービスは、運用、自動化、監視、コンプライアンス、セキュリティ、開発、クラウド統合における画期的な出来事となり、データセンターにおける数多くの根本的な変化の基盤となるでしょう。 AI 対応アプリケーションを導入し、AI を通じて運用するという先見の明を持つデータセンター運営者は、今後の市場の嵐を乗り切るのに有利な立場に立つでしょう。

<<: 人工知能はターミネーターとなるのか？ぜひ見に来てください！

>>: UNITは企業向けインテリジェント対話システムアプリケーションの構築を開始