AIがデータセンターの設計をどう変えるか

AIがデータセンターの設計をどう変えるか

AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており、需要に対応するにはデータ センターの容量を急速に増やす必要があることは明らかです。

しかし驚くべきことに、多くのデータセンター運営者が過去1年間に新規プロジェクトを中止し、投資が減速し、ロンドンの空き容量は2022~23年に6.3%減少した。

この直感に反する傾向の背後には何があるのでしょうか? それを説明するには、AI コンピューティングとそれをサポートするインフラストラクチャを取り巻くいくつかの問題を理解する必要があります。

AIがデータセンターのインフラをどう変えるのか

データ センターはこれまで、従来のコンピューティング ワークロードを処理するために CPU ラックを中心に構築されてきましたが、AI コンピューティングには GPU を搭載したラックが必要であり、同じ CPU 容量よりも多くの電力を消費し、多くの熱を放出し、多くのスペースを占有します。

実際には、これは AI のコンピューティング能力には、より多くの電源接続や代替の冷却システムが必要になることが多いことを意味します。

これは組み込みインフラストラクチャであるため、データセンター コンプレックスの構造に組み込まれており、交換するにはコストがかかることが多く、場合によっては経済的に不可能になります。

実際には、オペレーターは、新しいデータセンター内で AI と従来のコンピューティングを「分割」するためにどれだけのスペースを割り当てるかを決定する必要があります。

これを間違え、AI について過大な約束をすると、データセンター運営者は永久に活用されず、利益が出ないという重荷を背負うことになるかもしれません。

AI市場がまだ初期段階にあるという事実によって問題はさらに悪化しており、ガートナーはAI市場が現在、誇大宣伝サイクルにおける過大な期待のピークにあると主張している。その結果、多くの事業者は、新しいデータセンター プロジェクトに AI コンピューティングを一定の割合で導入することを早急に決定するのではなく、設計段階では保留することを選んでいます。

設計段階では総合的なアプローチを取る

しかし、事業者は、投資を遅らせることができるのは限られた期間だけであり、そうすると市場シェアと競争上の優位性を失うリスクがあることを痛感しています。これは、データセンター インフラストラクチャの多くの基本要素がリアルタイムで書き換えられていることを考えると、困難な作業です。

リスクを相殺しながら先駆者となるという要求を満たすために、事業者は、新しい総合的な設計アプローチを必要とする AI コンピューティングの時代に最大限の効率性と回復力を発揮するようにデータ センターを設計する必要があります。

1. より多くの関係者を巻き込む

オペレーターが AI と従来のコンピューティングの間で正確に分割するかどうかに関係なく、AI コンピューティング機能を備えたデータ センター サイトは、従来の施設よりもはるかに複雑になると予想されます。複雑さが増すと、多くの場合、障害点も増えます。特に AI コンピューティングでは、従来のコンピューティングよりも多くの処理が要求される場合に顕著です。

したがって、稼働時間を保証し、サイトのライフサイクル中にコストのかかる問題が発生するリスクを軽減するには、チームはデータセンターの計画フェーズでより徹底する必要があります。

特に、設計フェーズでは、プロジェクトの開始時に、より広範なチームからの意見や専門知識を求める必要があります。設計者は、電力と冷却に関する専門知識を求めるだけでなく、潜在的なボトルネックや障害の原因を理解するために、運用、ケーブル配線、セキュリティの各チームと早期に連携する必要があります。

2. データセンター運用にAIを統合する

オペレーターは現在、現場で AI コンピューティングを実行しているため、AI を使用する能力を活用して、運用の新たな効率性を生み出す必要があります。 AI はデータ センターで長い間開発されており、そのテクノロジーはワークフローを非常に高い精度と品質で実行することができます。たとえば、AI は次のことに役立ちます。

  • 温度と湿度の監視。
  • セキュリティシステムの運用。
  • 電力監視および配電。
  • ハードウェア障害の検出と予測メンテナンス。

データセンターのライフサイクルのあらゆる段階でテクノロジーを積極的に活用することで、オペレーターは運用の効率と堅牢性を大幅に向上させることができます。 AI は、障害検出や予測メンテナンスなどを通じて、次世代データセンターの斬新で複雑なレイアウトを採用する際に発生する新たな課題に対処するのに最適です。

3. 誤った節約を避ける

トレーニング実行中やエンタープライズ規模のモデルを本番環境で実行しているときなどのピーク時には、AI によってデータセンターに大きな負荷がかかります。これらの期間中、AI コンピューティングは、電力消費、冷却要件、データ スループットの点で従来の期待をはるかに上回ることがよくあります。

最も基本的なレベルでは、これはデータセンターの基礎となる材料にかかるストレスが増大することを意味します。これらの基礎となる材料やコンポーネントの品質が高くない場合、故障する可能性が高くなります。 AI コンピューティングは、サイト内のコンポーネントと接続の数の劇的な増加を意味するため、従来のサイトでは問題なく機能する安価で低品質の材料を使用すると、AI コンピューティングを実行するデータセンターが停止する可能性があります。

このため、事業者は、低品質のケーブルなど、低品質の材料を購入してコストを節約することを避ける必要があります。そうすると、これらの材料は故障する可能性が高くなり、より頻繁に交換する必要が生じるため、誤った経済的リスクが生じる可能性があります。しかし、最も問題なのは、基準を満たさない材料や部品による故障が、サイトのダウンタイムや停止につながることが多く、収益性に影響を及ぼすことです。

インフラの課題を解決する

AI コンピューティングのインフラストラクチャ要件が、事業者が投資を遅らせている主な理由である可能性はありますが、長期的には必ずしもそうとは限りません。

市場の不確実性が解消されるにつれて、企業はデータセンターにおける従来型コンピューティングと AI コンピューティングの分割に関して「妥協点」に収束するでしょう。

そうなると、企業は学習し成熟するにつれて、サイトの運営において可能な限りの優位性を確保する必要があるでしょう。

これは、最初から総合的に設計し、AI 自体を活用してサイトの新たな効率性を発見し、AI のより大きなコンピューティング需要に対応できる高品質のコンポーネントに投資することを意味します。

<<: 

>>:  医学物理学におけるAIの応用に関する簡単な分析

ブログ    

推薦する

古典的な論文を実装するための60行のコード:ポアソンディスクサンプリングを完了するのに0.7秒、Numpyよりも100倍高速

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

初の科学ニュース執筆ロボット「小科」が発売

[[272541]] 8月1日、初の科学ニュース執筆ロボット「小科」が正式に就任し、その最初の一連の...

...

...

自動車の未来:スマート製造の採用

インテリジェント製造技術の出現は自動車製造業界に大きな影響を与えました。まず、スマート製造では、自動...

軍用ロボットは障害物を乗り越えるために車輪を使うか脚を使うかを決定できる

ロボットが環境内を移動するための最も効率的な方法の 1 つは、比較的滑らかな地形上で車輪を動かすこと...

魅力的な勾配フリーニューラルネットワーク最適化手法

[[336078]]勾配降下法は、機械学習における最も重要なアイデアの 1 つです。最小化すべきコス...

500億のパラメータ、103の言語をサポート: Googleが「グローバルテキスト翻訳」モデルを発表

並列データが不足しているため、小規模言語の翻訳は常に大きな問題となっていました。 Google の研...

...

ジャック・マーの野望がついに暴露される!たった今、アリの無人ホテルがオープンしました!ウェイターもレジ係もいない…また混乱

[[248958]]今週末、インターネットは再び混乱に陥った。ジャック・マーが2年かけて準備してきた...

マイクロソフト、画像やテキスト内のネガティブなコンテンツを削減する Azure AI コンテンツ セーフティを発表

海外メディアの報道によると、マイクロソフトは10月20日、アプリケーションやサービス内の有害な人工知...

...

...

OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

偉大なカルパシー氏はOpenAIを辞任し、当初は1週間の休暇を取ると脅していた。写真しかし、瞬く間に...

チューリング賞受賞者のヤン・ルカン氏への最新インタビュー: AI は世界を支配するだろうが、人類を征服することはない!

かつての共同研究者であるジェフリー・ヒントン氏とヨシュア・ベンジオ氏がAIの絶滅を宣言したとき、ルカ...