2024年のデータセンターのトレンド: より高温、より高密度、よりスマート

2024年のデータセンターのトレンド: より高温、より高密度、よりスマート

今日のデータセンター業界は、AI テクノロジーの急速な普及、ムーアの法則の減速、そして厄介な持続可能性の問題など、過去数年間のさまざまな現実により、10 年前とは大きく異なります。

Uptime Institute は、事業者が電源、冷却、管理、高密度、規制圧力などの問題に注意を払い、計画を立てることで、2024 年にデータセンター業界全体が新たな大きな変化の波を迎えると予測しています。

Uptime のリストのトップには入っていませんが、誰もが AI に注目しているので、そこから始めましょう。過去 12 か月間に、大手クラウド サービス プロバイダーとハイパースケール インフラストラクチャ オペレーターは、大規模な GPU クラスターを導入しました。 Uptime は、Nvidia が 2023 年だけで 60 万台の H100 を販売したと推定しています (71 万台近くになるのではないかと推測しています)。 2024年末までに、このチップ製造大手のGPU出荷台数はさらに150万〜200万台に増加すると予想されている。

心配しないでください。AI インフラストラクチャの構築は、誰もが想像するほど難しくはありません。

しかし、このような大規模な導入と、生成 AI サポート技術に対する市場の飽くなき需要に直面して、データ センター業界は、特に大規模な GPU やその他のアクセラレータ導入のサポートによってもたらされる熱放散と電力消費の問題など、需要の急増に対処する準備ができているし、そうしなければならないことを認識する必要があります。

HPC プロフェッショナルにとって、アクセラレータのパフォーマンスと電力密度の向上は馴染み深いものですが、新しい施設では、一般的な 2 ソケット システムと比較して、両方の指標が新たなレベルに引き上げられています。

Nvidia の H100 と今後発売される H200 はどちらも定格電力が 700 ワットを超えており、これは 1 つのチップの消費電力にすぎません。 AI クラスターには通常 4 ~ 8 個の GPU が搭載されており、熱設計電力がキロワット レベルに直接増加します。

しかし、アップタイムは、AIインフラストラクチャの波がほとんどのオペレーターに与える影響は限定的であると見積もっています。これは主に、チップの生産能力が依然として需要を満たせず、大規模な展開リソースを制御できる企業が比較的少ないためです。

いずれにせよ、このようなシステムを大規模に導入するデータセンターは、必然的に電源と熱管理という二重の課題に直面することになります。幸いなことに、これらの特定の問題に対処する方法はいくつかあり、最も簡単な解決策の 1 つは、システムをより大きなフットプリントに分散させることです。これは、施設環境への変更が最も少ない解決策でもあります。

たとえば、既存のインフラストラクチャがラックあたり 25 kW の電力と熱負荷に対応できると仮定すると、オペレーターは DGX ノードを 2 倍の数のラックに分散しようとする可能性があります。もちろん、これによりキャビネット内に多くの空きスペースが生じますが、特定のワークロードでは、スペースのコストが高すぎない限り、これが実際に実装する最もシンプルで簡単なオプションです。

しかし、以前 Digital Realty の CTO である Chris Sharp 氏から学んだように、分散型システムは熱と電力の供給の問題は解決しますが、専用の相互接続構造に基づくトレーニング ワークロードには適していません。たとえば、NVLink はカバレッジ範囲が限られているため、より密度の高い展開ソリューションを使用するのが最適です。

直接液体冷却の利点が明らかに

2 番目のオプションは、施設を液体冷却、具体的には直接液体冷却 (DLC) 設計にアップグレードすることです。 Uptime のアナリストは、チップの発熱、システム密度、持続可能性に対する大きなプレッシャーに直面して、事業者は 2024 年に短期的な設置の利便性と引き換えに、より強力なハードウェア パフォーマンスと引き換えに直接液体冷却ソリューションをより広く導入すると予測しています。

直接液体冷却は、一般的に従来の空冷よりも効率的です。結局のところ、液体は熱伝導率が優れているためであり、この技術によりキャビネットファンの必要性も大幅に排除されます。液体冷却技術の使用により、システムの電力消費を最大 20% 削減できると認識しています。しかし、アップタイムは、液体冷却の電力消費はITシステム全体の電力消費と混ざるため、具体的に定量化することは非常に難しいとも述べています。

直接液体冷却によるエネルギー節約の可能性を実現するのは、言うほど簡単ではありません。 Uptime は、多くの施設運営者は、インフラストラクチャの冷却効果を高めるために、冷却剤をより低い温度に保つことを好む可能性があると説明しました。これにより、インフラストラクチャの設計負荷が軽減され、IT ハードウェアの耐用年数が延長されると考えられます。しかし、エネルギー効率の観点から見ると、この方法は、冷却剤の温度を積極的に下げるために追加の電力が必要になるため、室温の冷却剤を高温で使用する方法ほど優れていません。

低温直接液冷には確かに性能上の利点があることは認めざるを得ません。液体の温度が低いということは、CPU とアクセラレータの動作温度が常に低く維持され、より高いオーバークロック レベル (および対応する動作電力) でより長い時間動作できることを意味します。

直接液体冷却システムを採用することで節約できるコストが、システム負荷の増加によって相殺され、変更に対する投資回収が不十分になるのではないかという懸念が実際にあります。

持続可能性を達成するには異なるアプローチが必要

アップタイム社はまた、直接液体冷却が持続可能な開発目標に貢献する可能性は低く、迫りくる規制要件により事業者に選択の余地がほとんどないと指摘した。

原則として、すべての主要なクラウドプロバイダーとハイパースケールデータセンター運営者は、過去数年間に同様のネットゼロ持続可能性の取り組みを行ってきました。マイクロソフトやグーグルのようなテクノロジー大手に関しては、最初の大きなマイルストーンに到達するまであと数年しか残っていない。

Uptime は、データセンター運営者が本当に約束を果たしたいのであれば、困難な状況に直面するだろうと予測しています。データセンターは、必ずしも再生可能エネルギーの供給が豊富とは限らない地域に設置されるため、風力、太陽光、潮力などの新しいタイプのエネルギーを導入しても役に立たないことがよくあります。

それだけでなく、世界各国の政府はサーバーファームに対し、電力消費と二酸化炭素排出量の透明性を高めるよう求めています。

昨年9月に可決された欧州連合の企業持続可能性報告指令やカリフォルニア州の気候企業データ説明責任法などの規制により、近い将来、より多くの企業に事業活動から生じる炭素排出量や気候関連リスクの報告が義務付けられることになる。

アップタイムは、米国証券取引委員会(SEC)もこの問題に注目し始めており、大手上場企業に四半期報告書で一部の排出量データを開示することを義務付けていると報じた。

間違いなく、最も厳しい規制要件は、昨年秋に発表された EU エネルギー効率指令です。この文書では、データセンターやその他の IT およびネットワーク オペレーターに対する報告要件を規定しています。ただし、この指令は使用パターンに関するデータを取得することを目的としており、現時点ではデータセンター施設の運用に規範的な制約を課すものではないことを強調しておく必要があります。

これらの規制要件は善意に基づくものですが、Uptime の調査により、調査対象となったデータセンター運営者の半数未満しか実際に炭素排出量などの指標の追跡を開始していないことがわかりました。

データセンターのインテリジェントなアップグレードが必須

Uptime は長年にわたり、データセンター分野におけるデータ駆動型自動化ソリューションの広範な導入を呼びかけてきました。アナリストたちは、この目標が完全に達成される時期は2024年になるかもしれないと考えている。

問題の根本は、データセンターのハードウェアが根本的に変化している一方で、管理ツールの開発が停滞していることにあります。ほとんどのビル管理システム (BMS) およびデータセンター インフラストラクチャ管理 (DCIM) ソフトウェアが提供する自動分析機能は、まだ比較的限られています。

管理レベルで適度な改善が行われれば、事業者はエネルギー効率を大幅に改善し、その後の規制や排出報告要件の実施のハードルを下げることができると考えられます。このようなシステムの操作を自動化する一般的な使用例は、需要が低い期間に環境システムを調整して、高強度で稼働していないアイドル システムを冷却するための電力の無駄を回避することです。

Uptime 社はまた、施設のデータセットでトレーニングされた AI モデルに基づいて、より高度な自動化が行われ、データセンターの運用が予測的に柔軟に調整されるようになると考えています。

このような AIOps のような機能をデータセンター全体に適用することには確かに利点がありますが、Uptime のアナリストは、既存の DCIM ソフトウェア ベンダーの適応能力については悲観的です。むしろ、アナリストは、こうした能力がまず新世代のスタートアップ企業から生まれると予想している。 Uptime は現在、開発段階の異なる 6 つのベンダーを監視しており、各社の研究開発成果がインフラストラクチャのインテリジェントな運用の問題を解決する可能性を秘めていると考えています。

報告書では具体的な名前は挙げられていないが、その中の 1 社はおそらく Oxide Computer ではないかと推測される。この会社は、元サン・マイクロシステムズのソフトウェアエンジニアであるブライアン・カントリル氏とジョエント社長のスティーブ・タック氏によって共同設立されました。ラックレベルのコンピューティングシナリオに重点を置き、Aspeed などの業界標準のコントローラーを使用しないように、独自のベースボード管理コントローラー (BMC) を社内で開発しました。

超大規模施設パークが主流になる可能性

一連の実際のトレンド、特に AI 需要の継続的な増加に対応するためのコンピューティング パワー密度の向上により、通信事業者は複数のデータ センターで構成される超大規模サーバー パークの構築に投資するようになっています。

Uptime によれば、これらのキャンパスは数百万平方メートルに及ぶこともあり、複数のテナントの電力と接続のニーズを満たすように設計されており、多くの場合、より多くのクリーンエネルギーを使用することに重点を置いて設計されています。

これらの新しいパークの中心的な特徴は、ギガワット規模の容量です。施設計画のキーワードとして、これらの新しいパークは、最初の運用時にそのような電力レベルに達することはまずありませんが、ライフサイクル中の拡張のボトルネックを回避するために、後続の施設を収容するための容量スペースを予約する可能性があります。

昨年は、水素燃料電池や小型モジュール炉などの新しいエネルギー源を利用して数千メガワットの電力を供給するといった、より革新的な研究も数多く行われました。

電力設備を共有するという利点に加えて、競合するデータセンター運営者は、施設間の低遅延通信という別の理由からグループを形成することを選択する場合もあります。

Uptime のこれらのデータ センター (将来的にはデータ シティと呼ばれる方が適切かもしれません) に関する予測は、ホスティングと接続のコスト削減、施設の回復力の向上、運用の持続可能性の向上に役立ちます。

これらの予測が実現するかどうかは時間の問題ですが、1 つ確かなことは、データ センターは、より大規模で、より数が多く、より電力を消費するデータ センターへと移行し続けるということです。

<<:  Google、AIが出力コンテンツの正しさを自己判断できるモデルトレーニングフレームワーク「ASPIRE」をリリース

>>:  AIによるサイバーセキュリティの自動化

ブログ    
ブログ    

推薦する

自動運転が原因でしょうか?上海の地下鉄で乗客がホームの網戸に挟まれて死亡した。この悲劇の責任は誰にあるのだろうか?

1月22日午後、上海地下鉄15号線で重大事故が発生した。千安路駅のプラットホームで、乗客が電車から...

あなたのデータ戦略は GenAI に対応していますか?

AI、特に GenAI の急速な発展により、分析および IT リーダーには、データ戦略とデータ管理...

Go 向けに設計された機械学習ライブラリ Gorgonia: TensorFlow や Theano のライバル

[[184558]] Gorgonia は、Go での機械学習を容易にし、多次元配列を含む数式の記述...

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし...

大規模言語モデルの最大のボトルネックを突破する方法

翻訳者 |ブガッティレビュー | Chonglou OpenAIのGPT-4やAnthropicのC...

テキストマイニングの詳細: ツール、タスク、問題、解決策

[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており...

...

サイバーセキュリティの専門家が知っておくべきAIフレームワーク

1. AIフレームワークの重要性AIフレームワークは、人工知能のオペレーティングシステムであり、基本...

本物そっくりの「人工顔」は顔認識を騙せるのか?

[[360561]]過去数年間に自分の写真をオンラインに投稿したことがあれば、Clearview ...

AlphaFold2 の原理: 注意メカニズムが畳み込みネットワークに取って代わり、予測精度が 30% 以上向上

[[412540]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

知っておきたい!AI を活用したサイバー犯罪対策に機械学習を活用する方法

[51CTO.com クイック翻訳] 今日のインターネット時代において、ネットワーク セキュリティは...

ニューラル放射フィールドはポイントベースで、NeRFよりも30倍高速なトレーニング速度と優れたレンダリング品質を備えています。

2020 年はボリューメトリック ニューラル レンダリングが爆発的に普及する年です。たとえば、Ne...

AIの成功には適切なデータアーキテクチャが必要

人工知能 (AI) を習得したいと考えている企業にとって、AI はコストを節約し、競争上の優位性を獲...