人工知能、液体冷却、そして未来のデータセンター

人工知能、液体冷却、そして未来のデータセンター

生成型人工知能 (AI) の急速な台頭は、企業が AI を導入する驚異的なスピードを浮き彫りにしています。最近のアクセンチュアのレポートによると、ビジネスリーダーの 98% が、今後 3 ~ 5 年間で AI が自社の戦略において重要な役割を果たすだろうと回答しています。マッキンゼーのアナリストは、企業の約65%が今後3年間でAIへの投資を増やす予定であることを発見しました。

この勢いはまだ始まったばかりです。 NVIDIA、AMD、Intel は、生成 AI と高性能コンピューティング (HPC) 向けに設計された新しいチップを発売します。パブリッククラウドプロバイダーや新興チップ企業も競争に加わっています。 IDCのアナリストは、AIソフトウェア、ハードウェア、サービスへの世界的な支出が今年の推定1540億ドルから3000億ドルに達すると予測している。

しかし、AI の拡張には課題が残っており、その課題の 1 つは、これらのワークロードをサポートするために必要なデータ センター インフラストラクチャです。

データセンターはますます熱くなる

AI および機械学習 (ML) で最も一般的なチップであるグラフィックス プロセッシング ユニット (GPU) は、AI アプリケーションのコンピューティング プロセスを大幅に高速化できます。 800億個のトランジスタを搭載したNVIDIAのH100 GPUなどのように、非常に強力なGPUは大量の熱を発生するため、効果的に冷却する必要があります。

従来、単一のデータセンター ラックで 10 kW に達する構成は高密度と見なされますが、空冷はこれらのサーバーを冷却するための効果的な方法であり続けます。 Uptime Institute は、30 kW を超えるラックを備えたデータ センターはほとんどないことを発見しましたが、極端な密度が出現しています。高性能コンピューティングのコモディティ化と生成型人工知能の台頭により、電力需要が増加し、従来の空冷方法に過度の負担がかかっています。

たとえば、NVIDIA の最新 GPU の最大電力消費量は、前世代のチップよりも 160% 高くなっています。ラック構成は簡単に 40 kW の範囲を超える可能性があり、従来の空冷方法では管理できません。今日のデータセンターは、これらの増加した熱負荷を効果的に管理できるように進化する必要があります。

冷却技術はますます重要になってきている

幸いなことに、ますます人気が高まっているリアドアヒートスワップやダイレクトチップ技術など、この課題に対応できるさまざまな液体冷却技術があります。また、液体冷却剤が入った容器に IT コンポーネントを沈めるという、さまざまな種類の浸漬冷却技術も登場しています。

浸漬冷却はまだ導入の初期段階にあるが、アナリストは、この技術が今後 4 年以内に主流となり、市場規模が 2021 年の 2 億 5,100 万ドルから 2027 年には 16 億ドル以上に成長すると予測している。これはデータセンターのインフラストラクチャ要件に大きな影響を与えるため、ビジネスリーダーは、データセンター運営者がこの移行をサポートするために短期的に必要な投資を行う意思があるかどうかを把握する必要があります。

液体冷却の利点と欠点

液体は熱伝導率が空気の 1,000 倍も高く、動作に必要なインフラストラクチャも少なくて済みます。空冷システムには、停電時にサーバーが冷却されない状態にならないようにするためのチラー、エアポンプ、ケーブル配線、湿度制御および濾過システム、冗長バックアップ システムなどを含む複雑な冷却インフラストラクチャが必要です。

液体冷却システムは比較的シンプルですが、現在のデータセンター インフラストラクチャに実装するための初期投資と複雑さにより、大きな課題が生じる可能性があります。セットアップは複雑になる可能性があり、専門的なメンテナンスが必要になる場合があります。さらに、サーバー設計の調整が必要になる場合があり、浸漬方法によって OEM 保証が無効になる場合があり、冷却システムの漏れによって損傷やダウンタイムが発生する可能性があります。データセンター運営者は、データセンターでの液体の使用に関する新しい規制や環境基準も考慮する必要があります。

とはいえ、液体冷却システムや浸漬冷却システムでは、バックアップや特別な床面または通路の封じ込め戦略をあまり必要としません。エネルギー消費とコストへの全体的な影響は甚大になる可能性があります。最近の調査の結果、液体冷却を導入すると施設の電力を約 20% 削減でき、データセンター全体の電力を 10% 以上削減できることがわかりました。総合使用効率 (TUE) は、高性能コンピューティング環境における液体冷却と空冷の効率を比較するために設計された新しい指標であり、液体冷却の方がエネルギー効率が 15% 以上高いことが示されています。

液体冷却への移行には、他の持続可能な利点もあります。液体冷却システムでは、空冷システムよりも必要な水が少なくなります。データ センターを変革することで、物理的フットプリントと二酸化炭素排出量を削減するための新しい考え方が可能になります。熱再利用戦略は、周辺の企業やコミュニティにエネルギーを提供することができます。その可能性は刺激的で、生成 AI 自体と同じくらい変革をもたらす可能性があります。

今知っておくべきこと

ほとんどの企業にとって、オンプレミスのデータセンターを変革するのは複雑すぎてコストもかかる可能性があります。一方、今日のパブリック クラウド インフラストラクチャの多くは、大規模な AI アプリケーションを実行するために構築されたものではなく、大量のワークロードに対するクラウド コストの上昇により、多くの組織が他の選択肢を模索するようになっています。

これらの課題と機会を考慮すると、さまざまな顧客のユースケースに対応するインフラストラクチャの経験を持つコロケーション データ センター プロバイダーが、多くの企業にとって最適なソリューションを提供できる可能性があります。この分野のリーダーは、組織の変革を導く専門知識とサポートを提供することができます。また、当社はデータセンターの進化を推進する多くのハードウェア OEM および液体冷却サプライヤーと重要な関係を確立し、お客様の独自のニーズを満たす多様なオプションを提供しています。

組織は、自社のデータ センター運営者がすでに計画を立てているかどうか、そしておそらくもっと重要な点として、次世代のデータ センターの進化を可能にするために必要なテクノロジをインストールするための物理的な容量や適切なテクノロジを備えているかどうかを今すぐ把握する必要があります。データ センターはすでに、要件に最適なサーバーにワークロードを移動するという複雑な課題に直面しています。 AI と高性能コンピューティングのワークロードの需要が高まり続けるにつれて、根本的に異なる冷却システムを追加するというさらなる課題が、これらの障害をさらに複雑にすることは間違いありません。

現在これらの戦略に投資しているデータセンター事業者は、顧客がこれらの課題に正面から取り組むのを支援するのに有利な立場に立つことになります。人工知能はデータセンターを含むあらゆるものを変えています。今こそこの会話を始める時です。

<<:  ToTを超えて、ETHチューリッヒは新世代のマインドマップGoTをリリース:推論品質は62%向上し、コストは31%削減

>>:  Li YunlongとSheldonはプロのチャット仲間です!ロールプレイングシステム「ChatHaruhi」は人気があり、32の中国語と外国語のキャラクターをサポートし、54,000の対話データをオープンソース化しています。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ネットワーク管理における機械学習の応用は何ですか?

ネットワークが自動化とインテリジェンス化に向かう​​につれ、ネットワークの問題をプログラムで特定し、...

...

2020 年の人工知能におけるトップ 10 の技術進歩

[[373610]]編集者注: 2020年が過ぎようとしています。今年、人工知能の分野ではどんな大き...

Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、そ...

PyTorch と TensorFlow で画像分類モデルをトレーニングする方法

導入画像分類は、コンピューター ビジョンの最も重要なアプリケーションの 1 つです。その応用範囲は、...

アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

[51CTO.com からのオリジナル記事] 「靴屋が 3 人いれば、諸葛亮 1 人より優れている」...

自動運転事故を回避するために、CV 分野では物理的な攻撃をどのように検出できるでしょうか?

敵対的攻撃の概念は、Goodfellowら[6]によって初めて提唱されました。近年、この問題はますま...

自動運転車のためのモデルベースのエンドツーエンドの深層強化学習戦略

実際の運転シナリオでは、観察と相互作用を通じて、インテリジェント運転車は知識を蓄積し、予測できない状...

超実用的画像超解像再構成技術の原理と応用

[51CTO.com からのオリジナル記事] コンピューターで何か面白いものを見つけたときにスクリー...

...

アリババのPingtouge Xuantie CPUが重要な進歩を遂げました。RISC-V + Android 12 AIサポートを初めて実現しました。

アリババの平頭半導体は、ARMアーキテクチャの自社開発プロセッサYitian 710の商用化を実現し...

私の国の自動運転開発は、年初に巨額の資金提供を受けて大いに支持されている

自動運転は、さまざまな交通問題を解決し、スマートシティの発展を実現するための共通の選択肢として、近年...

Google が「シャンプー」という 2 次最適化アルゴリズムを提案、Transformer のトレーニング時間を 40% 削減

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ドローンのバッテリー寿命の悩みをどう解決するか?答えは3つの主要な方向から得られる

近年、我が国のドローン産業は、継続的な技術革新、継続的な政策奨励、加速した資本注入、段階的な市場改善...