CommScope Insights: データセンターが AI をより迅速かつコスト効率よく活用する方法

人気のSF小説で「機械知能の台頭」が描かれる場合、通常はレーザーや爆発などのシーンが伴います。それほど衝撃的でなくても、少なくとも哲学的な恐怖感はあります。しかし、人工知能 (AI) と機械学習 (ML) の幅広いアプリケーションでの可能性に対する人々の関心が高まっており、新しいアプリケーションが常に登場していることは間違いありません。

すでに何百万人もの人々が ChatGPT やその他の AI インターフェースを通じてこれらのアイデアを試しています。しかし、こうしたユーザーの多くは、コンピューターの画面を介した好奇心旺盛な AI アシスタントとのやり取りが、実は世界中にある巨大なデータセンターによって行われていることに気づいていません。

企業は、自社のビジネス上の利益のために独自の AI モデルを構築、トレーニング、改良するために、自社のデータセンター内に独自の AI クラスターに投資しています。これらの AI の中心には GPU (グラフィックスプロセッシングユニット) のラックがあり、AI モデルがアルゴリズムを徹底的にトレーニングするために必要な驚異的な並列処理能力を提供します。

データセットをインポートすると、AI 推論によってデータが分析され、そこに含まれる意味が解釈されます。例えば、猫と犬の特徴の違いに基づいてトレーニングすることで、画像に猫が写っているのか犬が写っているのかを識別できるようになります。生成 AI はこのデータを処理して、まったく新しい画像やテキストを作成できます。

世界中の人々、政府、企業の注目を集めているのは、このような「インテリジェント」な処理です。 IDCの最新の「世界の人工知能支出ガイド」によると、中国のAI投資は2027年に381億米ドルに達し、世界総額の約9％を占めると予想されています。近年、地元の人工知能産業は高品質な発展へと進み、さまざまな業界のさまざまなニーズとの融合を加速させています。しかし、有用な AI アルゴリズムを作成するには、トレーニング用の大量のデータが必要であり、これはコストとエネルギーを大量に消費するプロセスです。

「知性」は効率的な訓練から生まれる

データセンターには通常、AI アルゴリズムのトレーニング用のデータを提供するために連携して動作する個別の AI クラスターとコンピューティングクラスターがあります。これらの電力を大量に消費する GPU によって発生する熱により、特定のラックスペースに設置できる GPU の数が制限されるため、物理的なレイアウトを最適化する必要があります。もう 1 つの懸念は、光ファイバーケーブルが長くなると挿入損失が増加することです。

光ファイバーは、効率的で損失が少なく、遅延の少ないインフラストラクチャであり、AI クラスターは最大 100G または 400G の速度で実行できます。しかし、AI クラスターでは膨大な量のデータが送信されるため、光ファイバーケーブルが 1 メートル増えるごとに、コストのかかる遅延と損失が発生します。

一般的に、大規模 AI のトレーニングに必要な時間の約 30% はネットワーク遅延によって消費され、残りの 70% はコンピューティング時間によって消費されると考えられています。 10 メートルのファイバーを削除して 50 ナノ秒を短縮するだけでも、遅延を削減できる機会があれば、多くの時間とコストを節約できます。このような大規模な AI モデルのトレーニングには 1,000 万ドル以上のコストがかかる可能性があることを考慮すると、遅延によるコストは明らかです。

ファイバーメートル、ナノ秒単位の遅延、ワット単位の電力消費を削減

オペレーターは、コストと電力消費を最小限に抑えるために、AI クラスターで使用する光トランシーバーとケーブルを慎重に検討する必要があります。ファイバー配線は可能な限り短くする必要があるため、光コストはトランシーバーによって異なります。パラレルファイバーを備えたトランシーバーを使用する利点は、波長分割多重化のための光マルチプレクサとデマルチプレクサが不要になることです。したがって、並列光学系を使用するトランシーバーはコストが低く、消費電力も少なくなります。トランシーバーのコスト削減は、デュプレックスケーブルの代わりにマルチファイバーケーブルを使用することで生じるコストのわずかな増加を相殺するのに十分です。たとえば、8 ファイバーケーブルを使用する 400G-DR4 トランシーバーは、デュプレックスケーブルを使用する 400G-FR4 トランシーバーよりもコスト効率が高くなります。

シングルモードおよびマルチモードファイバーアプリケーションは、最大 100 メートルのリンクをサポートします。シリコンフォトニクスなどの技術の進歩により、シングルモードトランシーバーのコストは同等のマルチモードトランシーバーのコストに近づくまで低下しました。高速トランシーバー (400G+) の場合、シングルモードトランシーバーのコストは、同等のマルチモードトランシーバーの 2 倍になることがよくあります。マルチモードファイバーはシングルモードファイバーよりもわずかに高価ですが、マルチモードファイバーケーブルのコストは主に MPO コネクタによって決まるため、マルチモードとシングルモードのケーブルコストの差は小さくなります。

さらに、高速マルチモードトランシーバーは、シングルモードトランシーバーよりも 1 ～ 2 ワット少ない電力を消費します。 1 つの AI クラスターに最大 768 個のトランシーバーがあり、マルチモードファイバーを使用したセットアップでは最大 1.5 kW の電力を節約できます。これは GPU サーバー 1 台あたり 10 キロワットと比較すると取るに足らないように思えるかもしれませんが、AI クラスターの場合、電力を節約する機会があれば、AI のトレーニングと運用中に多額のコストを節約できます。

トランシーバーとAOC

多くの AI/ML クラスターと HPC では、アクティブ光ケーブル (AOC) を使用して GPU とスイッチを相互接続します。アクティブ光ケーブルは、両端に光送信機と受信機が統合されたデバイス直接接続ケーブルです。アクティブ光ケーブルのほとんどは短距離伝送に使用され、通常はマルチモード光ファイバーと VCSEL 光源を使用します。高速 (>40G) アクティブ光ケーブルは、光トランシーバーを接続し、OM3 または OM4 ファイバーを使用するケーブルと同じです。 AOC の送信機と受信機は、同等のトランシーバーのものと同じである可能性がありますが、すべての状況に適しているわけではありません。各送信機と受信機は、厳密な相互運用性仕様を満たす必要はなく、光ファイバーケーブルのもう一方の端に接続された特定の機器で動作するだけで済みます。設置者は光ファイバーコネクタにアクセスできないため、光ファイバーコネクタを清掃および検査するスキルは必要ありません。

AOC の欠点は、トランシーバーが提供できる柔軟性がないことです。 AOC のインストールには、トランシーバーを接続した状態でケーブルを配線する必要があるため、時間がかかります。ブランチを含む AOC を適切にインストールすることは特に困難です。 AOC の故障率は同等のトランシーバーの 2 倍です。 AOC に障害が発生すると、新しい AOC をネットワーク経由でルーティングする必要があり、計算時間がかかります。最後に、ネットワークリンクをアップグレードする必要がある場合は、AOC を削除して新しいものに交換する必要があります。トランシーバーの場合、光ファイバーケーブルはインフラストラクチャの一部であり、データレートの世代を超えて変更されません。

結論は

AI/ML はここにあり、人、企業、デバイスのやり取りにおいて、より重要で統合された部分になります。しかし、携帯電話で AI サービスとのやり取りが実現できるとはいえ、依然として大規模なデータセンターインフラストラクチャとコンピューティングパワーの駆動に依存しており、急速に変化する現在の超接続された世界では、AI を迅速かつ効率的にトレーニングできる企業が重要な位置を占めることになるのは否定できません。 AI のトレーニングと運用を強化するために、今、高度な光ファイバーインフラストラクチャに投資すれば、将来、驚くべき成果が得られる可能性があります。

<<: 優れたオープンソース RPA フレームワーク 5 つ

>>: AIサイバーセキュリティ攻撃を防ぐ7つの戦略