CommScope Insights: データセンターが AI をより迅速かつコスト効率よく活用する方法

CommScope Insights: データセンターが AI をより迅速かつコスト効率よく活用する方法

人気のSF小説で「機械知能の台頭」が描かれる場合、通常はレーザーや爆発などのシーンが伴います。それほど衝撃的でなくても、少なくとも哲学的な恐怖感はあります。しかし、人工知能 (AI) と機械学習 (ML) の幅広いアプリケーションでの可能性に対する人々の関心が高まっており、新しいアプリケーションが常に登場していることは間違いありません。

すでに何百万人もの人々が ChatGPT やその他の AI インターフェースを通じてこれらのアイデアを試しています。しかし、こうしたユーザーの多くは、コンピューターの画面を介した好奇心旺盛な AI アシスタントとのやり取りが、実は世界中にある巨大なデータセンターによって行われていることに気づいていません。

企業は、自社のビジネス上の利益のために独自の AI モデルを構築、トレーニング、改良するために、自社のデータセンター内に独自の AI クラスターに投資しています。これらの AI の中心には GPU (グラフィックス プロセッシング ユニット) のラックがあり、AI モデルがアルゴリズムを徹底的にトレーニングするために必要な驚異的な並列処理能力を提供します。

データセットをインポートすると、AI 推論によってデータが分析され、そこに含まれる意味が解釈されます。例えば、猫と犬の特徴の違いに基づいてトレーニングすることで、画像に猫が写っているのか犬が写っているのかを識別できるようになります。生成 AI はこのデータを処理して、まったく新しい画像やテキストを作成できます。

世界中の人々、政府、企業の注目を集めているのは、このような「インテリジェント」な処理です。 IDC最新の「世界の人工知能支出ガイド」によると、中国のAI投資は2027年に381億米ドルに達し、世界総額の約9%を占めると予想されています近年、地元の人工知能産業は高品質な発展へと進み、さまざまな業界のさまざまなニーズとの融合を加速させています。しかし、有用な AI アルゴリズムを作成するには、トレーニング用の大量のデータが必要であり、これはコストとエネルギーを大量に消費するプロセスです。

「知性」は効率的な訓練から生まれる

データ センターには通常、AI アルゴリズムのトレーニング用のデータを提供するために連携して動作する個別の AI クラスターとコンピューティング クラスターがあります。これらの電力を大量に消費する GPU によって発生する熱により、特定のラック スペースに設置できる GPU の数が制限されるため、物理的なレイアウトを最適化する必要があります。もう 1 つの懸念は、光ファイバー ケーブルが長くなると挿入損失が増加することです。

光ファイバーは、効率的で損失が少なく、遅延の少ないインフラストラクチャであり、AI クラスターは最大 100G または 400G の速度で実行できます。しかし、AI クラスターでは膨大な量のデータが送信されるため、光ファイバー ケーブルが 1 メートル増えるごとに、コストのかかる遅延と損失が発生します。

一般的に、大規模 AI のトレーニングに必要な時間の約 30% はネットワーク遅延によって消費され、残りの 70% はコンピューティング時間によって消費されると考えられています。 10 メートルのファイバーを削除して 50 ナノ秒を短縮するだけでも、遅延を削減できる機会があれば、多くの時間とコストを節約できます。このような大規模な AI モデルのトレーニングには 1,000 万ドル以上のコストがかかる可能性があることを考慮すると、遅延によるコストは明らかです。

ファイバーメートル、ナノ秒単位の遅延、ワット単位の電力消費を削減

オペレーターは、コストと電力消費を最小限に抑えるために、AI クラスターで使用する光トランシーバーとケーブルを慎重に検討する必要があります。ファイバー配線は可能な限り短くする必要があるため、光コストはトランシーバーによって異なります。パラレルファイバーを備えたトランシーバーを使用する利点は、波長分割多重化のための光マルチプレクサとデマルチプレクサが不要になることです。したがって、並列光学系を使用するトランシーバーはコストが低く、消費電力も少なくなります。トランシーバーのコスト削減は、デュプレックス ケーブルの代わりにマルチファイバー ケーブルを使用することで生じるコストのわずかな増加を相殺するのに十分です。たとえば、8 ファイバー ケーブルを使用する 400G-DR4 トランシーバーは、デュプレックス ケーブルを使用する 400G-FR4 トランシーバーよりもコスト効率が高くなります。

シングルモードおよびマルチモード ファイバー アプリケーションは、最大 100 メートルのリンクをサポートします。シリコンフォトニクスなどの技術の進歩により、シングルモードトランシーバーのコストは同等のマルチモードトランシーバーのコストに近づくまで低下しました。高速トランシーバー (400G+) の場合、シングルモード トランシーバーのコストは、同等のマルチモード トランシーバーの 2 倍になることがよくあります。マルチモード ファイバーはシングルモード ファイバーよりもわずかに高価ですが、マルチモード ファイバー ケーブルのコストは主に MPO コネクタによって決まるため、マルチモードとシングルモードのケーブル コストの差は小さくなります。

さらに、高速マルチモード トランシーバーは、シングルモード トランシーバーよりも 1 ~ 2 ワット少ない電力を消費します。 1 つの AI クラスターに最大 768 個のトランシーバーがあり、マルチモード ファイバーを使用したセットアップでは最大 1.5 kW の電力を節約できます。これは GPU サーバー 1 台あたり 10 キロワットと比較すると取るに足らないように思えるかもしれませんが、AI クラスターの場合、電力を節約する機会があれば、AI のトレーニングと運用中に多額のコストを節約できます。

トランシーバーとAOC

多くの AI/ML クラスターと HPC では、アクティブ光ケーブル (AOC) を使用して GPU とスイッチを相互接続します。アクティブ光ケーブルは、両端に光送信機と受信機が統合されたデバイス直接接続ケーブルです。アクティブ光ケーブルのほとんどは短距離伝送に使用され、通常はマルチモード光ファイバーと VCSEL 光源を使用します。高速 (>40G) アクティブ光ケーブルは、光トランシーバーを接続し、OM3 または OM4 ファイバーを使用するケーブルと同じです。 AOC の送信機と受信機は、同等のトランシーバーのものと同じである可能性がありますすべての状況に適しているわけではありません。各送信機と受信機は、厳密な相互運用性仕様を満たす必要はなく、光ファイバー ケーブルのもう一方の端に接続された特定の機器で動作するだけで済みます。設置者は光ファイバーコネクタにアクセスできないため、光ファイバーコネクタを清掃および検査するスキルは必要ありません。

AOC の欠点は、トランシーバーが提供できる柔軟性がないことです。 AOC のインストールには、トランシーバーを接続した状態でケーブルを配線する必要があるため、時間がかかります。ブランチを含む AOC を適切にインストールすることは特に困難です。 AOC の故障率は同等のトランシーバーの 2 倍です。 AOC に障害が発生すると、新しい AOC をネットワーク経由でルーティングする必要があり、計算時間がかかります。最後に、ネットワーク リンクをアップグレードする必要がある場合は、AOC を削除して新しいものに交換する必要があります。トランシーバーの場合、光ファイバーケーブルはインフラストラクチャの一部であり、データレートの世代を超えて変更されません

結論は

AI/ML はここにあり、人、企業、デバイスのやり取りにおいて、より重要で統合された部分になります。しかし、携帯電話で AI サービスとのやり取りが実現できるとはいえ、依然として大規模なデータセンター インフラストラクチャとコンピューティング パワーの駆動に依存しており、急速に変化する現在の超接続された世界では、AI を迅速かつ効率的にトレーニングできる企業が重要な位置を占めることになるのは否定できません。 AI のトレーニングと運用を強化するために、今、高度な光ファイバー インフラストラクチャに投資すれば、将来、驚くべき成果が得られる可能性があります。


<<:  優れたオープンソース RPA フレームワーク 5 つ

>>:  AIサイバーセキュリティ攻撃を防ぐ7つの戦略

ブログ    
ブログ    
ブログ    

推薦する

AI列車に乗ってみよう!マーケティングに人工知能を活用する3つの方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

ビッグデータアーキテクチャの詳細解説:データ取得からディープラーニングまで

機械学習 (ML) は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論などの分野を含む多分野...

ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

GPT-4のアップデート機能により、AIを使って歴史をシミュレートすることは、単なる「テキストロール...

人間は知能を持っているのに、なぜモノのインターネットには人工知能が必要なのでしょうか?

IoT にインテリジェンスが必要なのはなぜですか?人工知能は登場しましたが、具体的な概念はなく、ま...

人工知能の分野でどのように計画するか? マイクロソフトはこうする

[51CTO.com からのオリジナル記事] 人工知能は勢いを増しており、多くの大手企業が独自の計画...

5400億パラメータの大規模モデル進化ツリーが大幅に更新されました!最も詳細なプロンプトスキルを備えた85ページのLLM開発履歴

4月にリリースされるや否や開発者コミュニティで話題となった大規模言語モデルの概要が更新されました!こ...

...

「映画を見る」こと以外に、人工知能は医療の分野で何ができるのでしょうか?

6月26日に開催されたセコイア・グローバル・ヘルスケア産業サミットで、スタンフォード大学のフェイフ...

いくつかの典型的なアルゴリズム面接の質問に対する Java ソリューション

質問1:公共クラスtestClockwiseOutput { //行列を時計回りに印刷する @テスト...

「カラフルな黒をください」というたった1行のコマンドでAIが描ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIと自動化はCOVID-19後のビジネス成功の鍵

COVID-19 パンデミックが発生する前は、ビジネスリーダーたちは、ビジネス運営の最適化、収益性の...

AI が Sogou 入力方式の新バージョンを強化: 音声認識は 9 つの言語をサポート

最近、Sogou 入力方式がバージョン 10.8 に更新されました。新バージョンでは、主に音声入力と...

2020 年のディープラーニングに最適な GPU の概要。どれが最適かを確認してください。

ビッグデータダイジェスト制作出典: lambdalabs編纂者:張秋月ディープラーニング モデルが強...

...

ディープラーニングは私たちの生活に革命をもたらした

【51CTO.com クイック翻訳】ディープラーニングが泡のようなものだとしたら、それを真に制御する...