GPUパフォーマンスを最大化

AI プロジェクトを高速化するためのデフォルトのアプローチは、GPU クラスターのサイズを増やすことです。しかし、GPU が不足しているため、コストが上昇しています。多くの AI 企業が「調達した総資本の 80% 以上をコンピューティングリソースに費やしている」のも不思議ではありません。 GPU は AI インフラストラクチャの基礎であり、可能な限り多くの予算を割り当てる必要があります。しかし、このような高コストの中でも、GPU パフォーマンスを向上させるために検討すべき、そしてますます必要になっている他の方法があります。

GPU クラスターのスケーリングは決して簡単ではありません。特に、生成 AI の急速な拡大により GPU が不足しているためです。 NVIDIA A100 GPU は最初に影響を受けた GPU の 1 つで、現在では極めて品薄になっており、一部のバージョンは出荷までに最大 1 年かかります。こうしたサプライチェーンの課題により、多くの企業が代替品としてハイエンドの H100 を検討せざるを得なくなりましたが、当然ながらそれにはより高い価格が伴います。業界向けの次世代の優れた生成 AI ソリューションを作成するために独自のインフラストラクチャに投資する起業家は、既存の GPU から最大限の効率を引き出す必要があります。

ネットワークとストレージの両方の AI インフラストラクチャ設計に変更を加えることで、企業がコンピューティング投資からより多くの成果を得る方法を見てみましょう。

データの問題

有用なアプローチは、既存のコンピューティングインフラストラクチャの非効率性を考慮し、それらの非効率性を軽減してこれらのリソースを最適に活用する方法を検討することです。データ転送速度が遅すぎて GPU をビジー状態に維持できないことが多いため、GPU の使用率を最大化することは困難です。一部のユーザーでは GPU 使用率が 20% まで低下しているのが確認されていますが、これは明らかに許容できない値です。これは、AI チームが AI 投資を最大限に活用する方法を探し始めるのに適した場所です。

GPUは人工知能のエンジンです。車のエンジンが作動するためにガソリンが必要であるのと同じように、GPU はデータで作動します。データフローを制限すると、GPU のパフォーマンスが制限されます。 GPU が 50% の効率でしか動作しない場合、AI チームの生産性は低下し、プロジェクトの完了には 2 倍の時間がかかり、投資収益率は半減します。インフラストラクチャの設計では、GPU が最高の効率で動作し、期待されるコンピューティングパフォーマンスを提供できるようにする必要があります。

注目すべきは、DGX A100 サーバーと H100 サーバーはどちらも最大 30 TB の内部ストレージ容量を備えていることです。ただし、平均的なモデルサイズが約 150 TB であることを考えると、この容量はほとんどのディープラーニングモデルには実現可能ではありません。したがって、GPU にデータを供給し続けるには、追加の外部データメモリが必要になります。

ストレージパフォーマンス

AI ストレージは、サーバー、NVMe SSD、ストレージソフトウェアで構成され、通常はシンプルなデバイスにパッケージ化されています。 GPU が数十万のコアで大量のデータを並列処理するように最適化されているのと同様に、ストレージにも高いパフォーマンスが求められます。 AI におけるストレージの基本的な要件は、データセット全体を保存し、GPU を飽和させて効率的に実行し続けるために、そのデータをライン速度 (ネットワークが許す限りの速度) で GPU に転送できることです。それ以下であれば、この非常に高価で貴重な GPU リソースが十分に活用されていないことになります。

フルスピードで稼働する 10 台または 15 台の GPU サーバーのクラスターに対応できる速度でデータを配信すると、GPU リソースが最適化され、環境全体のパフォーマンスが向上し、予算を最大限に活用してインフラストラクチャ全体を最大限に活用できるようになります。

実際のところ、課題は、ストレージから最大限のパフォーマンスを引き出すために多数のクライアントコンピューティングノードを必要とする AI 向けに最適化されたストレージベンダーが存在しないことです。 1 台の GPU サーバーから開始する場合、1 台の GPU サーバーにプロビジョニングできるパフォーマンスを実現するには、多数のストレージノードが必要になります。

すべてのベンチマーク結果を信じないでください。複数の GPU サーバーを同時に使用すると優れた帯域幅を簡単に得ることができますが、AI は、必要なときにいつでもすべてのパフォーマンスを単一の GPU ノードに提供するストレージの恩恵を受けます。必要な超高性能を実現できるストレージの使用を主張しますが、これは単一のストレージノードで実行でき、このパフォーマンスを単一の GPU ノードに提供できる必要があります。これにより市場が狭まる可能性がありますが、AI プロジェクトを開始する際の優先事項の 1 つとなります。

ネットワーク帯域幅

コンピューティング能力の向上により、追加の AI インフラストラクチャに対する需要が高まっています。ネットワーク上のストレージデバイスから毎秒送信され、GPU によって処理される膨大な量のデータを管理するために、帯域幅の要件は新たな高みに達しています。ストレージデバイス内のネットワークアダプタ (NIC) はネットワーク内のスイッチに接続し、スイッチは GPU サーバー内のアダプタに接続します。 NIC は、正しく構成されていれば、ボトルネックなしでストレージを 1 台または 2 台の GPU サーバーに直接接続できます。ストレージから GPU に最大データ負荷を渡すのに十分な帯域幅を確保し、一定期間にわたって飽和状態を維持することが重要です。これが実現できないと、多くの場合、GPU の使用率が低下します。

GPU オーケストレーション

インフラストラクチャが整備されると、GPU オーケストレーションおよび割り当てツールは、チームがリソースをより効率的にプールおよび割り当て、GPU の使用状況を可視化し、より高度なリソース制御を提供し、ボトルネックを減らし、使用率を向上させるのに大いに役立ちます。これらのツールは、基盤となるインフラストラクチャがそもそもデータを正しく流すことができる場合にのみ、これらすべてを意図したとおりに実行できます。

AI では、データが入力となるため、企業のミッションクリティカルなアプリケーション (在庫管理データベースサーバー、電子メールサーバー、バックアップサーバーなど) 向けの従来のエンタープライズフラッシュの優れた機能の多くは、AI にはまったく関係がありません。これらのソリューションはレガシープロトコルを使用して構築されており、AI 向けに再利用されているものの、これらのレガシー基盤では GPU および AI ワークロードのパフォーマンスが明らかに制限され、価格が上昇し、過度に高価で不要な機能にお金が無駄になっています。

現在、世界的に GPU が不足しており、AI 業界も急成長しているため、特に短期的には、GPU のパフォーマンスを最大化する方法を見つけることがこれまで以上に重要になっています。ディープラーニングプロジェクトが急増する中、コストを削減し、成果を向上させるための重要な方法がいくつかあります。

<<: 大手モデルサークルは「GPU が貧弱」について熱く議論している。Google の計算能力は他のすべての企業を合わせたよりも高いことが明らかになり、スタートアップに打撃を与えている。

>>: Fooocus: シンプルで強力な安定した拡散 WebUI