GPUパフォーマンスを最大化

GPUパフォーマンスを最大化

AI プロジェクトを高速化するためのデフォルトのアプローチは、GPU クラスターのサイズを増やすことです。しかし、GPU が不足しているため、コストが上昇しています。多くの AI 企業が「調達した総資本の 80% 以上をコンピューティング リソースに費やしている」のも不思議ではありません。 GPU は AI インフラストラクチャの基礎であり、可能な限り多くの予算を割り当てる必要があります。しかし、このような高コストの中でも、GPU パフォーマンスを向上させるために検討すべき、そしてますます必要になっている他の方法があります。

GPU クラスターのスケーリングは決して簡単ではありません。特に、生成 AI の急速な拡大により GPU が不足しているためです。 NVIDIA A100 GPU は最初に影響を受けた GPU の 1 つで、現在では極めて品薄になっており、一部のバージョンは出荷までに最大 1 年かかります。こうしたサプライチェーンの課題により、多くの企業が代替品としてハイエンドの H100 を検討せざるを得なくなりましたが、当然ながらそれにはより高い価格が伴います。業界向けの次世代の優れた生成 AI ソリューションを作成するために独自のインフラストラクチャに投資する起業家は、既存の GPU から最大限の効率を引き出す必要があります。

ネットワークとストレージの両方の AI インフラストラクチャ設計に変更を加えることで、企業がコンピューティング投資からより多くの成果を得る方法を見てみましょう。

データの問題

有用なアプローチは、既存のコンピューティング インフラストラクチャの非効率性を考慮し、それらの非効率性を軽減してこれらのリソースを最適に活用する方法を検討することです。データ転送速度が遅すぎて GPU をビジー状態に維持できないことが多いため、GPU の使用率を最大化することは困難です。一部のユーザーでは GPU 使用率が 20% まで低下しているのが確認されていますが、これは明らかに許容できない値です。これは、AI チームが AI 投資を最大限に活用する方法を探し始めるのに適した場所です。

GPUは人工知能のエンジンです。車のエンジンが作動するためにガソリンが必要であるのと同じように、GPU はデータで作動します。データフローを制限すると、GPU のパフォーマンスが制限されます。 GPU が 50% の効率でしか動作しない場合、AI チームの生産性は低下し、プロジェクトの完了には 2 倍の時間がかかり、投資収益率は半減します。インフラストラクチャの設計では、GPU が最高の効率で動作し、期待されるコンピューティング パフォーマンスを提供できるようにする必要があります。

注目すべきは、DGX A100 サーバーと H100 サーバーはどちらも最大 30 TB の内部ストレージ容量を備えていることです。ただし、平均的なモデル サイズが約 150 TB であることを考えると、この容量はほとんどのディープラーニング モデルには実現可能ではありません。したがって、GPU にデータを供給し続けるには、追加の外部データ メモリが必要になります。

ストレージパフォーマンス

AI ストレージは、サーバー、NVMe SSD、ストレージ ソフトウェアで構成され、通常はシンプルなデバイスにパッケージ化されています。 GPU が数十万のコアで大量のデータを並列処理するように最適化されているのと同様に、ストレージにも高いパフォーマンスが求められます。 AI におけるストレージの基本的な要件は、データセット全体を保存し、GPU を飽和させて効率的に実行し続けるために、そのデータをライン速度 (ネットワークが許す限りの速度) で GPU に転送できることです。それ以下であれば、この非常に高価で貴重な GPU リソースが十分に活用されていないことになります。

フルスピードで稼働する 10 台または 15 台の GPU サーバーのクラスターに対応できる速度でデータを配信すると、GPU リソースが最適化され、環境全体のパフォーマンスが向上し、予算を最大限に活用してインフラストラクチャ全体を最大限に活用できるようになります。

実際のところ、課題は、ストレージから最大限のパフォーマンスを引き出すために多数のクライアント コンピューティング ノードを必要とする AI 向けに最適化されたストレージ ベンダーが存在しないことです。 1 台の GPU サーバーから開始する場合、1 台の GPU サーバーにプロビジョニングできるパフォーマンスを実現するには、多数のストレージ ノードが必要になります。

すべてのベンチマーク結果を信じないでください。複数の GPU サーバーを同時に使用すると優れた帯域幅を簡単に得ることができますが、AI は、必要なときにいつでもすべてのパフォーマンスを単一の GPU ノードに提供するストレージの恩恵を受けます。必要な超高性能を実現できるストレージの使用を主張しますが、これは単一のストレージ ノードで実行でき、このパフォーマンスを単一の GPU ノードに提供できる必要があります。これにより市場が狭まる可能性がありますが、AI プロジェクトを開始する際の優先事項の 1 つとなります。

ネットワーク帯域幅

コンピューティング能力の向上により、追加の AI インフラストラクチャに対する需要が高まっています。ネットワーク上のストレージ デバイスから毎秒送信され、GPU によって処理される膨大な量のデータを管理するために、帯域幅の要件は新たな高みに達しています。ストレージ デバイス内のネットワーク アダプタ (NIC) はネットワーク内のスイッチに接続し、スイッチは GPU サーバー内のアダプタに接続します。 NIC は、正しく構成されていれば、ボトルネックなしでストレージを 1 台または 2 台の GPU サーバーに直接接続できます。ストレージから GPU に最大データ負荷を渡すのに十分な帯域幅を確保し、一定期間にわたって飽和状態を維持することが重要です。これが実現できないと、多くの場合、GPU の使用率が低下します。

GPU オーケストレーション

インフラストラクチャが整備されると、GPU オーケストレーションおよび割り当てツールは、チームがリソースをより効率的にプールおよび割り当て、GPU の使用状況を可視化し、より高度なリソース制御を提供し、ボトルネックを減らし、使用率を向上させるのに大いに役立ちます。これらのツールは、基盤となるインフラストラクチャがそもそもデータを正しく流すことができる場合にのみ、これらすべてを意図したとおりに実行できます。

AI では、データが入力となるため、企業のミッションクリティカルなアプリケーション (在庫管理データベース サーバー、電子メール サーバー、バックアップ サーバーなど) 向けの従来のエンタープライズ フラッシュの優れた機能の多くは、AI にはまったく関係がありません。これらのソリューションはレガシー プロトコルを使用して構築されており、AI 向けに再利用されているものの、これらのレガシー基盤では GPU および AI ワークロードのパフォーマンスが明らかに制限され、価格が上昇し、過度に高価で不要な機能にお金が無駄になっています。

現在、世界的に GPU が不足しており、AI 業界も急成長しているため、特に短期的には、GPU のパフォーマンスを最大化する方法を見つけることがこれまで以上に重要になっています。ディープラーニング プロジェクトが急増する中、コストを削減し、成果を向上させるための重要な方法がいくつかあります。

<<:  大手モデルサークルは「GPU が貧弱」について熱く議論している。Google の計算能力は他のすべての企業を合わせたよりも高いことが明らかになり、スタートアップに打撃を与えている。

>>:  Fooocus: シンプルで強力な安定した拡散 WebUI

ブログ    
ブログ    

推薦する

2018 年に人工知能があなたの生活、仕事、遊びに革命を起こす 8 つの方法

2017年、人工知能はあらゆる面でブームを巻き起こしました。イーロン・マスクからマーク・ザッカーバー...

...

...

アメリカでは500万の仕事が機械に置き換えられました!スーパーAIは人類に不死をもたらすのか、それとも破滅をもたらすのか?

人工知能は1956年以来40年以上の発展を遂げてきました。現在、AI の目標はコンピューターを人間の...

Python ベースのパーセプトロン分類アルゴリズムの実践

[[374354]]パーセプトロンは、バイナリ分類タスク用の線形機械学習アルゴリズムです。これは、人...

...

マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答:残念なリーク

OpenAI の最初のシーズンは本当に終わりました。 ChatGPTがちょうど1周年を迎えようとして...

ロボティック・プロセス・オートメーションは大きな問題でしょうか?

今日の急速に変化するデジタル時代において、企業は効率を高め、運用コストを削減し、全体的な生産性を向上...

HTML5アウトラインアルゴリズムが構造に与える影響

[[91338]] HTML5 がリリースされてから長い時間が経ちますが、日々の仕事や個人の Web...

機械学習にはどのプログラミング言語を選択すればよいでしょうか?

機械学習やデータサイエンスの分野で仕事を得るために、開発者はどのプログラミング言語を学ぶべきでしょう...

...

アルゴリズムを使って従業員を解雇する人工知能は、労働者の新たなリーダーになったのだろうか?

最近、外国メディアのゲームワールドオブザーバーは、ロシアのオンライン決済サービス企業エクソラがアルゴ...

AIがクラウドに依存しない理由:将来AIは疎外される

[[268251]] [51CTO.com 速訳] 人工知能の発展は希望と課題に満ちている。その「不...

イラストレーターが10年後の情景を描く、ロボットが人間に取って代わり、38%の人が解雇に直面

科学技術の発展にはいつも驚かされます。携帯電話がいつからこんなにスマートになったのか、コンピューター...

シリコンバレーの大手企業のAIスタートアップへの投資レイアウトを解明! Nvidiaが全力で取り組み、MicrosoftとOpenAIの関係が独占禁止法調査につながる

今年、新たな AI スタートアップ企業がシリコンバレーとビジネス界全体に衝撃を与えました。 Open...