AIのための大規模ストレージインフラストラクチャの要件

AIのための大規模ストレージインフラストラクチャの要件

大規模な人工知能 (AI) により、容量とパフォーマンスの面でストレージ インフラストラクチャの水準が引き上げられています。 AI または機械学習 (ML) 環境では、容量が数十 TB または数百 TB にまで拡大することが珍しくありません。オールフラッシュ アレイのみを提供するベンダーの主張にもかかわらず、これらの環境は、オールフラッシュの 1 つの層だけで保存するには大きすぎます。これらの環境のほとんどは (並列性のため)、フラッシュとほぼ同等の優れたサービスをハード ディスクから得ることができます。

[[314860]]

要件1: 高性能ネットワーク

AI/ML 環境では、内部ストレージまたは直接接続ストレージ (DAS) を使用するコンピューティング サーバーのクラスターを作成することは珍しくありません。共有ストレージは、利用可能な容量を使用し、コンピューティング ノード間でワークロードをより均等に分散する点でより効率的ですが、組織はコンピューティング ノードと共有ストレージの作成間のネットワーク遅延を排除するために、これらの効率を犠牲にすることをいといません。

NVMe over Fabric (NVMe-oF) は、フラッシュや不揮発性メモリなどのメモリベースのストレージ デバイス専用に設計された次世代ネットワークです。DAS NVMe とほぼ同じレイテンシを提供します。NVMe の深いコマンドとキューの深さは、高度に並列化されたワークロードにも適しており、AI/ML はおそらくすべてのワークロードの中で最も並列化されています。NVMe-oF はメモリ ストレージ専用に設計されていますが、AI/ML 向けにもカスタマイズされています。

要件2 :共有ストレージ

NVMe-oF がコンピューティングとストレージ間のレイテンシの問題を解決できれば、2 番目の要件である共有ストレージが可能になります。 NVMe-oF 接続の共有ストレージ ソリューションを使用すると、ワークロードは共有ストレージの自然な特性をすべて活用できます。まず、すべてのノードがすべてのデータにアクセスできるため、ワークロードは計算負荷をより均等に分散できます。これは、グラフィックス プロセッシング ユニット (GPU) を備えたノードがすべてのデータにアクセスできることも意味します。 GPU は CPU よりもはるかに高価なので、GPU を常にビジー状態にしておくことが優先され、共有ストレージによってこれが容易になります。

数十ペタバイトまたは数百ペタバイトのワークロード容量要件を測定する場合、ストレージ効率の向上は大幅なコスト削減につながります。各コンピューティング ノードに専用のドライブがあるクラスターでは、IT 部門は使用可能なストレージ容量をクラスター内の他のノードに簡単に再割り当てすることができません。直接接続ストレージ (DAS) モデルにはリソース プーリングがないため、メーカーが市場に投入する大容量ドライブを組織が効果的に使用することもできません。現在、デュアルパーパスノード (コンピューティングとストレージ) には、12 台以上の 16 TB 以上のフラッシュ ドライブまたは 18 TB 以上のハード ドライブをインストールできますが、単一のノードでは効率的に使用できない可能性があります。 AI/ML ストレージ アーキテクチャが専用サーバーから同じハード ドライブをプールする場合、より細かいレベルで割り当てることができます。 AI/ML ワークロードは、容量の需要を満たすために拡張する必要があるだけでなく、パフォーマンスの需要を満たすためにストレージ ノードに直接アクセスする必要もあります。

要件3 多層ストレージ

AI/ML データセットのサイズを考えると、数十ペタバイトのフラッシュは高価すぎるため、階層化はほぼ必須です。公平を期すために言えば、一部の AI ワークロードは、80/20 ルール (つまり、特定の時点でデータの 80% が非アクティブである) に従いません。これらのワークロードは、100% 休止状態から 100% アクティブ状態に移行できます。それにもかかわらず、それらは高度に並列化されており、数百の低パフォーマンスのハードドライブが同時にワークロードのニーズに対応できるため、これらのワークロードに必要なパフォーマンスを提供できます。そうでない場合は、現在のネットワーク技術が許す限り高速にデータを転送できます。

要件4 :並列アクセス

並列アクセスとは、ストレージ インフラストラクチャ内の各ノードが、AI/ML クラスター内の各コンピューティング ノードに必要なデータへの直接アクセスを提供することを意味します。単一の制御ノードがボトルネックになることはありません。多数のコンピューティング ノードが同時にストレージ プールにアクセスする必要がある可能性があるため、AI/ML では高レベルの並列処理が重要です。この並列処理により、ハードドライブを AI/ML ストレージ インフラストラクチャのコンポーネントとして実行可能なスループットが可能になります。並列ファイル システムでは、ほとんどの場合、クライアントまたはエージェントが必要ですが、エージェントは並列アクセスを提供することに加えて、通常のアクセスを提供する場合よりもオーバーヘッドが少なくて済みます。

要件5 :複数のプロトコル

処理には並列アクセスが必要ですが、もう 1 つの要件はマルチプロトコル アクセスです。これは、データをストレージ インフラストラクチャに取り込む場合に特に役立ちます。多くの AI および機械学習プロジェクトは、モノのインターネット (IoT) デバイスからデータを受信します。これらのデバイスは通常、付属のプロトコルを使用して通信する必要があります。多くのデバイスは SMB または NFS 経由で通信し、少数のデバイスは S3 を使用します。さらに、ネイティブの並列ファイルシステムクライアントを使用する人はほとんどいません。

要件6 :高度なメタデータ処理

AI/機械学習のワークロードはメタデータを多用しますが、メディアやエンターテイメントのワークロードのように豊富なメタデータを使用するため、通常はそれほど多くありません。 AI/ML ワークロードにおけるメタデータの重要性は、共通ファイルの数から生じます。ほとんどの場合、数十億から数百ペタバイトの AI ワークロードは数十億のファイルで構成されます。これらの各ファイルにはメタデータがあり、他のワークロードと同様に、IO トランザクションのほとんどはメタデータから発生します。 AI/ML ストレージ インフラストラクチャは、ファイル数が増加してもシステムのパフォーマンスを維持できるようにメタデータを管理する必要があります。すべてのノードが管理に参加できるように、メタデータをストレージ クラスター全体に分散する必要があります。ベンダーは、システムが常に応答可能であることを確認するために、各ストレージ ノードのフラッシュ メモリ上のストレージ メタデータを確認する場合もあります。

結論は

AI/ML ワークロードは、組織が過去に実行した他のワークロードとは根本的に異なります。初期の AI/機械学習プロジェクトでは、すでにデータストレージに DAS を利用しています。問題は、直接接続ストレージ (DAS) が負荷を均等に分散できないことです。これは、AI ワークロードあたりの GPU の数が増えるにつれて重要になります。さらに、直接接続ストレージ (DAS) は非常に非効率であり、データのコピーと移動に費やされる容量と時間の無駄により、安価なハード ドライブの価格上の利点が失われます。

<<:  2020年にAIに適した5つのプログラミング言語

>>:  顔認識を使用してアバターにマスクとゴーグルを自動的に追加する方法

ブログ    
ブログ    

推薦する

Microsoft Bing Chat が AI 株取引機能を解放: 将来の株価動向を予測可能

Microsoft は、生成 AI のさまざまな可能性を積極的に模索しています。将来の応用シナリオの...

Nature: 科学者がディープラーニングを使って初めて人間の意識を定量化

今、科学者たちは人間の意識について新たな理解を得ています!この研究では、ディープラーニングアルゴリズ...

人工知能がヘルスケア業界にもたらす変化

AIが医療業界を変える[[397937]] AIとロボットはすでにいくつかの医療機関で活用されていま...

Stability AIのCEOが大胆な発言:5年後には人間のプログラマーは存在しなくなる

最近、Stability AIの創設者兼CEOであるEmad Mostaque氏が再び衝撃的な発言を...

ビッグデータがなくてもディープラーニングは可能でしょうか?中小企業のトレーニングのための新しいソリューション、大規模モデル

海外メディアの報道によると、AI専門家のアンドリュー・ン氏はIEEEに対し、ディープラーニングの今後...

MITはディープラーニングが計算限界に近づいていると警告。ネットユーザー:減速は良いことだ

MIT の調査によると、ディープラーニングは計算能力の限界に近づいているようです。 [[334431...

破壊的な AI プログラム: 人工知能が天文学の革新を推進する方法

[[349907]]あらゆる業界に嵐のように広がっている流行語があるとすれば、それは「人工知能」に違...

ビッグデータアーキテクチャの詳細解説:データ取得からディープラーニングまで

機械学習 (ML) は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論などの分野を含む多分野...

機械学習モデルを構築するときに避けるべき 6 つの間違い

近年、機械学習は学術研究や実用化の分野でますます注目を集めています。しかし、機械学習モデルの構築は簡...

負荷分散アルゴリズムの完全なリスト

負荷分散の開発基盤は負荷分散アルゴリズムです。次に、サーバーごとに持つ機能や必要な機能が異なるため、...

AI時代には、ナレッジグラフとナレッジマネジメントの二重の価値を活用する必要がある

[[402551]]ナレッジマネジメントは企業と個人の両方にとって非常に重要です。従来の知識管理は、...

Nokelockの「1+2」戦略は、スマートロックを商業利用の新時代へと導きます

5月15日、世界有数のIoTロック企業であるnokelockの製品発表会が北京金宇シェラトンホテルで...

Adobeが次世代Photoshop機械学習機能を発表、ワンクリックで画像を切り抜くことが可能に

Adobeは月曜日、ビデオを通じて次世代Photoshop CCのいくつかの新機能を発表した。ビデオ...

8つのソートアルゴリズムのPython実装

この記事では、主に 8 つの一般的なソート アルゴリズムの基本概念とそれらの Python 実装を紹...

人工知能認識により、物流会社はダブルイレブンの注文に簡単に対応できます。

2018年のダブルイレブンは、「富豪」に対する私の認識を新たにしました。その前に、アリババの張勇は...