AIのための大規模ストレージインフラストラクチャの要件

AIのための大規模ストレージインフラストラクチャの要件

ストレージ インフラストラクチャに人工知能を導入することで、容量とパフォーマンスの要件が高まっています。 AI や機械学習を採用したスト​​レージ環境では、ストレージ容量が数十 TB または数百 TB にまで拡大することも珍しくありません。オールフラッシュ アレイ製品を提供するベンダーは、このような大量のデータはオールフラッシュ アレイに保存できないと主張していますが、ほとんどのストレージ環境では、並列性があるため、ハードディスクからフラッシュとほぼ同等のサービスを得ることができます。

[[322749]]

要件1: 高性能ネットワーク

AI/ML 環境では、オンプレミスまたは直接接続ストレージ (DAS) を使用するコンピューティング サーバーのクラスターを作成することは珍しくありません。共有ストレージは容量の使用効率が高く、コンピューティング ノード間でワークロードをより均等に分散できますが、多くの組織はコンピューティング ノードと共有ストレージ間で発生するネットワーク遅延を排除するために、これらの効率を犠牲にしようとしています。

NVMe over Fabric (NVMe-oF) は、フラッシュや不揮発性メモリなどのメモリベースのストレージ デバイス専用に設計された次世代ネットワークです。 DAS NVMe とほぼ同じレイテンシを提供します。 NVMe の深いコマンドとキューの深さは、高度に並列化されたワークロードにも適しており、AI/ML はおそらくすべてのワークロードの中で最も並列化されています。 NVMe-oF はメモリ ストレージ用に特別に設計されていますが、AI/機械学習向けにもカスタマイズされています。

要件2: 共有ストレージ

NVMe-oF がコンピューティングとストレージ間のレイテンシの問題を解決できれば、2 番目の要件である共有ストレージが可能になります。 NVMe-oF 接続の共有ストレージ ソリューションを使用すると、ワークロードは共有ストレージの自然な特性をすべて活用できます。まず、すべてのノードがすべてのデータにアクセスできるため、ワークロードは計算負荷をより均等に分散できます。これは、グラフィックス プロセッシング ユニット (GPU) を備えたノードがすべてのデータにアクセスできることも意味します。 GPU は CPU よりもはるかに高価なので、GPU でより多くの負荷を処理できるようにすることが優先され、共有ストレージによってこれが容易になります。

数十ペタバイトまたは数百ペタバイトのワークロード容量要件を測定する場合、ストレージ効率の向上は大幅なコスト削減につながる可能性があります。各コンピューティング ノードに専用のハード ディスクがあるクラスターでは、IT チームは使用可能なストレージ容量をクラスター内の他のノードに簡単に再割り当てすることができません。直接接続ストレージ (DAS) モデルにはリソース プーリングがないため、メーカーが市場に投入する大容量ハード ドライブを組織が効果的に使用することもできません。現在、デュアルパーパスノード (コンピューティングとストレージ) には 12 台以上の 16 TB フラッシュ ドライブまたは 18 TB ハード ドライブがインストールされている場合がありますが、単一のノードではこれを効率的に使用できない可能性があります。 AI/ML ストレージ アーキテクチャがこれらのドライブを専用サーバーから集中的に使用する場合は、より細かく割り当てることができます。 AI/ML ワークロードは、容量の需要を満たすために拡張する必要があるだけでなく、パフォーマンスの需要を満たすためにストレージ ノードに直接アクセスする必要もあります。

要件3: 階層型ストレージ

AI/ML データセットの規模を考えると、数十ペタバイトのフラッシュ ストレージをプロビジョニングするのはコストがかかりすぎるため、階層化ストレージはほぼ必須です。実際には、特定の AI ワークロードは 80/20 ルールに従わず、常にデータの 80% が非アクティブになります。これらのワークロードは、100% 休止状態から 100% アクティブ状態に移行できます。それでも、それらは高度に並列化されており、数百の低パフォーマンスの機械式ハードドライブがすべて同時にワークロードを処理できるため、これらのワークロードに必要なパフォーマンスを提供できるはずです。そうでない場合は、現在のネットワーク技術が許す限り高速にデータを転送できます。

要件4: 並列アクセス

並列アクセスとは、ストレージ インフラストラクチャ内の各ノードが、AI/ML クラスター内の各コンピューティング ノードに必要なデータへの直接アクセスを提供することを意味します。単一の制御ノードがボトルネックになることはありません。多数のコンピューティング ノードが同時にストレージ プールにアクセスする必要がある可能性があるため、AI/ML では高レベルの並列処理が重要です。この並列処理により、ハードドライブが AI/ML ストレージ インフラストラクチャのコンポーネントとなるスループットが可能になります。並列ファイル システムでは、ほとんどの場合、クライアントまたはエージェントが必要ですが、そのエージェントは並列アクセスを提供することに加えて、一般的な NFS プロトコルよりもオーバーヘッドが少なくなることがよくあります。

要件5: 複数のプロトコル

処理には並列アクセスが必要ですが、もう 1 つの要件はマルチプロトコル アクセスです。これは、データをストレージ インフラストラクチャに抽出する場合に特に役立ちます。多くの AI および機械学習プロジェクトは、モノのインターネット (IoT) デバイスからデータを受け取りますが、多くの場合、付随するプロトコルを使用して通信する必要があります。多くのデバイスはサーバー メッセージ ブロック (SMB) またはネットワーク ファイル システム (NFS) を介して通信し、いくつかのデバイスは S3 バケットを使用します。さらに重要なのは、ネイティブの並列ファイルシステムクライアントを使用する人はほとんどいないということです。

要件6: 高度なメタデータ処理

AI/機械学習ワークロードはメタデータを多用するワークロードですが、メディアやエンターテイメントのワークロードほど豊富なメタデータを使用するため、通常はそうではありません。 AI/ML ワークロードにおけるメタデータの重要性は、共通ファイルの数から生じます。ほとんどの場合、数十億から数百ペタバイトの AI ワークロードは数十億のファイルで構成されます。これらの各ファイルにはメタデータがあり、他のワークロードと同様に、IO トランザクションのほとんどはメタデータから発生します。 AI/ML ストレージ インフラストラクチャは、ファイル数が増加してもシステムのパフォーマンスを維持できるようにメタデータを管理する必要があります。すべてのノードが管理に参加できるように、メタデータをストレージ クラスター全体に分散する必要があります。ベンダーは、システムが常に応答可能であることを確認するために、各ストレージ ノードのフラッシュ メモリ上のストレージ メタデータを確認する場合もあります。

結論は

AI/ML ワークロードは、組織が過去に実行した可能性のある他のワークロードとは根本的に異なります。初期の AI/ML プロジェクトでは、データ ストレージに直接接続ストレージ (DAS) に依存していました。問題は、直接接続ストレージ (DAS) が負荷を均等に分散できないことです。これは、AI ワークロードあたりの GPU の数が増えるにつれて重要になります。さらに、直接接続ストレージ (DAS) は非効率であり、データのコピーと移動に費やされる容量と時間の無駄により、機械式ハード ドライブの価格上の利点が失われます。

<<:  肖像情報セキュリティには「内部と外部の共同管理」が必要

>>:  顔認識会社Clearviewのソースコードがサーバーの設定ミスにより公開される

ブログ    
ブログ    
ブログ    

推薦する

校内暴力を予防し解決するために、AIは子どもたちのために何ができるでしょうか?

[[228688]]あなたはキャンパスライフに満足していますか?多くの人が「はい」と答えると思いま...

複数の機会が生まれており、虹彩認識技術の将来の発展は有望である

[[424491]]近年、人工知能ブームの影響を受けて、生体認証技術は急速に進歩し、市場の発展も好調...

適切な機械学習アルゴリズムを簡単に選択

著者: ヨギータ・キナブガッティが編集企画丨孫淑娊適切な機械学習アルゴリズムを選択するにはどうすれば...

言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

北京大学とテンセントがマルチモーダル15角形の戦士を制作しました!言語を中心に据えて、ビデオ、オーデ...

ChatGPTを使った学生の不正行為を防ぐため、一部の大学教授は紙ベースの試験と手書きのエッセイへの復帰を検討している。

8月14日、人工知能(AI)の発展は教育に新たな課題をもたらしました。フォーチュン誌の最近の報道に...

エラー率が44%減少しました!ニューヨーク大学の最新の「顔生成」は、年齢を自由に変えることが可能で、10代から高齢者まであらゆる人をカバーできる。

現在の「顔認識システム」は老化防止能力が非常に弱く、人の顔が老化すると認識性能が大幅に低下し、一定期...

...

2018年に人工知能はどのように発展するでしょうか? 13人の専門家の予測を聞いてみよう

ウォール・ストリート・ジャーナル、フォーブス、フォーチュンなどの出版物は、2017 年を「AI の年...

将来、人工知能は人間の意識を発達させるでしょうか?

今日はそれについて話しましょう。あらゆるものには規則性がある。これを植物と生物学の2つの観点から議論...

量子人工知能研究における課題と機会

量子コンピューティングと人工知能の融合により、大きな期待と可能性を秘めた研究の最前線である量子人工知...

大規模データストレージソリューションの構築: MongoDB の水平拡張の検討

MongoDB は、大規模なデータ ストレージ ソリューションの構築に適した NoSQL データベー...

BAIRは、3種類のモデルフリー強化学習アルゴリズムを組み合わせたRLコードライブラリrlpytをオープンソース化しました。

最近、BAIR は強化学習研究コードライブラリ rlpyt をオープンソース化しました。このライブラ...

20200202 千年に一度の対称性の日、すべての「回文アルゴリズム」をキャッチする時が来ました!

[[313923]]今日は2020年2月2日、「千年に一度の対称の日」として知られています。202...

信頼とセキュリティの分野におけるデータサイエンスの典型的な 7 つの使用例

信頼とセキュリティとは何でしょうか? 現在の世界ではどのような役割を果たしているのでしょうか? 多く...