適切な AI データストレージを選択するための 6 つの考慮事項

間違ったストレージ AI プラットフォームを採用すると深刻な影響が生じる可能性があるため、製品の選択と戦略に影響を与える可能性のある 6 つの考慮事項に注意してください。

[[278188]]

人工知能と機械学習は、企業が中核となるデジタル資産を活用して競争上の優位性を生み出すために役立つ最も重要な 2 つのツールになります。しかし、AI データストレージを導入する前に、企業は機械学習プラットフォームがデータを取得、処理、保持する方法に基づいてさまざまな要件を考慮する必要があります。

まず、機械学習ソフトウェアで使用されるデータのライフサイクルを調べる必要があります。これにより、AI 用のストレージを選択する際に考慮すべき事項を理解するのに役立ちます。まず、企業は機械学習や人工知能のアルゴリズムをトレーニングするためのデータを取得する必要があります。これらは、オブジェクトの識別、ビデオの処理、動きの追跡などのタスクを学習するためにデータを処理するソフトウェアツールです。データはさまざまなソースから生成される可能性があり、オブジェクトやファイルなど、本質的には構造化されていないことがよくあります。

AI トレーニングプロセスでは、データ資産を使用し、機械学習または AI ソフトウェアを使用してアルゴリズムを作成し、将来のデータソースを処理する必要があります。アルゴリズムをトレーニングまたは開発する際、AI ソフトウェアはソースデータを処理して、ビジネスが得る必要のある洞察やメリットを生み出すモデルを開発します。

機械学習アルゴリズムの開発は、単一のプロセスとして行われることはほとんどありません。同社が新たなデータを蓄積するにつれて、そのアルゴリズムは改善され、洗練されていきます。つまり、破棄されるデータはごくわずかで、時間の経過とともに増加し、再処理されることになります。

AIデータストレージの購入基準

企業が AI プラットフォーム用のストレージを選択する前に、まず次の点を考慮する必要があります。

1. コスト。 AI データストレージのコストは、企業が考慮する重要な要素です。当然のことながら、企業の経営陣と購買決定に関与する役員は、ストレージのコスト効率を可能な限り高めたいと考えており、多くの場合、これが企業の製品の選択と戦略に影響を与えます。

2. スケーラビリティ。ここで強調する必要があるのは、機械学習や人工知能モデルを作成するために大量のデータを収集、保存、処理する必要性です。機械学習アルゴリズムでは、精度の線形改善を実現するために、ソースデータの指数関数的な増加が必要です。信頼性が高く正確な機械学習モデルを作成するには、数百テラバイト、さらにはペタバイトのデータが必要になる場合があり、この量は時間の経過とともに増加する一方です。

ペタバイト規模のストレージシステムを構築するには、通常、オブジェクトストレージまたはスケールアウトファイルシステムを使用する必要があります。最新のオブジェクトストアは、AI ワークロードの容量ニーズに確実に対応できますが、高パフォーマンスなどの他の基準を満たさない可能性があります。スケールアウトファイルシステムは高いパフォーマンスと優れたスケーラビリティを提供できますが、データセット全体を単一のプラットフォームに保存するとコストがかかる可能性があります。ブロックストレージは、スケーラビリティ要件と大容量製品のコストのため、通常、機械学習や AI には適していません。ここでの唯一の例外はパブリッククラウドです。

ストレージコストの変化により、階層化、つまり複数のストレージタイプを使用してデータを保存するという概念が導入されました。たとえば、オブジェクトストレージは、大量の非アクティブな AI データを保存するのに適しています。データを処理する必要がある場合は、高性能ファイルストレージクラスターまたは高性能向けに設計されたオブジェクトストアのノードにデータを移動し、処理が完了したらデータを元に戻すことができます。

3. パフォーマンス。人工知能データの保存パフォーマンスには 3 つの側面があります。まず、おそらく最も重要なのはレイテンシです。これは、ソフトウェアによって発行された各 I/O 要求が処理される速度を定義します。低レイテンシは重要です。レイテンシを改善すると、機械学習または AI モデルの作成にかかる時間に直接影響するからです。複雑なモデルの開発には、実行に数週間から数か月かかる場合があります。この開発サイクルを短縮することで、企業はより迅速にモデルを作成し、改良することができます。レイテンシ機能を調べる場合、オブジェクトアクセスのデータストリーミングの性質により、オブジェクトは単一の I/O 要求のレイテンシではなく、最初のバイトへの参照時間を保存します。

ストレージパフォーマンスのもう 1 つの側面はスループットです。これは、ストレージプラットフォームにデータを書き込んだり、ストレージプラットフォームからデータを読み取ったりする速度です。 AI トレーニングでは大規模なデータセットを処理し、モデルを正確に開発するために同じデータを繰り返し読み取ることが多いため、システムスループットは重要です。自動運転車のセンサーなどの機械学習や AI データのソースは、毎日テラバイト単位の新しいデータを生成する可能性があります。この情報はすべて、既存の処理への影響を最小限に抑えながら、既存のデータストアに追加する必要があります。

関係するデータの量が膨大であるため、ストレージプラットフォームを適切に選択することが重要です。

ストレージパフォーマンスの最後の側面は並列アクセスです。機械学習と AI アルゴリズムはデータを並列処理し、同じデータを複数回読み取り、複数の並列タスクにまたがる複数のタスクを実行します。オブジェクトストレージは、管理するオブジェクトロックやプロパティがないため、並列読み取り I/O 処理に優れています。ファイルサーバーは、メモリ内の開いている I/O 要求またはファイルハンドルを追跡します。したがって、I/O 要求の数は、プラットフォームで使用可能なメモリによって異なります。

機械学習のデータは、多数の小さなファイルで構成される場合があります。これは、ファイルサーバーがオブジェクトストレージよりも優れたパフォーマンスを提供できる領域です。 AI ストレージベンダーに尋ねる重要な質問は、大規模なファイルタイプと小規模なファイルタイプの間で製品のパフォーマンス特性がどのように変化するかということです。

4. 可用性と耐久性。機械学習や人工知能の学習モデルは、長期間にわたって継続的に実行できます。トレーニングを通じてアルゴリズムを開発するには、数日または数週間かかる場合があります。この間、ストレージシステムは稼働しており、継続的に利用可能である必要があります。つまり、アップグレード、テクノロジーの変更、システムの拡張は、ダウンタイムなしで実行する必要があります。

大規模システムでは、コンポーネントの障害は正常なことであり、そのように処理する必要があります。つまり、AI 作業に使用されるあらゆるプラットフォームは、デバイス (HDD や SSD など) やノード、サーバーの障害から回復できる必要があります。オブジェクトストレージは、消失訂正符号を使用してデータを複数のノードに広く分散し、コンポーネント障害の影響を最小限に抑えます。ファイルシステムを拡張して同じレベルの回復力を提供できる消去コーディングテクノロジがあります。消失訂正符号方式の効率は、特に小さなファイルの場合、読み取りおよび書き込み I/O のパフォーマンスに直接関係するため、非常に重要です。

大規模なオブジェクトストアのほとんどは定期的にバックアップするには大きすぎるため、信頼性の高い消失訂正符号が AI ストレージプラットフォームの重要な機能になります。

5. パブリッククラウド。機械学習と人工知能のアルゴリズムを開発するには、高性能ストレージと高性能コンピューティングの両方が必要です。多くの AI システムは、Nvidia DGX などの GPU をベースとしており、正確なアルゴリズムの開発に必要な複雑な数学的計算の多くを軽減します。

パブリッククラウドサービスプロバイダーは、機械学習に使用できる GPU アクセラレーション仮想インスタンスの提供を開始しています。パブリッククラウドで機械学習ツールを実行すると、機械学習開発インフラストラクチャの構築にかかる投資とコストを削減できると同時に、機械学習モデルの開発に必要なインフラストラクチャを拡張できるようになります。

パブリッククラウドコンピューティングを使用する際の課題は、コスト効率が高く実用的な方法でデータをパブリッククラウドに取り込むことです。クラウドベースのオブジェクトストレージは機械学習の I/O 要求を満たすには遅すぎるため、ローカルブロックストレージを使用する必要があります。データの送信と機械学習の実行が 1 分遅れるごとに、インフラストラクチャの運用コストが増加します。

パブリッククラウドのもう 1 つの問題は、データ送信のコストです。クラウドコンピューティングサービスプロバイダーは、自社のプラットフォームへのデータの移動に対しては料金を請求しませんが、自社のプラットフォーム外のパブリックネットワークからアクセスされたデータに対しては料金を請求します。したがって、パブリッククラウドはコンピューティングの柔軟性を提供しますが、タイムリーかつコスト効率の高い方法でクラウドにデータを出し入れすることが必ずしも簡単であるとは限りません。

ベンダーは、オンプレミスとパブリッククラウドの両方で製品を実行できるストレージ製品を開発しています。これらの製品は、データを効率的にクラウドにコピーまたは移動し、完了したら結果のみを元に戻すことができます。これらのレプリケーションテクノロジーは帯域幅効率に優れているため、データをローカルに保存し、分析のためにクラウドにインポートすることが実用的になります。

6. 統合。この記事では、機械学習と人工知能のストレージの側面をコンピューティングから分離します。 AI データストレージの構築は、ストレージネットワークや、機械学習アプリケーションで動作するようにストレージを調整するために考慮する必要があるその他の要素のために困難になる可能性があります。

製品を事前にパッケージ化することで、サプライヤーは顧客に製品を納品する前にテストして最適化することができます。現在では、人気の AI ソフトウェア、汎用 CPU や GPU などのコンピューティング、ネットワーク、ストレージデバイスを組み合わせて AI 対応プラットフォームを提供するストレージ製品が存在します。これらのシステムが導入される前に、詳細な調整作業が数多く行われました。コストが問題になる可能性はありますが、パッケージ化されたシステムにより、多くの顧客にとって AI ストレージ導入の障壁を減らすことができます。

当然のことながら、適切な AI データストレージプラットフォームを選択するには、パフォーマンス、スケーラビリティ、コストのバランスを考慮する必要があります。大量のデータが関係するため、ストレージプラットフォームを適切に使用することが重要です。間違った製品を選択すると、大きな損失を被る可能性があります。あらゆるストレージ製品を決定する場合と同様に、ベンダーと話し合って、その製品が AI と機械学習のニーズにどのように対応しているかを正確に理解することが重要です。このエンゲージメントプロセスにはデモンストレーションと評価が含まれ、企業の購入決定の前段階として機能します。

<<: このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

>>: アリババが雲奇会議でデジタル経済について語らなかったこと