オブジェクトストレージがAIと機械学習に適している3つの理由

オブジェクトストレージがAIと機械学習に適している3つの理由

[[328561]]

今日、あらゆるタイプの企業が人工知能や機械学習のプロジェクトに取り組んでいますが、その真の可能性を実現するには、大きな技術的障壁を克服する必要があります。コンピューティング インフラストラクチャが焦点となることがよくありますが、ストレージ設備も同様に重要です。ファイル ストレージやブロック ストレージではなく、オブジェクト ストレージが AI および機械学習のワークロードを実行するのに適した選択肢である主な理由を 3 つ挙げます。

1. スケーラビリティ

人工知能と機械学習の技術は、学習対象となる大規模で多様なデータソースがある場合に最も効果を発揮します。データ サイエンティストは、この豊富なデータを活用してドメイン モデルをトレーニングします。 「ビッグデータの 5 つの V」(量、タイプ、速度、正確性、価値)のうち、最初の 2 つ(量とタイプ)が最も重要です。つまり、AI と機械学習は、大量の多様なデータ (画像、テキスト、構造化データと半構造化データ) に依存して、有用なモデルを構築し、正確な結果を提供し、最終的にビジネス価値をもたらします。

オブジェクト ストレージは、人工知能や機械学習に必要な大量のデータをサポートするのに特に適した、拡張性に優れたストレージ アーキテクチャです。オブジェクト ストレージは、水平スケーリング アプローチによる無制限の成長を実現するように設計されており、企業は必要なときに必要な場所にノードを追加することで展開を拡大できます。オブジェクト ストレージは単一のグローバル名前空間を使用するため、この種のスケーリングは複数の地理的な場所にまたがって同時に実行することも可能です。一方、ファイル システムとブロック システムでは、通常、拡張されたアプローチが採用されます。つまり、これらのプラットフォームは、単一のノードにさらに多くのコンピューティング リソースを追加することで垂直スケーリングを実現しますが、最終的には限界に達します。追加のノードを展開してコンピューティング リソースを増やすことができないため、水平方向に効果的にスケーリングすることができません。

2. API

堅牢で柔軟なデータ API は、前述のようにさまざまなデータ タイプを使用する AI と機械学習にとって重要です。ストレージ プラットフォームは、さまざまなデータに対応するために API をサポートする必要があります。さらに、AI と ML のイノベーションはパブリック クラウド上でますます起こっていますが、ユース ケースの詳細に応じて、AI と ML の大部分は依然としてオンプレミスのデータ センターまたはプライベート クラウドで行われています (たとえば、科学研究や医療などの分野は、多くの場合、プライベート クラウドに最適です)。つまり、組織にはパブリック クラウドとオンプレミス/プライベート クラウドの両方のワークロードをサポートするストレージ API が必要です。

ファイルおよびブロック ストレージ プラットフォームでは、古いアーキテクチャであるため、サポートされる API が制限されています。対照的に、オブジェクト ストレージは、アプリケーション中心に設計されたクラウド プラットフォームにネイティブな高レベル API を使用し、バージョン管理、ライフサイクル管理、暗号化、オブジェクト ロック、メタデータなど、ファイル ストレージやブロック ストレージよりも幅広い API をサポートします。さらに、ストリーミング データのサポートや大規模なデータ セットに対するクエリのサポートなど、AI および機械学習のユース ケースをサポートする新しいオブジェクト ストレージ API も可能になります。

Amazon S3 のオブジェクト ストレージ API の標準化により、オンプレミスとパブリック クラウドでのソフトウェアの統合が容易になります。企業は、オンプレミス/プライベート クラウド環境からパブリック クラウドに AI および ML の展開を簡単に拡張したり、機能を損なうことなくクラウド ネイティブの AI および ML ワークロードをオンプレミス環境に移行したりできます。このバイモーダル アプローチにより、組織はオンプレミス/プライベート クラウドとパブリック クラウドのリソースを共同で、かつ相互に活用できるようになります。

S3 API はオブジェクト ストレージの事実上の標準となっているため、多くのソフトウェア ツールやライブラリでこの API を活用できます。これにより、コード、ソフトウェア、ツールを共有し、AI および機械学習コミュニティ内での開発を加速することができます。例としては、S3 API が組み込まれた TensorFlow や Apache Spark などの一般的な機械学習プラットフォームが挙げられます。

3. メタデータ

API と同様に、AI と機械学習を使用する組織は、無制限でカスタマイズ可能なメタデータを活用することが重要です。メタデータは、データに関するデータであり、最も基本的なレベルでは、データがいつ、どこで、誰が作成したかを示します。しかし、メタデータはさらに多くのことを記述できます。ユーザーは任意のメタデータ タグを作成して、必要なプロパティを記述できます。

データ サイエンティストは、人工知能や機械学習のモデルを構築して使用するために、特定のデータを見つけるために豊富なメタデータを必要とします。メタデータ注釈により、データに情報が追加されるにつれて、時間の経過とともに知識が蓄積されます。

ファイル ストレージとブロック ストレージは、上記の基本プロパティなどの限られたメタデータのみをサポートします。その多くはスケーラビリティに帰着します。ファイル システムとブロック システムは、ストレージ システムが大量のデータ セットに依存する人工知能や機械学習アプリケーションの豊富なメタデータをサポートしていれば自然に発生する急速でシームレスな拡張に対応できないためです。ただし、オブジェクト ストレージは無制限で完全にカスタマイズ可能なメタデータをサポートしているため、AI や機械学習アルゴリズムのデータを見つけやすくなり、そこからより優れた洞察を得ることができます。

たとえば、X 線画像に画像認識アプリケーションを使用している病院を考えてみましょう。メタデータを使用すると、オブジェクト ストレージ システムに追加された各画像を TensorFlow モデルで分析し、各画像にさらに詳細なメタデータ タグ (骨のサイズや成長に基づく傷害の種類、患者の年齢や性別など) を割り当てることができます。 TensorFlow モデルはメタデータに基づいてトレーニングされ、分析されて、患者に関する新たな洞察を導き出すことができます (たとえば、20 代と 30 代の女性は、5 年前よりも現在、整形外科的疾患に悩まされることが多くなっています)。

ほぼすべてのフォーチュン 500 企業が AI と機械学習の導入を検討していることから、近い将来、これらのテクノロジーが最も重要なエンタープライズ IT イニシアチブになると考えられます。ただし、AI と機械学習の取り組みが成果を上げるには、企業は適切なストレージ インフラストラクチャを活用する必要があります。オブジェクト ストレージは、そのスケーラビリティ、さまざまな API (特に S3) のサポート、豊富なメタデータにより、AI と機械学習の優れたバックボーンとなります。

<<:  新しい問題と古い問題の組み合わせは、個人情報保護に新たな課題をもたらします。

>>:  機械学習:教師あり学習と教師なし学習の違いは何ですか?

ブログ    
ブログ    

推薦する

...

IDSにおける機械学習アルゴリズムの応用

[[267184]] [51CTO.com クイック翻訳] 近年の機械学習技術の急速な発展により、ネ...

人工知能は将来どのように発展するのでしょうか?

20 世紀初頭から、ロボットが人間のように考え始めることができるかどうかについて、人々は疑問を持ち...

不正行為防止スパムテキスト認識のためのZhihuのディープラーニング実践の詳細な説明

背景今年8月時点で、知乎の登録ユーザー数は2億人を突破した。私たちはスパムの管理において、より大きな...

実践的 | この記事は畳み込みニューラルネットワークを始めるのに十分です

まず、ディープラーニングとはすべてのディープラーニングアルゴリズムの総称であり、CNNは画像処理分野...

...

人工知能の力がどのように販売業界に革命をもたらしているか

販売業界が進化し続けるにつれて、販売チームが新規顧客を引き付け、既存顧客を維持するのに役立つ販売戦略...

人工知能の時代にはどんな教師が必要なのでしょうか?

「私の仕事はロボットに置き換えられるのでしょうか?」人工知能の急速な発展により、ますます多くの人々...

人工知能はアプリのない世界をもたらすのでしょうか?

[[248121]] [[248122]]最近はアプリが満載のスマートフォンを持っている人はほとん...

AI対決シリーズ:あなたのレコメンデーションアルゴリズムは破られましたか?

[[408906]] Google でニュースを検索すると、検索結果にポルノ記事が大量に混ざって表...

自動運転が何千もの家庭に普及するまでにどれくらいの時間がかかるのでしょうか?

2019年9月に百度、海亮科技、センスタイムなどの企業が世界初の自動運転車の商用ライセンスを取得し...

マルチラベル分類とは何ですか?ここにいくつかの実用的な古典的な方法があります

これはおそらく、マルチラベル分類のための最も実用的なヒントです。ご存知のとおり、バイナリ分類タスクは...

...

2018 年のビッグデータ、機械学習、人工知能の予測!

AI へのビッグデータ投資は減速の兆しを見せていません。今後 1 年間の予測をいくつかご紹介します...

GPT-4V は惨めに失敗しました! CVマスター謝彩寧氏の新作:V*の重量級「視覚検索」アルゴリズムにより、LLMの理解力が人間に近づく

サム・アルトマン氏は最近、世界経済フォーラムで講演し、人間レベルの AI が間もなく登場すると述べま...