機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

人工知能をビジネスに統合することは高い商業的価値がありますが、この価値は通常、モデルをビジネスに適用するために必要なコンピューティング コストを相殺することはできません。機械学習とディープラーニングは計算集約型であり、クラウドコンピューティングやローカルコンピューティングのコストが下がらない限り、前例のないビジネス価値があるにもかかわらず、コストに見合う価値はないと主張する人もいます。

[[349634]]

MITの研究科学者で『ディープラーニングの計算限界』の著者であるニール・トンプソン氏は、Wired誌に掲載された記事の中で、GoogleやFacebookを含む多くの組織が影響力が大きく費用対効果の高いモデルを構築しているが、これらのモデルは計算コストが高いため利益が出ていないと書いている。

トンプソン氏は最近のスピーチや論文の中で、大規模かつ最先端のAIプロジェクトに取り組んでいる研究者らが、コストがかかりすぎるため複数のアルゴリズム設計をテストしたり実験をやり直したりすることができないと不満を言い始めていると述べた。

企業は、イノベーションを促進し、AI の取り組みからの投資収益率を高めるために、コンピューティング効率を大幅に向上させる方法を必要としています。しかし、コンピューティングのコストの高さや効率的なコンピューティングへの重点を非難すべきではありません。

実際、GPU アクセラレーション インフラストラクチャやその他のクラウド プロバイダーは大きな進歩を遂げており、複雑な AI ネットワークを前例のない速度でトレーニングする能力が大幅に向上しています。

2020 年 5 月、DeepCube は、既存のすべてのハードウェア上でディープラーニングのパフォーマンスを大幅に向上させるソフトウェアベースの推論アクセラレータをリリースしました。言い換えれば、機械学習とディープラーニングの高まる需要を満たすためにコンピューティング ソリューションが開発されているということです。 AI イノベーションの潜在的な障害は、既存のコンピューティングが十分に活用されていないことと、「コンピューティング負債」のコストが増大していることです。

「計算負債」とは何ですか?

AI リーダーは、機械学習への投資収益率を妨げている主な要因の 1 つが GPU、CPU、メモリ リソースの活用不足であることを知って驚くかもしれません。

企業は、AI ワークロードを大幅に加速し、パフォーマンスを向上させる可能性のあるコンピューティングに数百万ドルを投資していますが、最終的にはそれらのリソースのほんの一部、場合によっては 20% しか利用されていません。コンピューティングの割り当てと実際の使用率のギャップは驚くほど大きく、企業が考えていた以上にコストがかかる可能性があります。

計算、割り当て、使用率の間のギャップは、「計算負債」と呼ぶことができます。割り当てと容量の間の「無駄」を指します。次の図は、緑色で表される平均使用率と黄色で表される (現在の) 割り当てを視覚的に比較しています。

ワークロードの実行中は、通常、GPU の一部のみが使用され、残りの部分は他の潜在的なワークロードによってブロックされます。灰色の領域は容量、つまり GPU、CPU、またはメモリの観点から利用可能な既存のコンピューティングの量を表します。これはアイドル状態にあり、十分に活用されていないコンピューティング領域すべてです。

出典: cnvrg.io

「計算負債」の原因は何ですか?

機械学習とディープラーニングは計算負荷が高く、管理が複雑であり、この計算負荷を軽減することはさらに困難です。 AI インフラストラクチャ チームが直面している最大の課題の 1 つは、消費を最大化し、機械学習プロジェクトの ROI を高める方法で、使用率を改善し、リソースを管理する方法を知ることです。計算負債の主な原因は次のとおりです。

(1)インフラチームはAIプロジェクトに対する可視性に欠けている

機械学習プロジェクトのインフラストラクチャ コストは毎年 2 倍の割合で増加していますが、IT チームには機械学習リソースを適切に管理、最適化、予算化するためのツールが不足しています。ほとんどの IT/DevOps リーダーは、特定の時点での GPU/CPU およびメモリの使用率、割り当て、容量を把握していません。その結果、消費を制御して効率を向上させることができなくなります。

(2)「計算負債」の増大

AI コンピューティングのニーズが複雑になるにつれて、コンピューティングの割り当てと実際の使用率のギャップが拡大しています。通常、企業が消費するリソースは全体の 30% 程度です。その結果、コンピューティング リソースの約 70% がアイドル状態になり、企業は数千ドル、場合によっては数百万ドルの損失を被りました。

(3)非効率な作業の特定ができない

インフラストラクチャ チームは、GPU/CPU を十分に活用していないワークロードを簡単に特定できません。過去のワークロードに関するデータを収集しなければ、非効率的に実行されているワークロードを分析して特定することは不可能です。可視性が不足すると、使用率の向上やワークロードの優先順位付けが難しくなります。

(4)生産性の低下

十分に活用されていない GPU は他の作業のために中断され、データ サイエンティストの待機時間が長くなります。その結果、GPU を待つ間に多くの時間とリソースが浪費されることになります。また、他の作業に使用できるアイドル リソースの問題も発生します。

[[349635]]

画像ソース: unsplash

(5)標準化と統一性の欠如

チームは、作業と使用率の指標を関連付けられないことがよくあります。特定の時点での作業の配分、使用率、容量を表示するための標準的な視覚化ツールはありません。これにより、非効率性を特定し、無駄な作業量を判断することが難しくなります。機械学習は成熟段階に達しており、成長するためには AI インフラストラクチャの戦略的な開発が必須となっています。

(6)最適化戦略を制御できない

一部のチームは非効率性を特定し、最適化されたインフラストラクチャ戦略を計画できますが、それらの戦略を実行するためのツールが不足しています。 IT/DevOps チームは、リソース管理を最適化するために AI ワークロードを制御する必要があります。作業の優先順位付け、コンピューティング テンプレートの構成、ワークロードの分散と使用率の監視を行う方法がなければ、大幅な改善を実現することは不可能です。

「計算負債」を削減するための戦略

この問題には明確な解決策はありませんが、リソース管理をより効率的にする方法はあります。

(1)GPUアクセラレーション技術を活用した最先端のAIインフラへの投資

GPU アクセラレーション テクノロジーは一定の成功を収めています。ハードウェアとソフトウェアのディープラーニング アクセラレーション ソリューションはすでに利用可能であり、これまでにない計算パフォーマンスを実現しています。最新の GPU アクセラレーション ソリューションを検討し、真に最新の AI インフラストラクチャを導入します。

(2)ハイブリッドクラウド基盤の導入

パブリック クラウド、プライベート クラウド、オンプレミスのリソースを組み合わせることで、AI ワークロードを実行する際の俊敏性と柔軟性が向上します。 AI ワークロードによって負荷の種類が大きく異なるため、ハイブリッド クラウド インフラストラクチャを構築する企業は、より柔軟にリソースを割り当て、サイズをカスタマイズできます。パブリック クラウドを使用すると、設備投資を削減し、コンピューティング需要が高い期間に必要なスケーラビリティを提供できます。

厳しいセキュリティ要件を持つ企業の中には、プライベート クラウドを追加する必要があり、長期的には運用コストを削減できるものもあります。ハイブリッド クラウドにより、リソース予算を改善するために必要な制御と柔軟性が実現します。

(3)推定ツールを使用してGPU/CPUメモリ消費量を推定する

Microsoft の 4,960 件の失敗したディープラーニング タスクに関する Microsoft Research の調査によると、失敗の 8.8% は GPU メモリの枯渇が原因でした。これは、すべてのディープラーニングの失敗の中で最も顕著な問題です。これらの障害を減らすために、GPU メモリ消費量を推定する多くの推定ツールが開発されてきました。さらに、使用率データを収集できる場合は、この履歴データを使用して四半期ごとの GPU/CPU およびメモリの要件をより正確に予測できます。

[[349636]]

画像ソース: unsplash

(4)MLOpsのスケーリング

機械学習のワークフローを合理化し、科学とエンジニアリングの役割間の移行を標準化できる方法を紹介します。 IT と DevOps はワークロードの展開と管理を担当するため、さまざまなジョブを実行するときに明確なコミュニケーション チャネルを持つことが重要です。適切なスケジューリング ツールとリソース テンプレートの戦略化により、AI ワークロードのリソース管理を改善できます。

(5)利用率を最大化し、「計算負債」を削減する

利用率を向上させるには、インフラストラクチャ チームとデータ サイエンス チームの両方の KPI として計算負債を含める必要があります。企業がコンピューティング負債を削減し、利用率を向上させることができれば、AI 競争で際立つことができます。

インフラストラクチャ チームにとって、GPU/CPU とメモリ消費の可視性を最大限に高めて使用率を向上させるための特効薬は基本的に存在しません。業界では計算負債の脅威に対処するため、より効率的なハードウェアとソフトウェアを急速に構築していますが、まだ道のりは長いです。多くの企業は、十分に活用されていないコンピューティングに何百万ドルも費やしています。

既存のリソースを活用し、リソース管理を改善することで、企業は AI インフラストラクチャを大幅に拡張できるようになります。この記事の戦略に従うことで、コンピューティング リソースを最大限に活用できます。インフラストラクチャの最適化に注力する企業は、その努力に対する ROI が高くなり、競合他社よりも優位に立つことができます。

<<:  AI開発シンポジウム:機械学習を農家に役立てる方法について議論

>>:  機械学習における欠損値に対処する9つの方法

ブログ    
ブログ    

推薦する

人工知能を無料で学べるトップ 10 ウェブサイト

多くの人が人工知能に非常に興味を持っていますが、どこから始めればよいか分かりません。次に紹介する 1...

消費者の95%は買い物中にロボットと話したくない

オラクルが市場調査会社ウェイクフィールド・リサーチおよびニューヨークに拠点を置く小売コンサルティング...

Redis に基づく分散ロックと Redlock アルゴリズム

[[414221]]この記事はWeChatの公開アカウント「UP Technology Contro...

...

超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い

脳コンピューターインターフェース分野で新たなニュースがあります。 IEEE Spectrum による...

ロボット対コンベア:倉庫物流における戦い

ありがたいことに、倉庫のピッキング作業で荷物を手作業で扱う時代は終わりつつあります。コンベアを使用す...

移動ロボットの分野に新たな大手企業が参入し、業界の人気は高まり続けている。

ABBは7月20日、欧州最大のAMRプロバイダーの1つであるASTI Mobile Robot G...

認知分析について知っておくべきことすべて

コンテキストを提供し、大量の情報に隠された答えを発見するために、コグニティブ コンピューティングはさ...

企業が人工知能を応用する際に直面する課題

[[340820]] [51CTO.com クイック翻訳] 過去10年間、人工知能をめぐって大きな議...

低速自動運転と高速自動運転に関する議論

前回の記事「自動運転車に「道路を認識」させる方法」では、主に自動運転車における高精度地図の重要性につ...

...

...

人工知能の今後5年間で世界が注目する10人

[[251996]]十分に大きな技術的放射効果により、人工知能は世界経済の発展において主導的な地位に...

...