機械学習モデルのスケーリングにおける 5 つの課題

機械学習モデルのスケーリングにおける 5 つの課題

【51CTO.com クイック翻訳】機械学習モデルは、定義されたビジネス目標に合わせて設計されています。機械学習モデルの製品化とは、関連するデータセット上で機械学習モデルをホスト、スケーリング、実行することを指します。実稼働レベルの機械学習モデルは、将来の変更やフィードバックに対応できる回復力と柔軟性も備えている必要があります。最近の Forrester の調査によると、顧客体験の向上、収益性の向上、収益の増加は、組織が機械学習プロジェクトで達成しようとしている主な目標の一部です。

機械学習モデルは世界的に高く評価されていますが、それをビジネス上のプラスのメリットにつなげることは困難でした。ライブ データを処理し、機械学習モデルを本番環境に展開する場合、多くのエンジニアリング、データ、ビジネス上の問題がボトルネックになります。調査によると、43% の人が機械学習モデルの生成と統合において障害に遭遇したと報告しています。企業が期待する最終目標を機械学習モデルが確実に達成できるようにすることが重要です。信頼性が高く安価なオープンソース インフラストラクチャのおかげで、世界中の組織における機械学習モデルの導入はかつてない速度で増加しています。ガートナーは、世界中の主要組織の 40% が 2020 年末までに AI ソリューションを実際に導入する予定であると予測しています。機械学習モデルの製品化における一般的な落とし穴を理解するには、組織が直面する上位 5 つの課題を確認すると役立ちます。

1. データの複雑さ

データに基づいて機械学習モデルをトレーニングするには、約 100 万件の関連レコードが必要ですが、これはどんなデータでも使用できるわけではありません。データの実現可能性と予測可能性に対するリスクが発生します。関連するデータセットがあるかどうか、また予測を行うのに十分な速さでそれらを入手できるかどうかを評価するのは簡単ではありません。コンテキストデータを取得することも問題です。 Yum Brands の機械学習拡張プロジェクトでは、同社の一部の製品 (新しいフランチャイズ プログラムを追求していた KFC など) に十分な顧客データがありませんでした。データだけでは不十分です。ほとんどの機械学習チームは、データレイク以外のアプローチから始めて、従来のデータ ウェアハウスで機械学習モデルをトレーニングします。従来のデータ システムでは、データ サイエンティストはモデルのトレーニングではなく、データのクリーニングと管理に時間の 80% を費やすことがよくあります。データを透過的に共有し、再利用のために分類できるようにするには、強力なガバナンス システムとデータ分類も必要です。データの複雑さにより、機械学習モデルの維持と実行にかかるコストは、時間の経過とともに収益に比べて減少します。

2. 設計と展開

データが利用可能になったら、使用シナリオと将来の回復力に基づいてインフラストラクチャとテクノロジー スタックを最終決定する必要があります。機械学習システムの設計は難しい場合があります。機械学習の分野ではさまざまな技術が利用可能です。このモデルを成功させる鍵は、製品化が困難にならないように、各技術スタックを選択する際に、異なる分野の技術スタックを個別に標準化することです。たとえば、データ サイエンティストは Pandas などのツールを使用して Python でコードを記述する場合があります。しかし、これらは Spark や Pyspark の方が適している本番環境には適さない可能性があります。設計が不十分なテクノロジーソリューションは高価になります。すると、ライフサイクルの課題や、本番環境での複数のモデルの管理と安定化も対処が難しくなります。

3. 統合リスク

機械学習モデルを成功させるには、さまざまなデータセットやモデリング手法と適切に統合できるスケーラブルな運用環境が不可欠です。異なるチームやオペレーティング システムを統合することは常に困難です。複雑なコード ベースは、運用環境に展開できるように、明確に構造化されたシステムに統合する必要があります。モデルを本番環境にデプロイするための標準化されたプロセスがなければ、チームはどの段階でも行き詰まってしまいます。さまざまなチームがワークフロー自動化をワークフロー システムに統合し、テストを実行する必要があります。適切な段階でモデルをテストしないと、エコシステム全体を修正することになります。テクノロジー スタックは標準化されている必要があります。そうでないと、統合が悪夢になる可能性があります。統合は、機械学習実験フレームワークが一発勝負にならないようにするための重要な瞬間でもあります。そうしないと、ビジネス環境が変化したり、壊滅的な出来事が発生したりした場合に、モデルは価値を提供できなくなります。

4. テストとモデルのサポート

機械学習モデルのテストは困難ですが、生産プロセスの他のステップと同じくらい、あるいはそれ以上に重要です。結果の理解、ヘルスチェック、モデルのパフォーマンスの監視、データの異常の監視、モデルの再トレーニングが組み合わさって、生産化サイクル全体が構成されます。テストを実行した後でも、テストで発生しなかった問題を見つけるために、適切な機械学習ライフサイクル管理ツールが必要になる場合があります。

5. 役割を割り当て、積極的にコミュニケーションをとる

データ サイエンス、データ エンジニアリング、DevOps、およびその他の関連チーム間の透明なコミュニケーションは、機械学習モデルの成功に不可欠です。しかし、役割を割り当て、詳細なアクセス権限を提供し、各チームを監視するのは複雑です。さまざまな領域のリスクを早期に特定するには、緊密な連携とコミュニケーションが不可欠です。データ サイエンティストの深い関与は、機械学習モデルの将来にも関わります。

前述の課題に加えて、COVID-19パンデミックなどの予期せぬ出来事にも注意する必要があります。顧客の購買行動が突然変化すると、過去のソリューションは適用できなくなり、モデルを適切にトレーニングするための新しいデータの不足が障害になります。要約すると、機械学習モデルのスケーリングは簡単ではありません。

原題: 機械学習モデルのスケーリングにおける 5 つの課題、著者: Sigmoid Analyitcs

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  アルゴリズム図: スタック内の最小値を見つけるにはどうすればよいでしょうか?

>>:  IBMのAI技術は高齢者の孤独を予測するのに役立つ

ブログ    
ブログ    

推薦する

GNN初心者必読! Google Research が、SOTA グラフ ニューラル ネットワークをゼロから構築する方法を教えます

[[422426]]近年、ニューラル ネットワークは自然言語、画像、音声、その他のデータで大きな進歩...

ソフトウェアが自動車を飲み込んでいる、伝統的な自動車産業は消滅の危機に瀕しているのでしょうか?

[[440100]]半導体チップの継続的な不足が世界の自動車生産の減少につながるとの予測が高まって...

人工知能の時代に教育はどのように変化するのでしょうか?

「教育は人材を育成する長期的な取り組みなので、将来を見据えたものであるべきだ。」先日開催された人工...

AI によるマインドリーディング: コンピューターはどのようにして脳波を復元するのか?

[[255490]]画像出典: Visual China 「私の体は潜水鐘のように重いが、私の心は...

AIチップ市場で何が起こっているのか?

現在、AI チップ市場全体はディープラーニングを中心に展開しています。ディープラーニング (DL) ...

...

オープン性とクローズ性の戦い: Baidu と Google のどちらの AI プラットフォームが優れているか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ICLR 2020 におけるナレッジグラフ研究の包括的な概要

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

音声認識市場は2025年までに267億9000万ドルに達する見込み

音声認識市場2021の詳細な市場レポートはこちら音声認識はあらゆるものの未来です。私たちは、身の回り...

海雲傑迅は人工知能教育分野で総合的なサービスを提供するAI Goを立ち上げようとしている

[51CTO.com オリジナル記事] 今、業界で人気のテクノロジーは何ですか?それは間違いなく人工...

待望のAIは人工知能か、それとも人工的な愚かさか?

[[399557]]人工知能という言葉が初めて世間の注目を集めたのは、1956 年にダートマス大学...

「量子超越性」の後、GoogleはTensorFlowの量子バージョンを強力にオープンソース化

Googleは2019年10月に「量子超越性」の検証に関する論文をNatureに掲載した後、3月9日...

...

...