AI プロジェクトを構想から実装に移行することは悪循環ですが、解決策は 1 つしかありません。悪循環を起こさないようにすることです。これは、データがあらゆるレベルの専門家によって処理される必要があるためです。基盤となるアーキテクチャに MLOps と呼ばれる機械学習の運用方法論がない場合、さまざまなソースからデータを抽出し、それをクリーニング、分析、入力すると、機械学習システムの遅延につながる可能性があります。
ほとんどの AI プロジェクトが実稼働まで到達できないのは、単純に聞こえるものの大きな影響を及ぼすギャップ、つまりデータ サイエンティストとビジネス間のコミュニケーション不足が原因です。 IDC の調査では、2 つのグループ間の継続的なコミュニケーションの重要性に焦点が当てられました。これにより、組織は MLOps が機能するようにすぐに使用できるソリューションを探す必要が生じます。 MLOps のベスト プラクティスは次の点に重点を置いています。
ただし、機械学習モデルの開発、実装、トレーニングが主なボトルネックになることはありません。重大な中断なく継続的に稼働し続ける統合 AI システムを本番環境に構築することは、真の課題です。たとえば、機械学習ソリューションを導入する必要がある組織では、実験的なコードを繰り返し書き直すしかありません。このアプローチは曖昧であり、最終的に成功するかどうかはわかりません。 これはまさに MLOps が解決しようとしている問題です。 つまり、機械学習モデルのデータ操作 (DataOps) が MLOps です。これは、データ サイエンティストと協力して機械学習モデルを実装し、速度と堅牢性を実現するプロセスです。 Neuromation という会社には、MLOps の戦略開発を中心としたサービス モデル全体があります。機械学習サービスプロバイダーは、データサイエンティストとエンジニアを結集して強力な機械学習ライフサイクル管理を実現することに重点を置いています。 共同作業プロセスには、データ サイエンティストに加えて、エンジニア、クラウド アーキテクト、すべての関係者からの継続的なフィードバックが含まれます。共同作業のプロセスでは、より優れた機械学習モデルを本番環境に実装し、データ駆動型の DevOps プラクティスを作成することに重点が置かれます。 他に何をすべきでしょうか? 続きをお読みください。 継続的インテグレーション/継続的開発 (CI/CD) パイプラインの自動化を改善する継続的インテグレーション (CI) と継続的開発 (CD) は、機械学習パイプラインの構築、テスト、および展開を自動化します。継続的インテグレーションと継続的開発により、新しく設計されたモデル アーキテクチャ、機能、ハイパーパラメータを使用して、新しい継続的な機械学習パイプラインが展開されます。デプロイされたパイプラインは、新しいデータセットをさらに処理します。この継続的な自動化パイプラインは、新しいデータが利用可能になると新しい予測サービスを実装します。この時点で、出力は新しいコンポーネントのソース コードになります。これらのソース コードは、予想される環境の新しいソース リポジトリにさらにプッシュされます。 この新しいソース コードは、CI/CD パイプラインをトリガーして新しいコンポーネントを構築し、その後、継続的なユニット テストと統合テストが実行されます。すべてのテストに合格すると、新しいパイプラインがターゲット環境にデプロイされます。パイプラインは、事前に定義されたスケジュールとトレーニング データに従って、本番環境で自動的に実行されます。 データ評価を容易にするためのデータレイクを構築する機械学習は大量のデータを使って改良することができます。そのため、即時の予測に使用することを検討する前に、データの可用性を確保し、適切な量と効率性を確保する必要があります。たとえば、何百万もの顧客からのデータを処理する QSR (クイック サービス レストラン) システムには、機械学習テクノロジーを活用する必要があります。ここでは、データが増加するだけでなく、急速に変化しています。同じことは、ラストマイル配送、CRM、社内 ERP など、密接にリンクされた多数のシステムが存在する電子商取引の分野でも当てはまります。 まず、すべてのデータ ソースへのシームレスなアクセスを提供するデータ レイク環境を確立します。データ レイクは集中型倉庫のようなもので、データ評価の中心となる必要があります。これは、MLOps 処理およびデータ分析環境でのさらなる使用のためにデータをフィルタリングおよびスクリーニングするために使用されるリポジトリです。データが定性分析や必要なビジネス変更を実行するのに十分な価値があることを保証するには、継続的な実験に適応する必要があります。これを実現するには、利用可能なデータ セットを迅速に処理できるスケーラブルなコンピューティング環境を使用します。 同時に、データ レイクには高度な視覚化のためのインタラクティブなダッシュボードを装備する必要があります。データ視覚化ダッシュボードの例として、AWS Quick Sight、Plotly Dash、Power BI などのツールを検討してください。これらのダッシュボードは、さまざまなビジネス ニーズに合わせて簡単にカスタマイズできます。 データ評価の最後に、すべてのデータがフィルタリングされ、将来の使用のために構造化されました。これにはカタログ作成の段階も含まれます。メタデータ構造と、そのソースからマイクロサービスを使用するまでの経路を理解して視覚化するには、データ カタログが必要です。 予測サービスとパフォーマンスを監視するトレーニング、データ、モデル タイプに加えて、ビジネス目標に基づいてデプロイされたモデルのパフォーマンスを決定する他のメトリックもあります。機械学習モデルの最良の出力を記録するには、次の指標を考慮してください。
データ構造の使用データ ファブリックは、複数のソースからデータを収集し、アナリストがすぐにビジネスに使用できるようにするためのフレームワークです。 MLOps イニシアチブは、クラウドとオンプレミスの両方で、さまざまな運用ユースケースにわたるデータ構造と密接に連携します。データ構造は集中化された調整プロセスを作成するため、リスクを軽減し、ビッグデータ管理の全体的なコストを削減できます。興味深いことに、組織は DataOps イニシアチブを推進するための基盤として構造を使用しています。 たとえば、K2View は、その構造技術に基づいて構築されたデータ準備センターを提供しています。データ準備センターはさまざまなソースからデータを収集し、再定義されたパターンとルールに従ってデータをフィルタリング、入力、マスクします。ここでは、各顧客はデジタルエンティティによって表され、そのデータは専用のマイクロデータベースに保存されます。ビジネス エンティティごとにデータをパイプするこのアプローチにより、データの整合性が確保され、チームは中断のないアクセスが可能になります。 ボーナスヒント: 適切なクラウドアーキテクチャを選択するデータ環境は、何らかの形でクラウド アプリケーションに関連付けられている可能性があります。組織内でクラウド モデルの使用が増えていることを考えると、いくつかの基本事項を確認する価値があります。クラウド プラットフォームは MLOps に適していますか? ほとんどのクラウド プラットフォームには組み込みのデータ サイエンス機能が備わっていますが、エンドツーエンドの機械学習パイプライン (ストレージ、取り込み、モデリング、視覚化、監視など) の弾力性と高性能な処理をサポートできるかどうかを確認することが重要です。 ここでは、「コードとしてのインフラストラクチャ」によって、スケーラブルで再現可能な機械学習環境の構成が自動化されます。オンプレミスと同様に、クラウド プラットフォームは、正確な機械学習モデルのトレーニングとテストに CI/CD に依存しています。 MLOps をサポートする既製のクラウド環境の例としては、AWS SageMaker、Google Cloud AI Pipelines、Databricks などがあります。 要約するこの記事では、MLOps 戦略を策定する際に考慮すべきいくつかの重要な指標について説明します。自動化が主流のサービスになるにつれ、組織にとっての次の課題は「XOps」スキルの向上になります。 MLOps を使用することで、組織は DataOps プロセスへの関与を向上できるだけでなく、せっかちな顧客の期待にも応えることができます。 |
<<: Reddit のホットな話題: 博士課程の学生なのに行列の階数も分からないのに、どうやって卒業できるのか?
[[334729]]機械学習を行う際には、データのクラスター分析を行う必要があることがよくあります。...
人工知能(AI)は1950年代に誕生し、3つの発展の波を経てきました。研究段階から大規模な産業化段階...
会談は決裂した。アルトマン氏はOpenAIを完全に離れることになる。反転しつつあるこの宮廷ドラマに関...
[[353168]]記者趙光麗最近、中国科学院自動化研究所(以下、自動化研究所)は、「妙算智慧」戦術...
本日は、シンガポール科学技術研究庁 (A*STAR) と南洋理工大学 (シンガポール) が AAAI...
イーロン・マスクによるツイッター買収のドラマもついにこの回まで来た。ツイッターは現地時間4月15日、...
スマートホームはテクノロジーを活用して、居住者にさらなる利便性、節約、快適性、セキュリティを提供しま...
12月1日、アリババクラウド同義千文の720億パラメータモデルQwen-72Bがオープンソース化され...
オートエンコーダー (AE) と生成的敵対的ネットワーク (GAN) は、複雑な分布に対する教師なし...
[[323768]]トレンド1: 自律型デバイス自動車、ロボット、農業など、自律型デバイスは従来人間...