「MLOps」の考え方を取り入れるためのベストプラクティス

「MLOps」の考え方を取り入れるためのベストプラクティス

AI プロジェクトを構想から実装に移行することは悪循環ですが、解決策は 1 つしかありません。悪循環を起こさないようにすることです。これは、データがあらゆるレベルの専門家によって処理される必要があるためです。基盤となるアーキテクチャに MLOps と呼ばれる機械学習の運用方法論がない場合、さまざまなソースからデータを抽出し、それをクリーニング、分析、入力すると、機械学習システムの遅延につながる可能性があります。

[[409567]]

ほとんどの AI プロジェクトが実稼働まで到達できないのは、単純に聞こえるものの大きな影響を及ぼすギャップ、つまりデータ サイエンティストとビジネス間のコミュニケーション不足が原因です。 IDC の調査では、2 つのグループ間の継続的なコミュニケーションの重要性に焦点が当てられました。これにより、組織は MLOps が機能するようにすぐに使用できるソリューションを探す必要が生じます。

MLOps のベスト プラクティスは次の点に重点を置いています。

  • データの取り込み、モデルの作成、展開、監視をエンドツーエンドで可視化し、処理を高速化します。
  • バージョン管理データやメタデータなどの関連する成果物をすべて保存することで、運用モデルをより迅速に監査および複製します。
  • さまざまな環境や要件に合わせてモデルを簡単に再トレーニング
  • 機械学習システムをより速く、より安全に、より正確にテストします。

ただし、機械学習モデルの開発、実装、トレーニングが主なボトルネックになることはありません。重大な中断なく継続的に稼働し続ける統合 AI システムを本番環境に構築することは、真の課題です。たとえば、機械学習ソリューションを導入する必要がある組織では、実験的なコードを繰り返し書き直すしかありません。このアプローチは曖昧であり、最終的に成功するかどうかはわかりません。

これはまさに MLOps が解決しようとしている問題です。

つまり、機械学習モデルのデータ操作 (DataOps) が MLOps です。これは、データ サイエンティストと協力して機械学習モデルを実装し、速度と堅牢性を実現するプロセスです。 Neuromation という会社には、MLOps の戦略開発を中心としたサービス モデル全体があります。機械学習サービスプロバイダーは、データサイエンティストとエンジニアを結集して強力な機械学習ライフサイクル管理を実現することに重点を置いています。

共同作業プロセスには、データ サイエンティストに加えて、エンジニア、クラウド アーキテクト、すべての関係者からの継続的なフィードバックが含まれます。共同作業のプロセスでは、より優れた機械学習モデルを本番環境に実装し、データ駆動型の DevOps プラクティスを作成することに重点が置かれます。

他に何をすべきでしょうか? 続きをお読みください。

継続的インテグレーション/継続的開発 (CI/CD) パイプラインの自動化を改善する

継続的インテグレーション (CI) と継続的開発 (CD) は、機械学習パイプラインの構築、テスト、および展開を自動化します。継続的インテグレーションと継続的開発により、新しく設計されたモデル アーキテクチャ、機能、ハイパーパラメータを使用して、新しい継続的な機械学習パイプラインが展開されます。デプロイされたパイプラインは、新しいデータセットをさらに処理します。この継続的な自動化パイプラインは、新しいデータが利用可能になると新しい予測サービスを実装します。この時点で、出力は新しいコンポーネントのソース コードになります。これらのソース コードは、予想される環境の新しいソース リポジトリにさらにプッシュされます。

この新しいソース コードは、CI/CD パイプラインをトリガーして新しいコンポーネントを構築し、その後、継続的なユニット テストと統合テストが実行されます。すべてのテストに合格すると、新しいパイプラインがターゲット環境にデプロイされます。パイプラインは、事前に定義されたスケジュールとトレーニング データに従って、本番環境で自動的に実行されます。

データ評価を容易にするためのデータレイクを構築する

機械学習は大量のデータを使って改良することができます。そのため、即時の予測に使用することを検討する前に、データの可用性を確保し、適切な量と効率性を確保する必要があります。たとえば、何百万もの顧客からのデータを処理する QSR (クイック サービス レストラン) システムには、機械学習テクノロジーを活用する必要があります。ここでは、データが増加するだけでなく、急速に変化しています。同じことは、ラストマイル配送、CRM、社内 ERP など、密接にリンクされた多数のシステムが存在する電子商取引の分野でも当てはまります。

まず、すべてのデータ ソースへのシームレスなアクセスを提供するデータ レイク環境を確立します。データ レイクは集中型倉庫のようなもので、データ評価の中心となる必要があります。これは、MLOps 処理およびデータ分析環境でのさらなる使用のためにデータをフィルタリングおよびスクリーニングするために使用されるリポジトリです。データが定性分析や必要なビジネス変更を実行するのに十分な価値があることを保証するには、継続的な実験に適応する必要があります。これを実現するには、利用可能なデータ セットを迅速に処理できるスケーラブルなコンピューティング環境を使用します。

同時に、データ レイクには高度な視覚化のためのインタラクティブなダッシュボードを装備する必要があります。データ視覚化ダッシュボードの例として、AWS Quick Sight、Plotly Dash、Power BI などのツールを検討してください。これらのダッシュボードは、さまざまなビジネス ニーズに合わせて簡単にカスタマイズできます。

データ評価の最後に、すべてのデータがフィルタリングされ、将来の使用のために構造化されました。これにはカタログ作成の段階も含まれます。メタデータ構造と、そのソースからマイクロサービスを使用するまでの経路を理解して視覚化するには、データ カタログが必要です。

予測サービスとパフォーマンスを監視する

トレーニング、データ、モデル タイプに加えて、ビジネス目標に基づいてデプロイされたモデルのパフォーマンスを決定する他のメトリックもあります。機械学習モデルの最良の出力を記録するには、次の指標を考慮してください。

  • レイテンシ: シームレスなユーザー エクスペリエンスを評価します。ミリ秒単位で遅延を測定
  • スケーラビリティ: 一定のレイテンシでビジネス トラフィックを処理する能力。これは 1 秒あたりのクエリ数 (QPS) で測定されます。
  • サービス更新: 更新中のサービスのダウンタイムを最小限に抑えます。

データ構造の使用

データ ファブリックは、複数のソースからデータを収集し、アナリストがすぐにビジネスに使用できるようにするためのフレームワークです。 MLOps イニシアチブは、クラウドとオンプレミスの両方で、さまざまな運用ユースケースにわたるデータ構造と密接に連携します。データ構造は集中化された調整プロセスを作成するため、リスクを軽減し、ビッグデータ管理の全体的なコストを削減できます。興味深いことに、組織は DataOps イニシアチブを推進するための基盤として構造を使用しています。

たとえば、K2View は、その構造技術に基づいて構築されたデータ準備センターを提供しています。データ準備センターはさまざまなソースからデータを収集し、再定義されたパターンとルールに従ってデータをフィルタリング、入力、マスクします。ここでは、各顧客はデジタルエンティティによって表され、そのデータは専用のマイクロデータベースに保存されます。ビジネス エンティティごとにデータをパイプするこのアプローチにより、データの整合性が確保され、チームは中断のないアクセスが可能になります。

ボーナスヒント: 適切なクラウドアーキテクチャを選択する

データ環境は、何らかの形でクラウド アプリケーションに関連付けられている可能性があります。組織内でクラウド モデルの使用が増えていることを考えると、いくつかの基本事項を確認する価値があります。クラウド プラットフォームは MLOps に適していますか?

ほとんどのクラウド プラットフォームには組み込みのデータ サイエンス機能が備わっていますが、エンドツーエンドの機械学習パイプライン (ストレージ、取り込み、モデリング、視覚化、監視など) の弾力性と高性能な処理をサポートできるかどうかを確認することが重要です。

ここでは、「コードとしてのインフラストラクチャ」によって、スケーラブルで再現可能な機械学習環境の構成が自動化されます。オンプレミスと同様に、クラウド プラットフォームは、正確な機械学習モデルのトレーニングとテストに CI/CD に依存しています。 MLOps をサポートする既製のクラウド環境の例としては、AWS SageMaker、Google Cloud AI Pipelines、Databricks などがあります。

要約する

この記事では、MLOps 戦略を策定する際に考慮すべきいくつかの重要な指標について説明します。自動化が主流のサービスになるにつれ、組織にとっての次の課題は「XOps」スキルの向上になります。 MLOps を使用することで、組織は DataOps プロセスへの関与を向上できるだけでなく、せっかちな顧客の期待にも応えることができます。

<<:  Reddit のホットな話題: 博士課程の学生なのに行列の階数も分からないのに、どうやって卒業できるのか?

>>:  我々は最初のAI戦争を目撃したかもしれない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ChatGPTに加えて、知っておくべき14の大きなモデルがあります

多くの上司は人工知能を未来と見ており、多くのテクノロジーリーダーは ChatGPT を人工知能と同義...

Karpathy の新しいビデオが再び人気に: GPT Tokenizer をゼロから構築

技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。新しいプロ...

3.15を利用して、あなたの周りの偽の人工知能を数えましょう

他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...

単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

わかりやすい言葉で解説:人工知能(AI)とは何か?小学生でもわかる

昨今、人工知能(AI)という言葉は至るところで聞かれます。科学技術革新を支援する国や地方政府の政策か...

静的解析に機械学習を使用する方法

機械学習と人工知能は、特にマーケティング分析とサイバーセキュリティの分野で多くの分野で広く応用されて...

データセンターの未来: AIの力を活用して経済成長とイノベーションを推進

人気のSF小説で「機械知能の台頭」が描かれる場合、通常はレーザーや爆発が伴い、軽度な場合には軽い哲学...

真実に近いですか? LK-99型超伝導はCu_2S構造相転移によって引き起こされる可能性が高く、中国科学院物理研究所の論文もここにあります。

昨日、北京大学量子材料センター(ICQM)の郭開珍、賈爽らがarXivに提出した論文には、同チームが...

ハイリアンと手を携えてデジタル変革の道を議論する

モバイルインターネットの発展に伴い、企業の生産・運営プロセスで生成されるデータは、これまでにない爆発...

言語モデルの氷山の一角: 微調整は不要、AI21 Labs は凍結モデルの未開発の可能性を探る

現在、特定の NLP タスクのパフォーマンスを最適化するための最善のアプローチは、事前トレーニング済...

マイクロソフト、Nvidia が 5300 億の NLP モデル「Megatron-Turing」をリリース、価格は A100 で 4480 台

[[428336]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

Python 機械学習でプログラミングスキルを向上させる方法

この記事では、Packt の『Python Machine Learning, 3rd Editio...

OpenAIのチップ製造計画が明らかに!独自のAIチップを開発する計画があり、買収対象を検討中

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...