機械学習におけるモデル展開とは何ですか?

機械学習におけるモデルのデプロイメントとは、機械学習モデルを既存の運用環境に統合し、入力を受け入れて出力を返すプロセスです。目標は、トレーニングされた機械学習モデルの予測を他の人が利用できるようにすることです。

ほとんどのオンラインリソースは、探索的データ分析 (EDA)、モデルの選択、モデルの評価など、機械学習ライフサイクルの初期ステップに重点を置いています。ただし、モデルの展開は複雑になる可能性があるため、ほとんど議論されないトピックのようです。ソフトウェアエンジニアリングや DevOps の経験がない人にとって、デプロイメントを理解するのは困難です。

この記事では、モデルのデプロイメントの概要、モデルの高レベルアーキテクチャ、モデルをデプロイするさまざまな方法、およびデプロイメント方法を決定する際に考慮すべき要素について詳しく説明します。

モデルのデプロイメントとは何ですか?

機械学習モデルのデプロイ (モデルデプロイとも呼ばれます) とは、モデルが入力を受け入れて出力を返すことができる既存の運用環境に機械学習モデルを統合することを意味します。モデルを展開する目的は、他の人 (ユーザー、管理者、または他のシステム) がトレーニングされた機械学習モデルを使用して予測を行えるようにすることです。

モデルの展開は機械学習システムアーキテクチャと密接に関連しており、事前定義された目標を達成するためにシステム内のソフトウェアコンポーネントの配置と相互作用を指します。

モデル展開標準

モデルをデプロイする前に、機械学習モデルがデプロイの準備としていくつかの基準を満たす必要があります。

移植性:これは、ソフトウェアをあるマシンまたはシステムから別のマシンまたはシステムに転送できる能力を指します。ポータブルモデルとは、応答時間が比較的速く、簡単に書き換えることができるモデルです。
スケーラビリティ:モデルを拡張できる範囲を指します。スケーラブルなモデルとは、再設計せずにパフォーマンスを維持できるモデルです。

これらはすべて、ソフトウェアやその他の製品が実際に運用され、エンドユーザーが使用する環境を表す用語である実稼働環境で行われます。

モデル展開のための機械学習システムアーキテクチャ

大まかに言えば、機械学習システムには 4 つの主要な部分があります。

データレイヤー: データレイヤーは、モデルに必要なすべてのデータソースへのアクセスを提供します。
フィーチャレイヤー: フィーチャレイヤーは、透過的かつスケーラブルで使いやすい方法でフィーチャデータを生成する役割を担います。
スコアリングレイヤー: スコアリングレイヤーは、特徴を予測に変換します。 Scikit-Learn は最も一般的に使用されており、スコアリングの業界標準です。
評価レイヤー: 評価レイヤーは 2 つのモデルの同等性をチェックし、実稼働モデルを監視するために使用できます。これは、トレーニング予測が実際のトラフィック予測とどの程度一致するかを監視および比較するために使用されます。

知っておくべき3つのモデル展開方法

ML モデルをデプロイするための一般的なアプローチには、ワンショット、バッチ、リアルタイムの 3 つがあります。

1. 1回限り

展開のために機械学習モデルを継続的にトレーニングする必要は必ずしもありません。モデルは一度だけ、または定期的に必要になる場合があります。この場合、モデルは必要に応じてアドホックにトレーニングされ、パフォーマンスが低下して修復が必要になるまで実稼働状態にすることができます。

2. バッチ

バッチトレーニングを使用すると、モデルの最新バージョンを継続的に使用できます。これは、一度にデータのサブサンプルを取得するスケーラブルなアプローチであり、更新ごとに完全なデータセットを使用する必要がなくなります。モデルを一貫して使用するが、必ずしもリアルタイムの予測が必要ない場合には、このアプローチが適しています。

3. リアルタイム

場合によっては、取引が不正であるかどうかを判断するなど、リアルタイムの予測が必要になります。これは、確率的勾配降下法を使用した線形回帰などのオンライン機械学習モデルを使用することで実現できます。