機械学習プロジェクト用の Python インターフェースを設計する方法

序文

機械学習プロジェクトを実行するには、まずモデルを（ほとんどの場合は予測 API として）デプロイします。この API を本番環境で動作させるには、まずモデルを提供するインフラストラクチャを構築する必要があります。これには、負荷分散、スケーリング、監視、更新などが含まれます。

[[338615]]

一見すると、これらの仕事はすべて馴染みのあるもののように思えるかもしれません。 Web 開発者と DevOps エンジニアは長年にわたりマイクロサービスインフラストラクチャの自動化に取り組んできました。確かに彼らのツールを再利用できるのでしょうか?

残念ながらできません。

ML のインフラストラクチャは従来の DevOps と似ていますが、ML に特化しているため、標準の DevOps ツールは理想的とは言えません。そのため、私たちは機械学習エンジニアリング用のオープンソースプラットフォームである Cortex を開発しました。

非常に高レベルでは、Cortex は、基盤となるインフラストラクチャ全体を自動化し、ローカルまたはクラウド上でのモデルの展開を簡素化するように設計されています。プラットフォームのコアコンポーネントは、開発者が予測 API を記述できるプログラム可能な Python インターフェイスである Predictor Interface です。

Web リクエストの予測を提供するための Python インターフェースを設計することは、数か月を要した課題でした (現在も改良中です)。ここで、私たちが開発したいくつかのデザイン原則を共有したいと思います。

1. 予測子は単なるPythonクラスです

Cortex の中核は予測子であり、基本的にはすべてのリクエスト処理コードと依存関係を含む予測 API です。 Predictor インターフェースは、これらの予測 API に対するいくつかの簡単な要件を実装します。

Cortex はモデルの提供にマイクロサービスアプローチを採用しているため、予測インターフェースは次の 2 つの点に厳密に重点を置いています。

モデルを初期化する
予測の提供

この精神に基づき、Cortex の予測インターフェースには、残りの init__() と predict() という 2 つの関数が必要です。これらは、ほぼ予想どおりの機能を果たします。

輸入トーチ
トランスフォーマーのインポートパイプラインから
 
クラス PythonPredictor:
    def __init__(self, config):
        # 利用可能な場合はGPUを使用する
        デバイス = torch.cuda.is_available() の場合は 0 、それ以外の場合は-1
        # モデルを初期化する
        self.summarizer = pipeline(task= "summarization" 、device=device) 
 
    def predict(自己, ペイロード):
        # 予測を生成する
        要約 = self.summarizer(
            ペイロード[ "text" ]、num_beams=4、length_penalty=2.0、max_length=142、no_repeat_ngram_size=3
        ）
        #リターン予測
summary[0][ "summary_text" ]を返す

初期化されると、予測子は、ユーザーがエンドポイントをクエリしたときに単一の predict() 関数が呼び出される Python オブジェクトと考えることができます。

このアプローチの最大の利点の 1 つは、ソフトウェアエンジニアリングの経験がある人なら誰でも直感的に理解できることです。データパイプラインやモデルトレーニングコードに触れる必要はありません。モデルは単なるファイルであり、予測子はモデルをインポートして predict() メソッドを実行する単なるオブジェクトです。

しかし、このアプローチは、その構文上の魅力を超えて、皮質へのより広範なアプローチを補完する方法という点で、いくつかの重要な利点を提供します。

2. 予測は単なるHTTPリクエストです

本番環境で予測を提供するためのインターフェースを構築する際の複雑さの 1 つは、少なくとも形式においては、入力がモデルのトレーニングに使用されたデータとはほぼ確実に異なることです。

これは 2 つのレベルで機能します。

POST リクエストの本文は NumPy 配列ではなく、モデルが処理するために使用されるデータ構造でもありません。
機械学習エンジニアリングは、モデルを使用してソフトウェアを構築することです。多くの場合、これは、GPT-2 を使用してフォークミュージックを作成するなど、モデルを使用してトレーニングされていないデータを処理することを意味しています。

したがって、予測インターフェースは、予測 API の入力と出力について意見を述べることはできません。予測は単なる HTTP リクエストであり、開発者はそれを自由に使用できます。たとえば、マルチモデルエンドポイントをデプロイし、リクエストパラメータに基づいてさまざまなモデルをクエリする場合は、次のようにします。

輸入トーチ
トランスフォーマーのインポートパイプラインから
starlette.responsesからJSONResponse をインポートします
 
クラス PythonPredictor:
    def __init__(self, config):
        self.analyzer = パイプライン(タスク = "感情分析" )
        self.summarizer = pipeline(task= "要約" ) 
 
    def predict(self, query_params, ペイロード):
        model_name = query_params.get( "モデル" )
        model_name == "sentiment"の場合:
 self.analyzer(payload[ "text" ])[0]を返す
        elif model_name == "summarizer" :
            サマリー = self.summarizer(ペイロード[ "テキスト" ])[0]
それ以外：
 JSONResponseを返します({ "error" : f "不明なモデル: {model_name}" }, status_code=400)

このインターフェースにより、開発者は API で自由に操作できるようになりますが、インフラストラクチャの面では Cortex がより独自の判断を下せる自然な余地も得られます。

たとえば、バックグラウンドでは Cortex は FastAPI を使用してリクエストルーティングを設定します。 Cortex は、自動シーケンス、監視、およびその他のインフラストラクチャ機能に関連する多くのプロセスをこのレイヤーに設定しますが、開発者がルーティングを実装する必要がある場合、これらのプロセスは非常に複雑になる可能性があります。

ただし、各 API には predict() メソッドがあるため、各 API のルートの数は同じ (1) になります。理論的には、これにより Cortex はエンジニアを制限することなくインフラストラクチャレベルでより多くのことを実行できるようになります。

3. サービスモデルは1つのマイクロサービスのみ

スケールは、本番環境で機械学習を使用するすべての人にとって大きな懸念事項です。モデルは大きくなり（GPT-2 は約 6 GB）、計算コストが高くなり、レイテンシが大きくなる可能性があります。特にリアルタイム推論の場合、トラフィックを処理するためにスケールアップすることは困難であり、予算が限られている場合はさらに困難になります。

この問題を解決するために、Cortex は予測子を水平方向にスケーリングできるマイクロサービスとして扱います。具体的には、開発者が Cortex をデプロイすると、Cortex に API が組み込まれ、推論用に準備されたクラスターが起動され、デプロイされます。次に、ロードバランサーの背後にある Web サービスとして API を公開し、自動スケーリング、更新、および監視を構成します。

予測子インターフェースは「単なる」Python インターフェースですが、このプロセスの基礎となります。

予測子インターフェースは、コードを単一の推論単位にパッケージ化することを強制します。単一の API に必要なすべてのリクエスト処理コードは、単一の予測子に含まれています。これにより、皮質は予測要因を簡単に評価できるようになります。

こうすることで、エンジニアは、API を本番環境に準備するために、（もちろん、微調整を加えない限りは）余分な作業を行う必要がなくなります。 Cortex のデプロイメントは、デフォルトで本番環境に対応しています。

<<: 人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明

>>: CNNとRNNについての簡単な説明