序文 機械学習プロジェクトを実行するには、まずモデルを(ほとんどの場合は予測 API として)デプロイします。この API を本番環境で動作させるには、まずモデルを提供するインフラストラクチャを構築する必要があります。これには、負荷分散、スケーリング、監視、更新などが含まれます。
一見すると、これらの仕事はすべて馴染みのあるもののように思えるかもしれません。 Web 開発者と DevOps エンジニアは長年にわたりマイクロサービス インフラストラクチャの自動化に取り組んできました。確かに彼らのツールを再利用できるのでしょうか? 残念ながらできません。 ML のインフラストラクチャは従来の DevOps と似ていますが、ML に特化しているため、標準の DevOps ツールは理想的とは言えません。そのため、私たちは機械学習エンジニアリング用のオープンソース プラットフォームである Cortex を開発しました。 非常に高レベルでは、Cortex は、基盤となるインフラストラクチャ全体を自動化し、ローカルまたはクラウド上でのモデルの展開を簡素化するように設計されています。プラットフォームのコアコンポーネントは、開発者が予測 API を記述できるプログラム可能な Python インターフェイスである Predictor Interface です。 Web リクエストの予測を提供するための Python インターフェースを設計することは、数か月を要した課題でした (現在も改良中です)。ここで、私たちが開発したいくつかのデザイン原則を共有したいと思います。 1. 予測子は単なるPythonクラスです Cortex の中核は予測子であり、基本的にはすべてのリクエスト処理コードと依存関係を含む予測 API です。 Predictor インターフェースは、これらの予測 API に対するいくつかの簡単な要件を実装します。 Cortex はモデルの提供にマイクロサービス アプローチを採用しているため、予測インターフェースは次の 2 つの点に厳密に重点を置いています。
この精神に基づき、Cortex の予測インターフェースには、残りの init__() と predict() という 2 つの関数が必要です。これらは、ほぼ予想どおりの機能を果たします。
初期化されると、予測子は、ユーザーがエンドポイントをクエリしたときに単一の predict() 関数が呼び出される Python オブジェクトと考えることができます。 このアプローチの最大の利点の 1 つは、ソフトウェア エンジニアリングの経験がある人なら誰でも直感的に理解できることです。データ パイプラインやモデル トレーニング コードに触れる必要はありません。モデルは単なるファイルであり、予測子はモデルをインポートして predict() メソッドを実行する単なるオブジェクトです。 しかし、このアプローチは、その構文上の魅力を超えて、皮質へのより広範なアプローチを補完する方法という点で、いくつかの重要な利点を提供します。 2. 予測は単なるHTTPリクエストです 本番環境で予測を提供するためのインターフェースを構築する際の複雑さの 1 つは、少なくとも形式においては、入力がモデルのトレーニングに使用されたデータとはほぼ確実に異なることです。 これは 2 つのレベルで機能します。
したがって、予測インターフェースは、予測 API の入力と出力について意見を述べることはできません。予測は単なる HTTP リクエストであり、開発者はそれを自由に使用できます。たとえば、マルチモデル エンドポイントをデプロイし、リクエスト パラメータに基づいてさまざまなモデルをクエリする場合は、次のようにします。
このインターフェースにより、開発者は API で自由に操作できるようになりますが、インフラストラクチャの面では Cortex がより独自の判断を下せる自然な余地も得られます。 たとえば、バックグラウンドでは Cortex は FastAPI を使用してリクエスト ルーティングを設定します。 Cortex は、自動シーケンス、監視、およびその他のインフラストラクチャ機能に関連する多くのプロセスをこのレイヤーに設定しますが、開発者がルーティングを実装する必要がある場合、これらのプロセスは非常に複雑になる可能性があります。 ただし、各 API には predict() メソッドがあるため、各 API のルートの数は同じ (1) になります。理論的には、これにより Cortex はエンジニアを制限することなくインフラストラクチャ レベルでより多くのことを実行できるようになります。 3. サービスモデルは1つのマイクロサービスのみ スケールは、本番環境で機械学習を使用するすべての人にとって大きな懸念事項です。モデルは大きくなり(GPT-2 は約 6 GB)、計算コストが高くなり、レイテンシが大きくなる可能性があります。特にリアルタイム推論の場合、トラフィックを処理するためにスケールアップすることは困難であり、予算が限られている場合はさらに困難になります。 この問題を解決するために、Cortex は予測子を水平方向にスケーリングできるマイクロサービスとして扱います。具体的には、開発者が Cortex をデプロイすると、Cortex に API が組み込まれ、推論用に準備されたクラスターが起動され、デプロイされます。次に、ロードバランサーの背後にある Web サービスとして API を公開し、自動スケーリング、更新、および監視を構成します。 予測子インターフェースは「単なる」Python インターフェースですが、このプロセスの基礎となります。 予測子インターフェースは、コードを単一の推論単位にパッケージ化することを強制します。単一の API に必要なすべてのリクエスト処理コードは、単一の予測子に含まれています。これにより、皮質は予測要因を簡単に評価できるようになります。 こうすることで、エンジニアは、API を本番環境に準備するために、(もちろん、微調整を加えない限りは)余分な作業を行う必要がなくなります。 Cortex のデプロイメントは、デフォルトで本番環境に対応しています。 |
<<: 人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明
空でない整数の配列が与えられた場合、最も頻繁に出現する上位 k 個の要素を返します。例1:入力: n...
第 4 回「JD テクノロジー オープン デー」イベントは、9 月 27 日に北京市宜荘区の超林広場...
上海ノキアベル株式会社(以下、「ノキアベル」)は、ノキアグループと中国保利集団の子会社である華新郵電...
[[386762]]ビッグデータダイジェスト制作出典: ベンチャービート編集:赤道のパンダACM ...
10年以上が経過し、ディープラーニングは人工知能の発展の機会を提供してきました。並列コンピューティン...
企業はどのように AI ソリューションを使用して効率性を向上させ、プロセスを合理化できるのでしょうか...
[[334740]] 01 完全に接続されたネットワーク完全に接続された高密度の線形ネットワークは、...
「調整」に 500 ドルかかる 70 億パラメータのモデルは、700 億パラメータの Llama 2...
人工知能は近年注目されている技術分野です。機械学習は人工知能のサブセットであり、人工知能分野全体の中...
ユーザーがTikTokにどんどん奪われ、毎日のアクティブユーザー数が減り続けているという現実に直面し...
[[361283]]画像ソース: https://pixabay.com/images/id-477...
人工知能 (AI) は設計の仕事を引き継ぐのでしょうか? 将来的にはデザイナーに取って代わるのでしょ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...