機械学習パイプラインについて知っておくべきことは何ですか?

【51CTO.com クイック翻訳】継続的インテグレーション (CI)/継続的デリバリー (CD) の急成長により機械学習の発展が促進され、IT プロフェッショナルには機械学習パイプラインを理解し、データモデルの信頼性を維持するための複数のオプションがあります。

[[352477]]

経営幹部は、機械学習モデルのブラックボックス性を謎めいたテクノロジーと見なすことが多く、IT リーダーがプロセスを効果的に動員してモデルのパフォーマンスを向上させることができると信じていることがよくあります。実際には、機械学習プロセスの基本を理解することで、そのプロセスと手順をわかりやすく説明でき、IT チームは、今日の競争の激しいビジネス環境に不可欠な機械学習テクノロジーをより適切に管理できるようになります。

機械学習パイプラインは、本質的には、プログラムの望ましい出力を構築および自動化するための開発手順です。開発者は、ソフトウェアがソースコードから本番環境に移行する方法を説明するために「パイプライン」という用語を使用します。実際、更新のためにソフトウェアをリポジトリにデプロイするなど、プログラミングサービス用の商用パイプラインは数多く存在します。機械学習のコンテキストでは、パイプラインは、デプロイメント前のデータを調整するプロセスとデプロイメントプロセスを表します。

機械学習パイプラインには、データ収集、データ処理、データ変換、モデルトレーニングが含まれます。各段階でのアクティビティは、データとコードの処理方法によってリンクされます。データ収集とは、計画されたデータソースからデータを取得することです。収集されるデータの種類は、単にデータファイルをアップロードするものから、データレイクまたはデータベースから必要なデータをクエリするものまで多岐にわたります。

データ処理とは、行、列、値の観点からデータセットを準備するためのプログラミングコードを作成することです。既知のデータ品質に基づいて変更を適用する準備をしてください。データセットの平均値を使用して、欠損値を埋めます。

データ変換は、モデルがデータを読み取れるように、アプリケーションを通じてデータ形式を変換するプロセスです。データセットからカテゴリテキストを移動するためにエンコーディングを適用するなど、モデルが認識できる形式でデータ型を配置することを目的としています。

モデルのトレーニングでは、データを実行してモデルの仕様を確立します。これらの問題は、使用するモデルの種類に応じて対処できます。一部の機械学習フレームワークには、モデルのデプロイと調整を容易にするために設計された拡張機能があります。たとえば、TensorFlow には、入力パイプラインに使用できる tfdatasets という R プログラミングのライブラリがあります。

データでモデルをトレーニングした後、最後のステップでは、モデルが予測値をどれだけ正確に生成するかをテストし、それに応じてモデルのパラメータを調整します。

ドキュメントの重要性

機械学習パイプラインのもう 1 つの重要な詳細はドキュメントです。ドキュメントは、指定された期間内に機能を実行するための手順を確立するために使用されます。 YAML は、この目的で使用されるテキストプログラミング言語です。ドキュメントは、JSON ファイルのような名前と値のペアを使用して設計されています。

必要な手順が多数あるため、IT プロフェッショナルは、機械学習パイプラインプロセスを管理するプラットフォームを通じて、パイプライン関連の問題を管理する方法を学ぶことができます。最もよく使用されるのは、Microsoft Azure ML、Amazon Sagemaker、Google Cloud AI です。これらの各プラットフォームは、開発パイプライン用の統合環境を提供し、他のクラウドコンピューティングサービスと連携するための特定の機能を備えています。たとえば、Azure Pipelines は Microsoft IDE である Visual Studio Code と同期し、開発者に必要な修正データをアップロードするための専用ワークフローを提供します。これは、構成用の YAML ファイルを編集する場合に特に便利です。

各プラットフォームサービスには、言語、プラットフォーム、媒体に応じて独自の利点があります。たとえば、Azure ML は Python または R をサポートし、基本的な機械学習プロセス用のフレームワークである AutoML にさらに多くのオプションを提供します。この詳細は、企業チームがどのような専門知識についてトレーニングを受ける必要があるかを示します。

アクセラレータの使用に精通している

IT チームは、プラットフォームの学習に加えて、アクセラレータの使用方法にも精通する必要があります。アクセラレータは、GPU (グラフィックスプロセッシングユニット) の複数のプロセッサコアをホストするクラウドコンピューティングサービスです。 GPU は、グラフィックスと数学的計算専用のメモリを提供する特殊なプロセッサです。 GPU は大量のデータを処理できるため、ラップトッププロセッサでは不可能なテストとトレーニングの時間を節約できます。

アクセラレータでは、モデルを接続するソリューションにアクセスするために他のフレームワークが必要になる場合があります。たとえば、TensorFlow には、さまざまなバージョンの GPU を TPU (Tensor Processing Units) に接続して、トレーニングおよびテスト実行中に生成される数百万の計算パラメータを管理するためのライブラリがあります。したがって、IT チームは、発生する可能性のある展開の問題を理解するために、フレームワークに関するトレーニングを受ける必要があります。

パイプラインプラットフォームとアクセラレータを学習して理解することで、モデル環境で継続的インテグレーション (CI)/継続的デリバリー (CD) を計画するための基盤が築かれます。可観測性は重要なトピックとなり、モデルのパフォーマンスを監視して効率を調整できるようになります。これは、モデルのテストとトレーニングに長い時間がかかる可能性があるため、特に価値があります。可観測性システムにより、IT チームは制御モデルの変更をバージョン管理できるようになり、パフォーマンスの問題によって生じるプログラミング障害を正確にデバッグできるようになります。この再現性は、モデル検証の基盤にもなります。モデル検証では、複数の環境でのモデルの動作をチェックし、企業が最適な機械学習モデルを選択できるようにします。

検証とバージョン管理が計画されると、継続的インテグレーション (CI) / 継続的デリバリー (CD) の実践を構想しやすくなります。継続的インテグレーション (CI) / 継続的デリバリー (CD) の価値は、パイプラインのステージとモデル条件に基づいて慎重に調整された更新を配信することにあります。

パイプラインを理解することで、継続的インテグレーション (CI)/継続的デリバリー (CD) 手法と機械学習モデルを使用して、IT チームに適切なワークフローを設定できます。また、IT チームがビジネス運営に影響を与えるパイプラインプロセスについてより適切に議論する道も開かれます。これにより、機械学習を最新の状態に保ち、成功に導くプロアクティブな IT チームが誕生します。

原題: 機械学習パイプラインについて知っておくべきこと、著者: Pierre DeBois

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: 最初のライブ放送ではメリットが伝えられ、スマートハードウェアについての話を聞くことができます

>>: 「ビッグデータが古い顧客を殺す」といった混乱が顕著になる中、どのような「アルゴリズム」が必要なのでしょうか？