ML Ops は AI 分野における比較的新しい概念であり、「機械学習操作」として説明できます。モデルを効率的に開発、展開、監視できるように、データ サイエンティストと運用スタッフをより適切に管理するにはどうすればよいでしょうか。データの品質は非常に重要です。
この記事では、ML Ops の概要を説明し、ML Ops ワークフローにおけるデータ品質の重要な役割について説明します。 ML Ops の開発は、機械学習と従来のソフトウェア エンジニアリングの間のギャップを埋め、データ品質は ML Ops ワークフローの鍵となり、データ チームの加速とデータの信頼性の維持に役立ちます。 ML Opsとは ML Ops という用語は DevOps から発展しました。 DevOps は、開発 (アプリケーション/ソフトウェア エンジニアリング)、技術運用、品質保証 (QA) 部門間のコミュニケーション、コラボレーション、統合を促進する一連のプロセス、方法、システムです。 DevOps は、ソフトウェア開発者 (Dev) と IT 運用技術者 (Ops) 間のコミュニケーションとコラボレーションを重視する文化、運動、または実践です。ソフトウェアの配信とアーキテクチャの変更プロセスを自動化することで、ソフトウェアをより速く、より頻繁に、より確実に構築、テスト、リリースできるようになります。 一方、MLOps は、継続的インテグレーション、継続的デリバリー、継続的デプロイメントなど、ワークフローの効率を向上させる DevOps の原則とプラクティスに基づいています。 ML Ops は、次の目標を掲げて、これらの原則を機械学習プロセスに適用します。
DevOps の一般的な例としては、git などのツールを使用したコードのバージョン管理、コードレビュー、継続的インテグレーション (CI、つまり共有メインラインへのコードの頻繁なマージ)、自動テスト、継続的デプロイメント (CD、つまり本番環境へのコードの自動マージ) などがあります。 ML Ops を機械学習に適用すると、モデル出力の品質を確保しながら、機械学習モデルの開発と本番環境への展開を加速することを目的としています。ただし、ソフトウェア開発とは異なり、ML ではコードとデータの両方を扱う必要があります。
上記の説明ではプロセスが簡略化されていますが、ML 環境ではコードとデータが密接に結合されており、ML Ops は両方を処理する必要があることがわかります。 具体的には、ML Ops には次のタスクが含まれます。
データ テストとドキュメントは ML Ops にどのように適合しますか? ML Ops は、モデル出力の品質を確保しながら、機械学習モデルの開発と実稼働展開を加速することを目的としています。もちろん、データ品質の専門家が ML ワークフローの各段階でスピードと品質を達成するには、データのテストとドキュメント化が非常に重要です。
次のセクションでは、ML パイプラインのさまざまなステージを大まかに説明し、データ テストとドキュメントが各ステージにどのように適合するかについて説明します。 1. データ収集段階 データ セット処理の初期段階であっても、データの品質チェックと文書化を行うことで、長期的には操作を大幅に高速化できます。エンジニアにとって、不必要な問題を引き起こすことなくデータ取り込みパイプラインに安全に変更を加えることができる信頼性の高いデータ テストが重要です。同時に、社内外の上流ソースからデータを取得する際には、取得段階でデータ検証を実行し、データに予期しない変更がないことを確認することが非常に重要です。 2. モデル開発 この記事では、コアモデル開発プロセスの一部として、特徴エンジニアリング、モデル トレーニング、モデル テストについて説明します。この継続的な反復プロセスでは、データ サイエンティストをサポートするためにデータ変換コードとモデル出力に関するサポートが提供されるため、1 か所の変更によって他の部分が壊れることはありません。 従来の DevOps では、CI/CD ワークフローによる継続的なテストにより、コードの変更によって生じた問題を迅速に特定できます。さらに一歩進んで、ほとんどのソフトウェア エンジニアリング チームでは、開発者が既存のテストを使用してコードをテストするだけでなく、新しい機能を作成するときに新しいテストを追加することも要求しています。同様に、テストの実行と新しいテストの作成は、ML モデル開発プロセスの一部である必要があります。 3. モデルを本番環境で実行する すべての ML Ops と同様に、本番環境で実行されるモデルは、信頼性の高い結果を生成するためにコードと入力データに依存します。データ取得フェーズと同様に、コードの変更や実際のデータの変更によって生じる不要な問題を回避するために、データ入力を保護する必要があります。同時に、モデルが期待どおりに動作し続けることを確認するために、モデル出力に関するテストも実行する必要があります。 特にブラックボックス ML モデルを使用する環境では、モデル出力の品質基準を確立し、維持することが重要です。同様に、モデルの予想される出力を共有領域に文書化することで、データ チームと関係者が「データ コントラクト」を定義して伝達できるようになり、ML パイプラインの透明性と信頼性が向上します。 オリジナルリンク: https://greatexpectations.io/blog/ml-ops-data-quality/ [この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: 比較分析に基づく人工知能技術の革新の道筋に関する研究
>>: マイクロソフトの新しい画像キャプションAIは、Word、Outlook、その他のソフトウェアのアクセシビリティ向上に役立ちます。
過去数年間、化学研究は、個人の経験と文献から得られた過去の研究結果を使用する実験方法のみに焦点を当て...
【51CTO.comオリジナル記事】著者: 張傑本日2021年12月30日、SenseTimeの2...
この記事は、WeChat OCR 技術紹介シリーズの一部であり、ディープ シーケンス ラーニング手法...
機械読解(MRC)は、自然言語処理の分野における最近の研究のホットスポットの 1 つであり、人間の言...
[51CTO.com からのオリジナル記事] 伝説によると、古代の神秘的な東洋の世界には、秘密で偉大...
デジタル時代の到来により、顔認識技術の開発は大きく進歩しました。顔認識技術は普及し、多くの分野で広く...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
代数多様体とその方程式。代数幾何学は、一方では方程式の研究である代数学、他方では図形の研究である幾何...
人工知能時代の地図データ制作はどのような変化を遂げるのでしょうか?7月3日、「Baidu Creat...
[[207684]]投資家が最も注目する点の一つは、起業家が独自の堀を見つけているかどうかだ。そし...
私たちが住む世界では、炭素をベースとするほぼすべての生物は、遺伝子をその特異性の根拠として利用してい...