機械学習の運用が増加している

機械学習の運用が増加している

データにラベルを付け、正確な機械学習モデルを開発することはデータ サイエンティストにとって困難であり、運用環境でモデルを管理することはさらに困難です。モデルのドリフトを特定し、データセットを更新してモデルを再トレーニングし、パフォーマンスを向上させ、基盤となるテクノロジー プラットフォームを維持することは、すべて重要なデータ サイエンスの実践です。これらの規律がなければ、モデルは誤った結果を生み出し、ビジネスに重大な影響を及ぼす可能性があります。

[[339340]]

生産準備が整ったモデルを開発するのは簡単ではありません。機械学習の調査によると、55% の企業がモデルを本番環境に導入しておらず、40% 以上がモデルの導入に 30 日以上かかっています。成功したとしても新たな課題が生じる可能性があり、回答者の 41% が機械学習モデルのバージョン管理と再現性の難しさについて認めています。

ここでの教訓は、機械学習モデルが本番環境に導入され、ビジネス プロセスで使用されると、新たな障害が発生するということです。

モデルの管理と運用は、より高度なデータ サイエンス チームにとって課題でした。今日のタスクには、運用中の機械学習モデルのドリフトの監視、モデルの自動再トレーニング、ドリフトが重大な場合にアラートを発すること、モデルのアップグレードが必要な時期を特定することも含まれます。機械学習に投資する組織が増えるにつれて、モデルの管理と運用に対する意識を高めることがますます必要になります。

幸いなことに、オープンソースの MLFlow や DVC などのプラットフォームやライブラリ、および Alteryx、Databricks、Dataiku、SAS、DataRobot、ModelOp などの商用ツールにより、データ サイエンス チームによるモデルの管理と運用が容易になっています。パブリック クラウド プロバイダーも、Azure Machine Learning が提供する MLops などのいくつかのプラクティスを共有しています。

モデル管理と DevOps にはいくつかの類似点があります。多くの人はモデルの管理と運用を MLops と呼び、機械学習モデルの開発と維持に必要な文化、実践、テクノロジーとして定義しています。

モデルの管理と運用を理解する

モデルの管理と運用をより深く理解するには、ソフトウェア開発の実践と科学的手法の組み合わせを考慮する必要があります。

ソフトウェア開発者であれば、アプリケーションのバージョンを完成させて本番環境にデプロイするのは簡単な作業ではないことはご存じでしょう。そして、アプリケーションが本番環境に移行すると、さらに大きな課題が始まります。エンドユーザーは定期的な機能強化を期待しており、基盤となるインフラストラクチャ、プラットフォーム、ライブラリにもパッチ適用とメンテナンスが必要です。

さて、科学の世界に目を向けてみましょう。科学の世界でも、疑問は複数の仮説と繰り返される実験につながります。理科の授業で、これらの実験のログを記録することを学び、実験ごとにさまざまな変数を調整するプロセスを追跡することができました。実験はより良い結果につながり、プロセスを文書化することで、すべての変数を調査し、結果が再現可能であることを同僚に安心させることができます。

機械学習モデルを実験するデータ サイエンティストは、ソフトウェア開発と科学研究の分野を組み合わせる必要があります。機械学習モデルは、Python や R などの言語で開発され、TensorFlow、PyTorch などの機械学習ライブラリを使用して構築され、Apache Spark などのプラットフォーム上で実行され、クラウド インフラストラクチャ上にデプロイされるソフトウェア コードです。機械学習モデルの開発とサポートには広範な実験と最適化が必要であり、データ サイエンティストはモデルの精度を証明する必要があります。

ソフトウェア開発と同様に、機械学習モデルには継続的なメンテナンスと強化が必要です。この一部は、コード、ライブラリ、プラットフォーム、インフラストラクチャの保守から生じる可能性がありますが、データ サイエンティストはモデル ドリフトの問題にも重点を置く必要があります。簡単に言えば、モデルドリフトは、新しいデータが利用可能になり、機械学習モデルによって提供される予測、クラスタリング、セグメンテーション、および推奨事項が予想される結果から逸脱したときに発生します。

成功するモデル管理は、最高のモデルの開発から始まります

Alteryx の最高データおよび分析責任者である Alan Jacobson 氏に、組織が機械学習モデルの開発に成功する方法について話を聞きました。 「モデル開発を簡素化するために、ほとんどのデータ サイエンティストが直面する最初の課題は、問題を明確に定式化することです。複雑なビジネス上の問題の多くは、非常に単純な分析で解決できますが、そのためにはまず、データと分析が問題の解決に役立つような形で問題を組み立てる必要があります。最も複雑なモデルであっても、プロセスで最も難しいのは、多くの場合、データを組み立て、適切な入力が使用され、適切な品質であることを確認することです。」

私はジェイコブソン氏に同意します。データとテクノロジーの実装の多くは、問題の説明が不十分、または問題の説明がまったくなく、十分なデータ品質を確保するための時間、ツール、専門知識が不足している状態から始まります。組織はまずビッグデータについて賢明な質問をし、データ操作に投資し、次にデータサイエンスのアジャイル手法を使用してソリューションを反復する必要があります。

機械学習モデルのモデルドリフトの監視

正確な問題定義を取得することは、運用中のモデルの継続的な管理と監視にとって重要です。ジェイコブソン氏はさらにこう説明しています。「モデルの監視は重要なプロセスですが、それを正しく行うには、監視対象と潜在的な悪影響について深く理解する必要があります。ほとんどの人がモデルのパフォーマンスと時間の経過に伴う変化の監視について議論しますが、この分野では予期しない結果の分析の方がより重要で、困難です。」

モデルのドリフトと予期しない結果を理解する簡単な方法は、パンデミック前のトレーニング データを使用して開発された機械学習モデルに対する COVID-19 の影響を考慮することです。人間の行動、自然言語処理、消費者需要モデル、詐欺パターンに基づく機械学習モデルはすべて、パンデミック中の行動の変化の影響を受けており、これらの変化により AI モデルが混乱しました。

より多くの組織が価値を獲得し、データ サイエンス プログラムを成熟させ始めるにつれて、テクノロジー プロバイダーも新しい MLops 機能をリリースしています。たとえば、SAS は、データ サイエンティストがターゲット変数なしでモデルを評価するのに役立つ機能貢献インデックスを導入しました。 Cloudera は最近、技術的なパフォーマンス メトリックをキャプチャし、モデルの予測を追跡する ML 監視サービスを発表しました。

MLopsは自動化とコラボレーションの問題にも対処します

機械学習モデルの開発から運用環境での監視までの間には、データ サイエンスの実践を拡張できるようにする追加のツール、プロセス、コラボレーション、および機能があります。機械学習モデル用のコードとしてのインフラストラクチャや CI/CD (継続的インテグレーション/継続的デプロイメント) を含む、DevOps のような自動化とインフラストラクチャ。基礎となるトレーニング データを使用したモデルのバージョン管理や、モデル リポジトリの検索など、その他の開発者機能もいくつかあります。

MLops のさらに興味深い側面は、データ サイエンス チームに科学的手法とコラボレーションをもたらすことです。たとえば、DataRobot では、複数の実験モデルを並行して実行し、実稼働バージョンの精度に挑戦するチャンピオン チャレンジャー モデルが可能になります。 SAS は、データ サイエンティストが市場投入までのスピードとデータ品質を向上できるよう支援したいと考えています。 Alteryx は最近、データ サイエンス チーム間のコラボレーションと共有を支援する Analytics Hub を導入しました。

これらすべては、機械学習の管理と拡張には、データ サイエンティストにランダム フォレスト、k-means、または畳み込みニューラル ネットワークを Python で記述してテストするように依頼するだけのことよりも、より多くの規律と実践が必要であることを示唆しています。

<<:  Tencent IEG オープンソース AI SDK: PUBG および MOBA ゲームの自動テスト

>>:  目に見えないものが見えるようになる!メタマテリアルとAIが融合し音像を解読

推薦する

TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

自然言語処理タスクから始まり、画像分類と生成の分野で活躍する無敵のトランスフォーマーは、次の伝説とな...

TFとPyTorchだけを知っているだけでは不十分です。PyTorchから自動微分ツールJAXに切り替える方法を見てみましょう。

現在のディープラーニング フレームワークに関しては、TensorFlow と PyTorch を避け...

2017 年グローバル人工知能人材ホワイトペーパー: 世界トップクラスの AI 人材の秘密を解明!

人工知能における競争は優秀な人材に基づいて行われます。国の将来の発展方向として、AI技術は経済発展、...

智恵さんはブドウを縫うことができるロボットアームを自作した。費用は1万元。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能の新時代が近づいています。従来の産業の従事者はどこへ向かうのでしょうか?

世間の好むと好まざるとにかかわらず、人工知能の新しい時代が静かに到来した。しかし、人工知能が本格的に...

Diffie-Hellman 鍵交換は、一般的な暗号化アルゴリズムです。

公開されたばかりの Logjam 脆弱性 (FREAK 脆弱性のバリエーション) に関する情報はブラ...

1日で6つの賞を獲得! PATEOの自動車インターネットが高工インテリジェント車両ゴールデングローブ賞を受賞

12月15日から17日まで、2020年(第4回)高工インテリジェント自動車年次大会および高工ゴールデ...

人工知能はいつか本当に人間の教師に取って代わることができるのでしょうか?

中国は教育における人工知能の応用において徐々に優位に立っています。顔認識からスタートアップ、医療教育...

低品質の AIGC コンテンツがインターネット エコシステムに溢れかえれば、エコシステムは破壊されてしまいます。

少し前、ChatGPT は突然人気を博し、ユーザーベースが急速に増加しました。多くの人が「生成 AI...

ヘッドライトから始めて、自動運転はどのようにして攻撃性を排除するのでしょうか?

これは、鞭で打たれるとどんどん速く回転するコマのような「高離職率」社会です。技術推論において非常に重...

人間を殺し、ロボット犬を救う「ボストンパワー」ロボットはターミネーターに変身する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

2022年、ビッグモデルはどこまで行けるでしょうか?

[[442868]]著者: ユン・チャオこの記事は、2021年の業界レビュー、2021年のビッグモ...