機械学習におけるモデルドリフト

機械学習におけるモデルドリフト

今日、機械学習モデルはビジネス上の意思決定の主な原動力となっています。他のビジネス戦略と同様に、これらの機械学習モデルも時間の経過とともに変更する必要があります。その背後にある技術的な理由は「モデルドリフト」です。ほとんどのコース、記事、投稿では機械学習 (ML) ライフサイクル (データの収集から始まり、機械学習モデルのデプロイで終わる) について説明していますが、ML ライフサイクルの非常に重要な特性であるモデルドリフトについて忘れられていることがよくあります。

モデルドリフトの本質は、ターゲット変数と独立変数の関係が時間の経過とともに変化することです。このドリフトにより、モデルは不安定になり、予測は時間の経過とともに一貫して間違ったものになります。

ドリフトタイプ

モデルドリフトは 2 つの主要なカテゴリに分けられます。

1 つ目は「コンセプトドリフト」と呼ばれます。これは、ターゲット変数自体の統計特性が変化した場合に発生します。当然のことながら、予測しようとしている変数の意味が変わった場合、更新された定義ではモデルはうまく機能しなくなります。

2番目で最も一般的なのは「データドリフト」です。これは、予測変数の統計特性が変化するときに発生します。同様に、基礎となる変数が変化すると、モデルは必ず失敗します。これが起こる典型的な例は、季節性によりデータのパターンが変化する場合です。夏に機能するビジネスモデルが何であれ、冬には機能しない可能性があります。休暇期間中は航空便の需要が急増するが、航空会社はオフシーズン中の旅客輸送量を維持するのに苦労している。もう 1 つの例として、個人の好みが変わると、ショッピング データも変わります。

どうすれば解決できるでしょうか?

この問題を解決する最善の方法は、モデルを継続的に再調整することです。過去の経験に基づいて、モデルドリフトの開始を推定できます。これを基に、機械学習モデルを再開発して、ドリフトによって生じるリスクを軽減することもできます。

データの重みは、データが時間の経過とともに変化する状況に適しています。たとえば、最近のトランザクションは、最近のトランザクションに重みを付け、過去のトランザクションに重みを少なくする機械学習モデルの機能を決定するために使用できます。これにより、機械学習モデルの堅牢性が保証されるだけでなく、ドリフトに関連する潜在的な問題を回避するのにも役立ちます。

モデルドリフトに対処するためのより洗練されたアプローチは、変更自体をモデル化することです。最初に開発されたモデルは静的に保たれ、ベースラインとして機能しました。最近の取引データの動作の変化に基づいて、新しい機械学習モデルを構築し、このベースライン モデルの予測を修正できます。

モデルをどのくらいの頻度で再トレーニングする必要がありますか?

最も一般的な解決策はモデルの継続的な再トレーニングであることがわかりましたが、次に疑問が生じます。これはどのくらいの頻度で行う必要があるのでしょうか。これには複数の解決策があり、それぞれ状況によって異なります。

問題が発生するのを待つのは最善のアプローチではありませんが、新しいモデルに関してはそれが唯一の選択肢です。問題が発生した場合は、それを調査し、将来的に問題が発生するのを防ぐために修正を加えることができます。

モデルに含まれるエンティティ データに季節パターンがある場合は、季節に基づいてモデルを再トレーニングする必要があります。たとえば、ホリデー シーズン中の支出の増加に伴い、組織はこの突然のパターンの変化に対処するための特別なモデルを構築する必要があります。

ドリフトを検出する最良の方法は、継続的な監視です。モデルの安定性に関連するメトリックは、継続的な時間間隔で監視する必要があります。分野やビジネスに応じて、この間隔は 1 週間、1 か月、四半期などになります。監視モードは手動でも、突然の異常が観察されたときにアラートや通知をトリガーする自動スクリプトでもかまいません。

やっと

哲学者ヘラクレイトスの有名な言葉に「変化だけが唯一不変である」というものがあります。こうした変化を受け入れ、監視する準備ができている組織は、必ず成功するでしょう。

<<:  TFとPyTorchだけを知っているだけでは不十分です。PyTorchから自動微分ツールJAXに切り替える方法を見てみましょう。

>>:  ドローンは諸刃の剣でしょうか?それでは5Gを追加した後をご覧ください!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

知っておくべき10の機械学習アルゴリズム

機械学習は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論など、多くの分野が関わる多分野にわ...

アルゴリズムエンジニアの日常生活において、トレーニングされたモデルが失敗した場合はどうすればよいでしょうか?

[[353013]]みなさんこんにちは。今日は職場でのアルゴリズム エンジニアの日常生活、つまりモ...

生成 AI を構築するか、購入するか?

テキスト、画像、ビデオ、またはおそらく複数のモデルとサービスの組み合わせであっても、生成 AI を活...

人工知能は大きな進歩を遂げ、意識の認識が実現した

参加者が50の文章を話している間に神経活動が収集されました。機械学習アルゴリズムは、収集されたデータ...

インダストリー4.0: ロボットがやってくる

Robotics as a Service は、産業用 IoT (IIOT) 内でますます注目を集め...

ドローンのアフターサービス市場の改善が必要

最近、ニュースの表紙でドローンが人を負傷させたというニュースが報道され、ネットワーク全体の注目を集め...

...

2020 年にチャットボットはどこに向かうのでしょうか?

チャットボットはかつて大々的に宣伝された期待に応えようとしており、Intercom が委託した新しい...

AIOps に関する 6 つの誤解とその説明

[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...

大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間...

...

「半導体第一の都市」上海、ついに半導体製造再開の夜明けを迎える

上海市経済情報化委員会は4月16日、「上海市工業企業の業務・生産再開に関する防疫対策ガイドライン(第...

第14次5カ年計画期間中、我が国のドローン産業の発展はますます明確になりました

[[421133]]ドローン産業の発展レベルは、国の軍事力、科学技術革新、製造レベルを測る重要な指標...

人間を機械に置き換える流れはますます激しくなっており、この2つの発展点は無視できません。

近年、伝統産業の変革の要求が継続的に解放されるにつれて、人間を機械に置き換えることが重要なトレンドに...

トレンディで無料! 2024 年に持つ価値のある 8 つの「チート」ツール!

編纂者:Xing Xuan企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat...