今日、機械学習モデルはビジネス上の意思決定の主な原動力となっています。他のビジネス戦略と同様に、これらの機械学習モデルも時間の経過とともに変更する必要があります。その背後にある技術的な理由は「モデルドリフト」です。ほとんどのコース、記事、投稿では機械学習 (ML) ライフサイクル (データの収集から始まり、機械学習モデルのデプロイで終わる) について説明していますが、ML ライフサイクルの非常に重要な特性であるモデルドリフトについて忘れられていることがよくあります。 モデルドリフトの本質は、ターゲット変数と独立変数の関係が時間の経過とともに変化することです。このドリフトにより、モデルは不安定になり、予測は時間の経過とともに一貫して間違ったものになります。 ドリフトタイプ モデルドリフトは 2 つの主要なカテゴリに分けられます。 1 つ目は「コンセプトドリフト」と呼ばれます。これは、ターゲット変数自体の統計特性が変化した場合に発生します。当然のことながら、予測しようとしている変数の意味が変わった場合、更新された定義ではモデルはうまく機能しなくなります。 2番目で最も一般的なのは「データドリフト」です。これは、予測変数の統計特性が変化するときに発生します。同様に、基礎となる変数が変化すると、モデルは必ず失敗します。これが起こる典型的な例は、季節性によりデータのパターンが変化する場合です。夏に機能するビジネスモデルが何であれ、冬には機能しない可能性があります。休暇期間中は航空便の需要が急増するが、航空会社はオフシーズン中の旅客輸送量を維持するのに苦労している。もう 1 つの例として、個人の好みが変わると、ショッピング データも変わります。 どうすれば解決できるでしょうか? この問題を解決する最善の方法は、モデルを継続的に再調整することです。過去の経験に基づいて、モデルドリフトの開始を推定できます。これを基に、機械学習モデルを再開発して、ドリフトによって生じるリスクを軽減することもできます。 データの重みは、データが時間の経過とともに変化する状況に適しています。たとえば、最近のトランザクションは、最近のトランザクションに重みを付け、過去のトランザクションに重みを少なくする機械学習モデルの機能を決定するために使用できます。これにより、機械学習モデルの堅牢性が保証されるだけでなく、ドリフトに関連する潜在的な問題を回避するのにも役立ちます。 モデルドリフトに対処するためのより洗練されたアプローチは、変更自体をモデル化することです。最初に開発されたモデルは静的に保たれ、ベースラインとして機能しました。最近の取引データの動作の変化に基づいて、新しい機械学習モデルを構築し、このベースライン モデルの予測を修正できます。 モデルをどのくらいの頻度で再トレーニングする必要がありますか? 最も一般的な解決策はモデルの継続的な再トレーニングであることがわかりましたが、次に疑問が生じます。これはどのくらいの頻度で行う必要があるのでしょうか。これには複数の解決策があり、それぞれ状況によって異なります。 問題が発生するのを待つのは最善のアプローチではありませんが、新しいモデルに関してはそれが唯一の選択肢です。問題が発生した場合は、それを調査し、将来的に問題が発生するのを防ぐために修正を加えることができます。 モデルに含まれるエンティティ データに季節パターンがある場合は、季節に基づいてモデルを再トレーニングする必要があります。たとえば、ホリデー シーズン中の支出の増加に伴い、組織はこの突然のパターンの変化に対処するための特別なモデルを構築する必要があります。 ドリフトを検出する最良の方法は、継続的な監視です。モデルの安定性に関連するメトリックは、継続的な時間間隔で監視する必要があります。分野やビジネスに応じて、この間隔は 1 週間、1 か月、四半期などになります。監視モードは手動でも、突然の異常が観察されたときにアラートや通知をトリガーする自動スクリプトでもかまいません。 やっと 哲学者ヘラクレイトスの有名な言葉に「変化だけが唯一不変である」というものがあります。こうした変化を受け入れ、監視する準備ができている組織は、必ず成功するでしょう。 |
<<: TFとPyTorchだけを知っているだけでは不十分です。PyTorchから自動微分ツールJAXに切り替える方法を見てみましょう。
>>: ドローンは諸刃の剣でしょうか?それでは5Gを追加した後をご覧ください!
企業がクラウド管理について考えるとき、主にパフォーマンスの監視、セキュリティの維持、コンプライアンス...
導入CART は C4.5 に似ており、決定木アルゴリズムの一種です。さらに、一般的な決定木アルゴリ...
人々の印象では、AIは「多数派」に属する技術カテゴリーであると私は信じています。いわゆる多数とは、第...
最近、世界をリードするインテリジェント金融検索エンジンであるHubo Technologyが「201...
ChatGPT の 1 周年に、OpenAI は公式発表を行いました: Sam Altman が O...
近年、画像生成技術は多くの重要な進歩を遂げました。特に、DALLE2やStable Diffusio...
これは、Synced の年末総集編「AI の失敗」の第 4 弾です。私たちの目標は、AI 研究を非難...
[[231600]]無人スーパー、無人運転…これらはもう珍しいことではない「無人銀行」って聞いたこと...
[[429689]]この記事は、ハーパー氏が執筆したWeChatパブリックアカウント「データとイン...
著者: Yajie Yingliang、Chen Long 他導入美団のフードデリバリー事業が成長を...
ドローンの市場、入手可能性、需要が長年にわたってどのように増加してきたかを学びます。映画の架空の世界...
6 つの一般的なソート アルゴリズムの GIF アニメーションがあり、ソートの考え方をより簡単に理解...
AI は近い将来、IT リーダーにとって最優先事項となる可能性が高いものの、レポートでは、世界中で経...