機械学習チューナー: 機械学習を再調整する方法とタイミング

機械学習チューナー: 機械学習を再調整する方法とタイミング

[[329534]]

古代ギリシャの哲学者ヘラクレイトスはこう言いました。「唯一不変なものは変化である。」時間には揺るぎない力があります。概念も、社会も、人間自身も、時間とともに大きく変化していきます。

過去に先進的だったものは現在では時代遅れになり、今日斬新なアイデアも数年後には忘れ去られているかもしれません。変化を理解することは企業にとって重要です。

15年前、携帯電話製造会社がスマートフォンの開発に乗り出さなかったら、生き残ることは可能だったでしょうか? 携帯電話製造会社はほぼすべて市場から姿を消していました。かつてはシンプルな携帯電話を所有するのが当たり前だったが、人々のニーズはすぐにスマートフォンに移り、適応できなかった企業はその代償を払うこととなった。

データ分析は徐々に世界で優位になり始めており、機械学習モデルは企業の意思決定を促進する主力となっています。これらのモデルは、すべてのビジネス戦略と同様に、技術的には「モデルドリフト」により、時間の経過とともに調整する必要があります。

「モデルドリフト」とは何ですか?

ほとんどのコース、記事、投稿では、データの収集から始まり、さまざまな環境での機械学習モデルの展開で終わる機械学習ライフサイクルを定義していますが、機械学習ライフサイクルの非常に重要な特性であるモデルドリフトを忘れる人は少なくありません。

本質的には、ターゲット変数と独立変数の関係は時間の経過とともに変化します。モデルドリフトにより、モデルを安定させることが不可能になり、予想されるエラーが徐々に深刻化します。

単純な線形回帰を使用して、技術的な観点からこれを理解してみましょう。線形回帰では、独立変数 x_i をマッピングしてターゲット変数 y を予測するだけです。

y = α + β_1*x_1 + β_2*x_2+ β_3*x_3 + …

ここで、α は切片であり、β_i は変数 x_i の係数に対応します。

通常、このマッピングは静的であると想定されます。つまり、係数 β_i (および切片 α) は時間の経過とともに変化せず、ターゲット変数 y の予測を制御する関係は将来のデータに対しても適切に有効であると想定されます。

ただし、この仮定はすべての場合に当てはまるわけではありません。企業の収益性はこのようなモデルに大きく依存しており、仮定が真実でなくなると、企業にとって深刻な脅威となります。

これらのモデルは将来の開発状況を表している可能性があるため、後になって確実に維持できなくなります。予測は、基礎となる条件の変化により、時間の経過とともに精度が低下します。

ドリフトの種類

モデルドリフトは次の 2 つのカテゴリに分けられます。

最初のタイプは「コンセプトドリフト」であり、これはターゲット変数自体の統計特性が変化すると発生します。明らかに、予測しようとしている変数の重要性が変化すると、モデルはこの定義に対して有効ではなくなります。

2 番目で最も一般的なカテゴリは「データ ドリフト」であり、予測の統計特性が変化するときに発生します。同様に、基礎となる変数が変化すると、モデルは無効になります。

典型的な例としては、季節性によるデータ パターンの変化が挙げられます。夏に機能するビジネスモデルは、冬には機能しない可能性があります。休暇期間中は航空需要が大幅に増加しますが、オフシーズン中は搭乗率をかろうじて維持することしかできません。もうひとつの例としては、冒頭で述べたスマートフォンのような人々の嗜好の変化が挙げられます。

どうすれば解決できるでしょうか?

優れた解決策は、モデルを継続的に変更することです。モデルにドリフトが現れ始めると、過去の経験に基づいて推定を行うことができます。この方法では、モデルを積極的に再構築してドリフトのリスクを軽減できます。

データが時間の経過とともに絶えず変化する場合は、データを重み付けすることが適切なオプションです。最近の取引に基づいて特定のパラメータを決定する財務モデルでは、最近の取引を重視し、過去の取引をあまり重視しないなどの機能を追加できます。これにより、モデルの堅牢性が保証されるだけでなく、ドリフトに関連する潜在的な問題を回避するのにも役立ちます。

モデルドリフトに対処するためのより洗練されたアプローチは、変更自体をモデル化することです。最初に開発されたモデルは静的なままで、ベースラインとして機能する必要があります。現在、データの動作が最近変化したため、このベースライン モデルの予測を修正する新しいモデルを構築できます。

モデルはどのくらいの頻度で再調整する必要がありますか?

より一般的な解決策は、モデルを継続的に再調整することであることはすでにわかっています。次の質問は、どのくらいの頻度で再調整する必要があるかということです。これには、特定の問題の特定の分析が必要です。

時々、問題が発生することがあります。問題が発生するのを待つことは最も簡単なアプローチではありませんが、過去の経験から問題がどのように発生するかを知る方法がないため、新しく構築されたモデルの場合はこれが唯一のオプションです。問題が表面化した場合、その問題を調査し、修正することで、将来発生する可能性のある関連する問題に対処することができます。

モデルで処理されるエンティティに関連するデータは、季節的なパターンに従うことがあります。この場合、季節の変化に合わせてモデルを再調整する必要があります。休日の支出が増加するにつれて、信用貸付業者はそのようなパターンの突然の変化に対処するための特別なモデルを必要とします。

ただし、ドリフトを検出する最良の方法は、継続的な監視です。モデルの安定性に関連するメトリックは、継続的な時間間隔で監視する必要があります。間隔は、分野や業務に応じて、1 週間、1 か月、または 1 四半期になります。

監視は手動で行うことも、自動スクリプトによって行うこともできます。異常な状況が発生した場合、自動化されたスクリプトはアラートをトリガーし、通知を送信できる必要があります。

変化は絶え間なく起こるものであり、変化を受け入れて監視する準備ができている企業だけが成功するということを覚えておくことが重要です。

<<:  機械学習を予知保全に適用するにはどうすればよいでしょうか?

>>:  AI の博士号取得者が損益分岐点に達するには、年間どれくらいの給与が必要でしょうか?中国と米国の最高給与は200万を超え、日本はまだ公務員ほど稼いでいない

ブログ    

推薦する

スマートシティAIソフトウェア市場は2025年までに700%成長

ビデオ監視はAI導入の注目分野だが、新型コロナウイルス感染症のパンデミックにより、公衆衛生への対応を...

ヘルスケアにおけるロボット工学の新展開

ロボット工学は考えられるあらゆる分野に応用できます。教育、旅行、防衛など、あらゆる分野でロボット工学...

3つの大きな弱点がAIスタートアップへの扉を閉ざしている

先月、投資会社a16zがAIスタートアップが直面する困難を分析した記事を発表しました。AIスタートア...

工業情報化部:電話ネットワークアクセスの物理チャネルに肖像マッチング技術を導入

今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...

美術系の学生は皆AIを崇拝しており、写真はすぐに絵画に描ける

ピエロの写真を入力するだけです。このプログラムは、油絵の肖像画を一筆一筆描いていく画家のようなもので...

...

...

...

人工知能は教育の新たな発展を促進し、これら3つの分野に大きな影響を与えます。

今年の流行語について聞かれたら、「人工知能」という言葉は誰もが知っていると思います。人工知能は多くの...

...

最強のやつでもGPT-4Vに合格できないの?大学入試をベースとしたテストベンチマーク「MMMU」が誕生

GPT-4V と大学生のどちらが良いでしょうか?まだ分​​かりませんが、新しいベンチマーク データセ...

スマート製造:デジタル世界と物理世界の統合

スマート製造:デジタル世界と物理世界の統合自動車業界と製造業界の状況の変化により、サプライ チェーン...

...

ガートナー:2025年までにベンチャーキャピタル投資の75%がAIを活用して意思決定を行うようになる

海外メディアの報道によると、市場調査会社ガートナーは最近、投資家が人工知能やデータ分析技術をますます...