機械学習チューナー: 機械学習を再調整する方法とタイミング

機械学習チューナー: 機械学習を再調整する方法とタイミング

[[329534]]

古代ギリシャの哲学者ヘラクレイトスはこう言いました。「唯一不変なものは変化である。」時間には揺るぎない力があります。概念も、社会も、人間自身も、時間とともに大きく変化していきます。

過去に先進的だったものは現在では時代遅れになり、今日斬新なアイデアも数年後には忘れ去られているかもしれません。変化を理解することは企業にとって重要です。

15年前、携帯電話製造会社がスマートフォンの開発に乗り出さなかったら、生き残ることは可能だったでしょうか? 携帯電話製造会社はほぼすべて市場から姿を消していました。かつてはシンプルな携帯電話を所有するのが当たり前だったが、人々のニーズはすぐにスマートフォンに移り、適応できなかった企業はその代償を払うこととなった。

データ分析は徐々に世界で優位になり始めており、機械学習モデルは企業の意思決定を促進する主力となっています。これらのモデルは、すべてのビジネス戦略と同様に、技術的には「モデルドリフト」により、時間の経過とともに調整する必要があります。

「モデルドリフト」とは何ですか?

ほとんどのコース、記事、投稿では、データの収集から始まり、さまざまな環境での機械学習モデルの展開で終わる機械学習ライフサイクルを定義していますが、機械学習ライフサイクルの非常に重要な特性であるモデルドリフトを忘れる人は少なくありません。

本質的には、ターゲット変数と独立変数の関係は時間の経過とともに変化します。モデルドリフトにより、モデルを安定させることが不可能になり、予想されるエラーが徐々に深刻化します。

単純な線形回帰を使用して、技術的な観点からこれを理解してみましょう。線形回帰では、独立変数 x_i をマッピングしてターゲット変数 y を予測するだけです。

y = α + β_1*x_1 + β_2*x_2+ β_3*x_3 + …

ここで、α は切片であり、β_i は変数 x_i の係数に対応します。

通常、このマッピングは静的であると想定されます。つまり、係数 β_i (および切片 α) は時間の経過とともに変化せず、ターゲット変数 y の予測を制御する関係は将来のデータに対しても適切に有効であると想定されます。

ただし、この仮定はすべての場合に当てはまるわけではありません。企業の収益性はこのようなモデルに大きく依存しており、仮定が真実でなくなると、企業にとって深刻な脅威となります。

これらのモデルは将来の開発状況を表している可能性があるため、後になって確実に維持できなくなります。予測は、基礎となる条件の変化により、時間の経過とともに精度が低下します。

ドリフトの種類

モデルドリフトは次の 2 つのカテゴリに分けられます。

最初のタイプは「コンセプトドリフト」であり、これはターゲット変数自体の統計特性が変化すると発生します。明らかに、予測しようとしている変数の重要性が変化すると、モデルはこの定義に対して有効ではなくなります。

2 番目で最も一般的なカテゴリは「データ ドリフト」であり、予測の統計特性が変化するときに発生します。同様に、基礎となる変数が変化すると、モデルは無効になります。

典型的な例としては、季節性によるデータ パターンの変化が挙げられます。夏に機能するビジネスモデルは、冬には機能しない可能性があります。休暇期間中は航空需要が大幅に増加しますが、オフシーズン中は搭乗率をかろうじて維持することしかできません。もうひとつの例としては、冒頭で述べたスマートフォンのような人々の嗜好の変化が挙げられます。

どうすれば解決できるでしょうか?

優れた解決策は、モデルを継続的に変更することです。モデルにドリフトが現れ始めると、過去の経験に基づいて推定を行うことができます。この方法では、モデルを積極的に再構築してドリフトのリスクを軽減できます。

データが時間の経過とともに絶えず変化する場合は、データを重み付けすることが適切なオプションです。最近の取引に基づいて特定のパラメータを決定する財務モデルでは、最近の取引を重視し、過去の取引をあまり重視しないなどの機能を追加できます。これにより、モデルの堅牢性が保証されるだけでなく、ドリフトに関連する潜在的な問題を回避するのにも役立ちます。

モデルドリフトに対処するためのより洗練されたアプローチは、変更自体をモデル化することです。最初に開発されたモデルは静的なままで、ベースラインとして機能する必要があります。現在、データの動作が最近変化したため、このベースライン モデルの予測を修正する新しいモデルを構築できます。

モデルはどのくらいの頻度で再調整する必要がありますか?

より一般的な解決策は、モデルを継続的に再調整することであることはすでにわかっています。次の質問は、どのくらいの頻度で再調整する必要があるかということです。これには、特定の問題の特定の分析が必要です。

時々、問題が発生することがあります。問題が発生するのを待つことは最も簡単なアプローチではありませんが、過去の経験から問題がどのように発生するかを知る方法がないため、新しく構築されたモデルの場合はこれが唯一のオプションです。問題が表面化した場合、その問題を調査し、修正することで、将来発生する可能性のある関連する問題に対処することができます。

モデルで処理されるエンティティに関連するデータは、季節的なパターンに従うことがあります。この場合、季節の変化に合わせてモデルを再調整する必要があります。休日の支出が増加するにつれて、信用貸付業者はそのようなパターンの突然の変化に対処するための特別なモデルを必要とします。

ただし、ドリフトを検出する最良の方法は、継続的な監視です。モデルの安定性に関連するメトリックは、継続的な時間間隔で監視する必要があります。間隔は、分野や業務に応じて、1 週間、1 か月、または 1 四半期になります。

監視は手動で行うことも、自動スクリプトによって行うこともできます。異常な状況が発生した場合、自動化されたスクリプトはアラートをトリガーし、通知を送信できる必要があります。

変化は絶え間なく起こるものであり、変化を受け入れて監視する準備ができている企業だけが成功するということを覚えておくことが重要です。

<<:  機械学習を予知保全に適用するにはどうすればよいでしょうか?

>>:  AI の博士号取得者が損益分岐点に達するには、年間どれくらいの給与が必要でしょうか?中国と米国の最高給与は200万を超え、日本はまだ公務員ほど稼いでいない

推薦する

ChatGPTを使用して、書類手続き全体を迅速に完了します

1. 論文のテーマに関する詳細な議論質の高いトピック選択は、トップクラスのジャーナルに論文を掲載する...

このAIは、監視カメラを素早く検索し、重要なシーンを見つけ、24時間のビデオを10分で処理するのに役立ちます。

1月23日のニュース、今日では、ビデオ監視の存在により、過去には検証が困難だった多くの事実を記録す...

長さ 0.3 メートルのロボットが 99 フィートの高さまでジャンプできます。ネイチャー誌が、将来月面に着陸できるジャンプロボットを発表

世の中に不思議なことは何もありません。 「ボリューム」という言葉が最も重要視されるこの時代に、これま...

自然言語処理がヒラリーとトランプの「話し方」を分析

[[173621]]編集者注:現地時間10月9日、米国大統領選挙の2人の候補者による第2回公開討論会...

私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか?

ロボット時代の到来はそう遠くないかもしれない。少し前に、清華大学は「華志兵」という名のヒューマノイド...

...

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手...

ResNetは3Dモデルにも使える。清華大学の「Jitu」チームが新たな研究を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

新しい形の人工知能が登場: AIaaSについてお話しましょう

「サービスとしての」配信モデルの誕生以来、SaaS と PaaS は日常的な技術用語の一部となり、企...

...

GPT-3.5 を選択すべきでしょうか、それとも Llama 2 などのオープンソース モデルを微調整すべきでしょうか?総合的に比較した結果、答えは

GPT-3.5 の微調整には非常にコストがかかることはよく知られています。この論文では、手動で微調整...

コードを知らなくても機械学習を実現できますか?

ローコード プラットフォームは、アプリケーション、統合、およびデータの視覚化の開発の速度と品質を向上...

...

人工知能がスマートホームに加わり、未来が現実になる

[[262824]]スマートシティ建設が国家戦略となり、ハイテクが急速に発展するにつれて、スマートシ...

AIの開発パターンは「データ」から「知識」へと進化している

半世紀以上前に誕生して以来、人工知能(AI)革命は全世界に大きな影響を与えてきました。特に過去10年...