機械学習における 5 つの現実的な問題とビジネスへの影響

今日、多くの企業は大量のデータを迅速に処理する必要があります。同時に、競争環境は急速に進化しているため、企業が迅速に意思決定を行うことが重要です。

ベストセラーの経営管理書『Fast Fish Eat Slow Fish』の著者であるジェイソン・ジェニングスとローレンス・ホートンはこう述べています。「今日の市場競争は、大きな魚が小さな魚を食べることではなく、速い魚が遅い魚を食べることです。」

企業のビジネス上の成功は、より良い情報に基づいて迅速に意思決定を行うことにかかっており、機械学習はこれに重要な役割を果たします。企業が顧客に提案をしたり、製造プロセスを改善したり、市場の変化を予測したりする場合でも、機械学習は大量のデータを処理して、競争上の優位性を追求する企業をより適切にサポートするのに役立ちます。

[[335124]]

しかし、機械学習によってもたらされる大きな機会にもかかわらず、いくつかの課題が残っています。機械学習システムは大量のデータと複雑な計算を実行する能力に依存しているため、企業は顧客の期待の変化や予期しない市場変動などの外部要因に応じて機械学習モデルを監視および維持する必要があります。

さらに、機械学習では解決する必要がある実用的な問題がいくつかあります。以下では、5 つの重要な実際的な問題とそれらがビジネスに与える影響について検討します。

1. データの品質

機械学習システムの適用には大量のデータが必要です。これらのデータは、特徴とラベルの 2 つのカテゴリに大まかに分類できます。

特徴は機械学習モデルへのデータ入力です。このデータは、センサー、顧客調査、Web サイトの Cookie、履歴情報からのデータである可能性があります。

これらのプロパティの結果は変更可能です。たとえば、顧客がアンケートに間違って記入したり、まったく記入しなかったり、センサーが誤動作して誤ったデータを送信したり、Web サイトの Cookie が Web サイト上でのユーザーの特定の操作に関する不完全な情報を提供したりする場合があります。したがって、モデルを正しくトレーニングするには、データセットの品質が重要です。

データには役に立たない情報が満載されている可能性があり、機械学習モデルが誤った予測を行う可能性があります。

機械学習モデルの出力はラベルです。ラベルのスパース性も問題であり、ユーザーはシステムへの入力はわかっていても、出力が何であるかはわからない場合があります。この場合、モデルの機能とラベルの関係を検出することは非常に困難になる可能性があります。ラベルを入力に関連付けるには人間の介入が必要になるため、これは労働集約的になる可能性があります。

入力と出力の正確なマッピングがないと、モデルは入力と出力の正しい関係を学習できない可能性があります。機械学習は、入力データと出力データの関係性を利用して一般化を行い、予測を立てたり、将来のアクションに関する推奨事項を提供したりします。入力データが乱雑、不完全、または誤りがある場合、特定の出力またはラベルが発生した理由を理解するのが困難になる可能性があります。

2. 複雑さと品質のトレードオフ

強力な機械学習モデルを構築するには、特徴とラベルを処理するために大量のコンピューティングリソースが必要です。複雑なモデルをコーディングするには、データサイエンティストとソフトウェアエンジニアの多大な労力が必要です。複雑なモデルを実行するには多大な計算能力が必要になる場合があり、使用可能な結果を生成するまでに時間がかかることがあります。

これは企業にとってトレードオフです。より速く応答することを選択できますが、精度は低くなる可能性があります。あるいは、応答が遅くてもモデルからより正確な結果を得ることができます。ただし、妥協することは悪いことではありません。応答速度を上げるか、コストを高くしてモデルをより正確にするかの決定は、ユースケースによって異なります。

たとえば、小売ショッピング Web サイトで買い物客に推奨事項を提示するには、リアルタイムの応答が必要ですが、結果を予測するのは難しい場合があります。一方、株式取引システムではより信頼性の高い結果が求められます。したがって、リアルタイムの結果が必要ない場合は、より多くのデータを使用し、より多くの計算を実行するモデルの方が、より良い結果が得られる可能性があります。

機械学習サービス (MLaaS) の提供が市場に参入するにつれて、複雑さと品質のトレードオフがさらに注目されるようになります。シカゴ大学の研究者は、サービスとしての機械学習 (MLaaS) の有効性を研究し、分類器や特徴選択などの重要な決定について十分な知識があれば、スタンドアロンの分類器に匹敵する結果を達成できることを発見しました。

3. データのサンプリングバイアス

多くの企業は、従業員の採用を支援するために機械学習アルゴリズムを使用しています。たとえば、Amazon は、企業が求職者を選ぶ際に使用するアルゴリズムに偏りがあることを発見しました。さらに、プリンストン大学の研究者らは、一部の人工知能システムではヨーロッパ出身の応募者が優遇されていることを発見した。これは、アルゴリズムが人間的な偏見を生み出したことを示唆している。

ここでの問題は、モデルそのものにあるのではなく、モデルのトレーニングに使用されるデータに独自のバイアスがあることです。ただし、データに偏りがあることがわかっている場合は、その偏りを排除したり、データの重みを減らしたりするために使用できる方法があります。

最初の課題は、データに固有の偏りがあるかどうかを判断することです。これは何らかの前処理を意味します。データ内の偏りをすべて排除することはできないかもしれませんが、人間の介入によってその影響を最小限に抑えることはできます。

場合によっては、データ内の特徴の数を制限する必要があるかもしれません。たとえば、人種や性別などの特性を無視すると、偏ったデータがモデルの結果に与える影響を制限するのに役立ちます。

4. 期待の変化とコンセプトのドリフト

機械学習モデルは特定のシナリオで動作します。たとえば、小売業者の推奨エンジンを動かす機械学習モデルは、顧客が特定の商品を閲覧した特定の時間に実行されます。ただし、顧客のニーズは時間とともに変化するため、機械学習モデルは当初設計されたものから逸脱する可能性があります。

モデルはさまざまな理由で劣化する可能性があります。新しいデータがモデルに導入されると、ドリフトが発生する可能性があります。これをデータドリフトと呼びます。また、データに対する人々の解釈が変わった場合にも発生する可能性があります。これは概念の逸脱です。

このドリフトに対応するために、企業は入ってくるデータを使用して継続的に更新し、改善できるモデルを必要とします。つまり、企業はモデルを常にチェックする必要があるということです。

これには、多数の特徴とラベルを収集し、変更に対応してモデルを更新および再トレーニングできるようにする必要があります。再トレーニングの一部は自動化できますが、ある程度は人間の介入が必要です。機械学習ツールの導入は一度限りの活動ではないことを認識することが重要です。

さらに、エンタープライズ機械学習ツールは、関連性を維持し、価値を提供し続けるために、定期的なレビューと更新が必要です。

5. 監視とメンテナンス

モデルの作成は簡単で、自動化できます。ただし、モデルの維持と更新には計画とリソースが必要です。

機械学習モデルは、モデルのトレーニングに使用される機能から始まるパイプラインの一部です。次に、モデル自体があります。これは、継続的に変更および更新する必要があるソフトウェアです。入力結果がモデルによって認識され使用されるように、モデルにはラベルが必要です。モデルとシステム内で結果として得られる信号の間に切断が生じる可能性があります。

多くの場合、配送結果が予想外だった場合、機械学習に問題がない場合は、サプライチェーン内の他の部分に問題がある可能性があります。たとえば、レコメンデーションエンジンが顧客に製品を提供したとしても、販売システムとレコメンデーション間の接続が切断され、エラーを見つけるのに時間がかかることがあります。この場合、モデルの推奨が成功したかどうかを判断することは困難です。この種の問題のトラブルシューティングには、かなりの労力がかかります。

機械学習テクノロジーは企業に多大なメリットをもたらします。将来の結果を予測して顧客の行動に影響を与え、ビジネス運営をサポートする能力は非常に強力です。しかし、機械学習を導入すると、企業にとって課題も生じます。組織はこれらの課題を認識し、ソリューションを開発することで、課題に対処する準備と能力を確保し、機械学習テクノロジーを最大限に活用できるようになります。

<<: 顔認識が再び禁止される：プライバシーと偏見をめぐる論争は続く米国の別の州が顔認識ソフトウェアを禁止

>>: 3D特殊効果アーティストはもう家に帰れる丨科学