機械学習プロジェクトが失敗する9つの理由

機械学習プロジェクトが失敗する9つの理由

この記事では、データ サイエンス プロジェクトが失敗する最も一般的な理由をまとめ、落とし穴を回避するのに役立つことを願っています。

[[240030]]

1. 間違った質問をする

間違った質問をすると、間違った答えが返ってきます。たとえば、金融業界における詐欺の識別の問題では、最初に「この特定の取引は詐欺的か?」という疑問が生じる可能性があります。これを判断するには、不正な取引と不正でない取引の例を含むデータセットが必要になります。このデータセットは、詐欺の検出を専門とする専門家グループ (SME) の協力を得て生成できます。しかし、専門家は過去の不正行為に関する知識に基づいて不正行為にラベルを付けたため、データセットでトレーニングされたモデルは古いパターンに適合する不正行為のみを捕捉し、新たな不正行為の手法を識別することができませんでした。質問が「このトランザクションは異常ですか?」に変更されると、「通常の」署名と一致しないトランザクションを探すだけでよく、予測された不正なトランザクションをさらに分析してモデルの結果を検証するのは人間に頼ることになります。しかし、このアプローチの副作用は、以前のモデルよりも誤検知が多くなる可能性があることです。

2. 間違った問題を解決するためにそれを使おうとする

私たちはしばしば問題を見落とします。問題を解決するために多大な労力を費やしますが、解決した後、目標を達成できるでしょうか?たとえば、人工知能を使用して、人の全身写真をウェブサイトにアップロードし、リマインダーに基づいて適切な服のセットを仕立てることができるプロジェクトを開発するというアイデアを思いつきました。このプロジェクトを完了するには、次のタスクを完了する必要があります。

写真の身体寸法を判定する AI/ML テクノロジーを開発します。

·顧客とやり取りするためのウェブサイトとモバイルアプリを設計および作成します。

この製品の市場があるかどうかを判断するために実現可能性調査を実施します。

技術者として、私たちは製品の設計とコーディングに最も精通しているので、最初の 2 つのタスクの調査を開始することをお勧めします。最初の 2 つのタスクを実行した後に実現可能性調査を実施し、その結果、自社製品の市場が存在しないことが判明したら、大変なことになります。

3. データが不十分

一部のデータは非常に機密性が高く、厳重に保護されています。そのため、アクセスが厳しく制限され、関連データを取得できない場合があります。

たとえば、ライフ サイエンス分野に関連する一部のプロジェクトでは、ライフ サイエンス業界は保護された健康情報 (PHI) の保存と送信について非常に敏感であるため、利用可能なデータ セットのほとんどからこの情報が削除されます。たとえば、ミシシッピ州の人々はコネチカット州の人々よりも糖尿病になる可能性が高いです。ただし、この情報は入手できない可能性があるため、使用することはできません。

4. 適切なデータがない

たとえ優れたモデルを持っていたとしても、不良データや欠陥のあるデータを使用すると、予測が不正確になる可能性があります。教師あり学習では、事前にラベル付けされたデータを使用しますが、このようなラベル付けは通常人間によって行われるため、多少の誤りが生じる可能性があります。極端な例として、人間による画像のラベル付けが 100% 正確である MINIST データセットなど、不正確なデータを使用して、完全な精度を持つモデルを想像してください。さて、数字の 3 分の 1 が誤ってラベル付けされていると仮定します。古い格言にあるように、ゴミを入れればゴミが出てくることになります。

5. データが多すぎる

理論上は、大量のデータは必要ありません (適切なデータである限り)。実際には、ストレージやコンピューティングのコストとパフォーマンスが大幅に向上したとしても、時間と空間の物理的な制約によって制限されてしまいます。したがって、データ サイエンティストの最も重要な仕事の 1 つは、正確なモデル予測の達成に影響を与えると思われるデータ ソースを賢明に選択することです。たとえば、赤ちゃんの出生体重を予測するなどです。それは母親の年齢と住んでいる場所に関係しているようですが、名前とは関係ないと思われます。この場合、無関係なデータを識別して削除するには、人間の介入が必要になります。モデルを実行する前にどの要素が関連しているかを判断することは、データ サイエンス プロジェクトを台無しにする可能性のある潜在的な落とし穴のままです。

6. 不適切な人材の採用

データ サイエンスの業務が小規模な場合は、すべてのタスクを実行するために 1 人または少数の人に依存するしか選択肢がない場合があります。ただし、チームが拡大するにつれて、各タスクの専門家を雇うことを検討する必要があります。特にバイオテクノロジーや金融などの業界では、専門的なドメイン知識を持つことは非常に価値があり、非常に重要です。優れたコミュニケーションスキルを持つ主題専門家 (SME) とデータ サイエンティストを配置することも重要です。チームが成長し続けるにつれて、適切なリソースと人材プールを持つことが、業務の成功にとって最も重要な要素の 1 つになります。

7. 間違ったツールの使用

例を見てみましょう。最近、MySQL のトレーニングのためにチームを派遣し、彼らが戻ってきたときに分析パイプラインを設定する必要があるとします。彼らの心は再訓練されたので、彼らは新しいツールを使うことを提案します。ただし、パイプラインが処理するデータの量と、結果に対して実行する必要がある分析の量によっては、この選択がジョブにとって不適切な選択となる可能性があります。多くの SQL 製品では、単一のテーブルに保存できるデータの量に厳しい制限があります。この場合、MongoDB のような NoSQL 製品、または AWS Redshift のような拡張性に優れた列指向データベースを使用する方がよい選択肢となる可能性があります。

8. 適切なモデルがない

「No Free Lunch」(NFL)は数学における有名な定理です。すべての問題を解決できる単一のモデルは存在しないことを指摘しています。たとえば、マーケティング アプリケーションでは、顧客の電子メールや住所などの属性を保持することが重要になる場合があります。医療現場では、患者の身長、体重、血液型がより重要になる場合があります。これは、ある状況ではうまく機能するモデルが、別の状況ではうまく機能しない可能性があることを示唆しています。したがって、データ サイエンスでは、複数のモデルを繰り返し使用して、特定の状況に最適なモデルを見つけるのが一般的です。これは特に教師あり学習に当てはまります。検証またはクロス検証は、さまざまな複雑さの複数のモデルの精度を評価して、最も適切なモデルを見つけるためによく使用されます。さらに、さまざまなアルゴリズムを使用して効率的なモデルをトレーニングできます。たとえば、線形回帰は正規方程式 (線形最小二乗法) または勾配降下法を使用してトレーニングできます。

9. 適切なスケールがない

機械学習では、トレーニングデータとテストデータに基づいてモデルのパフォーマンスを測定することが非常に重要です。この情報は、使用するモデルとハイパーパラメータを選択し、モデルが本番環境で使用できる状態であるかどうかを判断するために使用されます。モデルのパフォーマンスを測定するには、現在のタスクに最適な評価メトリックを選択することが最も重要です。

メトリックの選択については多くの文献があるので、ここでは詳しく説明しません。ただし、メトリックを選択する際に留意すべきパラメータをいくつか示します。

機械学習の問題の種類: 教師あり学習、教師なし学習、強化学習。

教師あり学習のタイプ: バイナリ、分類、または回帰。

データセットの種類: データセットのバランスが取れていない場合は、別のメトリックの方が適切な場合があります。

この記事は北京郵電大学のAlibaba Cloud Yunqi Communityによって翻訳されました。

<<:  AI は清華大学の博士号取得者がラップの歌詞を書くのを手伝い、次のレベルに進みました。AI はクロストークを行うことができるのでしょうか?

>>:  ディープラーニングとデータセンターの関係

ブログ    

推薦する

...

...

AIとブロックチェーンが壊れたサプライチェーンを修復する方法

2020年にコロナウイルス危機が発生した際、医療上の緊急事態に伴って、特に一部の医療機器に関して深刻...

...

ロボット工学と自動化の台頭:スマートホームセキュリティの変革

スマートホーム セキュリティに関しては、テクノロジーは最先端技術を駆使し、住宅の保護方法に革命をもた...

...

グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる

普遍的なグラフモデルはありますか?分子構造に基づいて毒性を予測するだけでなく、ソーシャル ネットワー...

Java プログラミング スキル - データ構造とアルゴリズム「マージ ソート」

[[393503]]基本的な紹介マージソートは、マージの考え方を使用するソート方法です。このアルゴ...

10年後にあなたの生活を変える5つの新しいテクノロジー

脳制御のコンピューターからホログラフィック ビデオ ゲームまで、今後 10 年間であなたの生活を変え...

AutoXの完全無人タクシーが試験運用のため正式に一般公開

1月28日、深センの大手自動運転企業AutoXは自動運転の新たな段階に入り、平山区に中国初の完全自動...

いくつかの小さな図でディープラーニングを徹底的に説明します

Andrew Ng 氏は、Tess Ferrandez 氏が修了したディープラーニング特別コースのイ...

ChatGPT を使用して HR を強化するにはどうすればよいでしょうか?

------01------人事担当者としては、日々さまざまな採用情報を発信する必要があります。以...

AI時代におけるコンピュータのマクロ的な意義について語る

実際、私たち人間は、そのようなことを心配する必要はありません。科学者は、人工知能が人間の脳のレベルに...

GitHub のホット プロジェクト: 実稼働レベルのディープラーニング プロジェクトを構築するには?

ディープラーニング モデルを本番環境に導入することは、優れたパフォーマンスのモデルをトレーニングする...