機械学習プロジェクトが失敗する9つの理由

機械学習プロジェクトが失敗する9つの理由

この記事では、データ サイエンス プロジェクトが失敗する最も一般的な理由をまとめ、落とし穴を回避するのに役立つことを願っています。

[[240030]]

1. 間違った質問をする

間違った質問をすると、間違った答えが返ってきます。たとえば、金融業界における詐欺の識別の問題では、最初に「この特定の取引は詐欺的か?」という疑問が生じる可能性があります。これを判断するには、不正な取引と不正でない取引の例を含むデータセットが必要になります。このデータセットは、詐欺の検出を専門とする専門家グループ (SME) の協力を得て生成できます。しかし、専門家は過去の不正行為に関する知識に基づいて不正行為にラベルを付けたため、データセットでトレーニングされたモデルは古いパターンに適合する不正行為のみを捕捉し、新たな不正行為の手法を識別することができませんでした。質問が「このトランザクションは異常ですか?」に変更されると、「通常の」署名と一致しないトランザクションを探すだけでよく、予測された不正なトランザクションをさらに分析してモデルの結果を検証するのは人間に頼ることになります。しかし、このアプローチの副作用は、以前のモデルよりも誤検知が多くなる可能性があることです。

2. 間違った問題を解決するためにそれを使おうとする

私たちはしばしば問題を見落とします。問題を解決するために多大な労力を費やしますが、解決した後、目標を達成できるでしょうか?たとえば、人工知能を使用して、人の全身写真をウェブサイトにアップロードし、リマインダーに基づいて適切な服のセットを仕立てることができるプロジェクトを開発するというアイデアを思いつきました。このプロジェクトを完了するには、次のタスクを完了する必要があります。

写真の身体寸法を判定する AI/ML テクノロジーを開発します。

·顧客とやり取りするためのウェブサイトとモバイルアプリを設計および作成します。

この製品の市場があるかどうかを判断するために実現可能性調査を実施します。

技術者として、私たちは製品の設計とコーディングに最も精通しているので、最初の 2 つのタスクの調査を開始することをお勧めします。最初の 2 つのタスクを実行した後に実現可能性調査を実施し、その結果、自社製品の市場が存在しないことが判明したら、大変なことになります。

3. データが不十分

一部のデータは非常に機密性が高く、厳重に保護されています。そのため、アクセスが厳しく制限され、関連データを取得できない場合があります。

たとえば、ライフ サイエンス分野に関連する一部のプロジェクトでは、ライフ サイエンス業界は保護された健康情報 (PHI) の保存と送信について非常に敏感であるため、利用可能なデータ セットのほとんどからこの情報が削除されます。たとえば、ミシシッピ州の人々はコネチカット州の人々よりも糖尿病になる可能性が高いです。ただし、この情報は入手できない可能性があるため、使用することはできません。

4. 適切なデータがない

たとえ優れたモデルを持っていたとしても、不良データや欠陥のあるデータを使用すると、予測が不正確になる可能性があります。教師あり学習では、事前にラベル付けされたデータを使用しますが、このようなラベル付けは通常人間によって行われるため、多少の誤りが生じる可能性があります。極端な例として、人間による画像のラベル付けが 100% 正確である MINIST データセットなど、不正確なデータを使用して、完全な精度を持つモデルを想像してください。さて、数字の 3 分の 1 が誤ってラベル付けされていると仮定します。古い格言にあるように、ゴミを入れればゴミが出てくることになります。

5. データが多すぎる

理論上は、大量のデータは必要ありません (適切なデータである限り)。実際には、ストレージやコンピューティングのコストとパフォーマンスが大幅に向上したとしても、時間と空間の物理的な制約によって制限されてしまいます。したがって、データ サイエンティストの最も重要な仕事の 1 つは、正確なモデル予測の達成に影響を与えると思われるデータ ソースを賢明に選択することです。たとえば、赤ちゃんの出生体重を予測するなどです。それは母親の年齢と住んでいる場所に関係しているようですが、名前とは関係ないと思われます。この場合、無関係なデータを識別して削除するには、人間の介入が必要になります。モデルを実行する前にどの要素が関連しているかを判断することは、データ サイエンス プロジェクトを台無しにする可能性のある潜在的な落とし穴のままです。

6. 不適切な人材の採用

データ サイエンスの業務が小規模な場合は、すべてのタスクを実行するために 1 人または少数の人に依存するしか選択肢がない場合があります。ただし、チームが拡大するにつれて、各タスクの専門家を雇うことを検討する必要があります。特にバイオテクノロジーや金融などの業界では、専門的なドメイン知識を持つことは非常に価値があり、非常に重要です。優れたコミュニケーションスキルを持つ主題専門家 (SME) とデータ サイエンティストを配置することも重要です。チームが成長し続けるにつれて、適切なリソースと人材プールを持つことが、業務の成功にとって最も重要な要素の 1 つになります。

7. 間違ったツールの使用

例を見てみましょう。最近、MySQL のトレーニングのためにチームを派遣し、彼らが戻ってきたときに分析パイプラインを設定する必要があるとします。彼らの心は再訓練されたので、彼らは新しいツールを使うことを提案します。ただし、パイプラインが処理するデータの量と、結果に対して実行する必要がある分析の量によっては、この選択がジョブにとって不適切な選択となる可能性があります。多くの SQL 製品では、単一のテーブルに保存できるデータの量に厳しい制限があります。この場合、MongoDB のような NoSQL 製品、または AWS Redshift のような拡張性に優れた列指向データベースを使用する方がよい選択肢となる可能性があります。

8. 適切なモデルがない

「No Free Lunch」(NFL)は数学における有名な定理です。すべての問題を解決できる単一のモデルは存在しないことを指摘しています。たとえば、マーケティング アプリケーションでは、顧客の電子メールや住所などの属性を保持することが重要になる場合があります。医療現場では、患者の身長、体重、血液型がより重要になる場合があります。これは、ある状況ではうまく機能するモデルが、別の状況ではうまく機能しない可能性があることを示唆しています。したがって、データ サイエンスでは、複数のモデルを繰り返し使用して、特定の状況に最適なモデルを見つけるのが一般的です。これは特に教師あり学習に当てはまります。検証またはクロス検証は、さまざまな複雑さの複数のモデルの精度を評価して、最も適切なモデルを見つけるためによく使用されます。さらに、さまざまなアルゴリズムを使用して効率的なモデルをトレーニングできます。たとえば、線形回帰は正規方程式 (線形最小二乗法) または勾配降下法を使用してトレーニングできます。

9. 適切なスケールがない

機械学習では、トレーニングデータとテストデータに基づいてモデルのパフォーマンスを測定することが非常に重要です。この情報は、使用するモデルとハイパーパラメータを選択し、モデルが本番環境で使用できる状態であるかどうかを判断するために使用されます。モデルのパフォーマンスを測定するには、現在のタスクに最適な評価メトリックを選択することが最も重要です。

メトリックの選択については多くの文献があるので、ここでは詳しく説明しません。ただし、メトリックを選択する際に留意すべきパラメータをいくつか示します。

機械学習の問題の種類: 教師あり学習、教師なし学習、強化学習。

教師あり学習のタイプ: バイナリ、分類、または回帰。

データセットの種類: データセットのバランスが取れていない場合は、別のメトリックの方が適切な場合があります。

この記事は北京郵電大学のAlibaba Cloud Yunqi Communityによって翻訳されました。

<<:  AI は清華大学の博士号取得者がラップの歌詞を書くのを手伝い、次のレベルに進みました。AI はクロストークを行うことができるのでしょうか?

>>:  ディープラーニングとデータセンターの関係

ブログ    
ブログ    
ブログ    

推薦する

人工知能が将来経験する7つの段階

2030年までに、人工知能のおかげで世界のGDPは15.7兆ドル増加するでしょう。企業の 84% は...

AIは「気質」に基づいて赤ちゃんの年齢と性別を正確に識別できる

PLOS ONE に掲載された新しい研究では、機械学習を使用して 4,438 人の乳児の「気質」デー...

...

ビッグデータに責任を負わせないでください。スモールデータをうまく活用する方が効果的かもしれません。

誰もがビッグ データについて語っていますが、大規模なデータ セットを処理するにはより多くのストレージ...

私たちは人工知能によってどのように制御されているのでしょうか?

1970 年 11 月のライフ誌のインタビューで、ミンスキーは次のように警告しました。「コンピュー...

人工知能技術が英語学習にどのように役立つかについての簡単な議論

人工知能技術は私たちの日常の仕事、勉強、生活に溶け込み、静かに社会生活を変えています。人工知能技術は...

2つのセッションが始まります!自動運転とスマートカーに関する最新の提案13選

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能がソフトウェアテストに混乱をもたらす4つの方法

ソフトウェアテストにおける人工知能の使用はますます一般的になりつつあり、それには十分な理由があります...

チューリング賞受賞者ヨシュア・ベンジオ氏:生成フローネットワークがディープラーニングの分野を拡大

最近、「GFlowNet Foundations」と題された論文が注目を集めています。これはチューリ...

AIが独自に病気を診断できる場合、人間の医師は責任を回避できるのでしょうか?

健康診断のために病院に行くところを想像してください。診察室に入るとすぐに、看護師があなたの写真を撮り...

今後5年間の15の主要なテクノロジートレンド

私たちの生活、仕事、交流の仕方に革命をもたらす技術の進歩によって、未来は常に形を変えています。今後 ...

DeepMind: 人工知能と神経科学を組み合わせて好循環を実現

最近の人工知能の進歩は目覚ましいものがあります。人工システムは、アタリのビデオゲーム、古代のボードゲ...

ディープラーニングで構造化データを処理するにはどうすればよいですか?

この投稿では、ディープラーニングのあまり知られていない応用分野である構造化データに焦点を当てます。こ...

2021年も人気が続く5種類のロボット

ロボットは長年にわたり開発され、無人運転の需要が継続的に解放され、主要なコア技術が継続的に進歩するに...

国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

中国語と英語のバイリンガル音声対話の最初のオープンソース モデルが登場しました。最近、arXivに音...