機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習は、最近ニュースでよく耳にする言葉ですが、さらに多くのことを実現する可能性を秘めた技術です。調査会社ガートナーは、多くの組織にとって、人工知能プロジェクトの 80% は依然として成功が難しい錬金術であると予測しています。 VentureBeatが発表した「Transform2019」調査レポートによると、人工知能プロジェクトの87%は実用化されないとのこと。

[[350584]]

なぜこのようなことが起こるのでしょうか? なぜこれほど多くのプロジェクトが失敗するのでしょうか?

1. 専門知識が足りない

理由の 1 つは、機械学習テクノロジーが人々にとってまだ新しいものであることです。さらに、ほとんどの組織は、ソフトウェア ツールや必要なハードウェアについてまだよくわかっていません。

今日では、データ分析やソフトウェア開発に従事し、データ サイエンス プロジェクトをいくつか実行した人の中には、自らをデータ サイエンティストと呼ぶ人もいます。

現実には、組織はほとんどの機械学習および AI プロジェクト、特に成功基準の定義、最終的な展開、およびモデルの継続的な監視を処理するために、経験豊富な本物のデータ サイエンティストを必要としています。

2. データサイエンスと従来のソフトウェア開発の断絶

データ サイエンスと従来のソフトウェア開発の間の断絶も、もう 1 つの大きな要因です。従来のソフトウェア開発は、より予測可能かつ測定可能な傾向があります。

データ サイエンスの研究は、複数の反復と実験を通じて前進します。選択した指標がユーザーの行動に影響を与えないため、プロジェクト全体を展開フェーズから計画フェーズに戻さなければならない場合もあります。

従来のアジャイルベースのプロジェクト配信は、データ サイエンス プロジェクトには適さない可能性があります。これは、従来のソフトウェア開発プロジェクトで各タスクサイクルの最後に明確な結果を出すことに苦労してきたリーダーに大きな混乱を引き起こすことになります。

3. データの量と質

データセットが大きいほど、AI システムによる予測の精度が高くなることはよく知られています。データ量の増加による直接的な影響に加えて、データ量が増加すると多くの新たな課題が発生します。

多くの場合、組織は複数のソースからのデータを結合する必要があります。これを実行し始めると、同期がほとんど行われないことに気づき、多くの混乱が生じることになります。組織によっては、結合すべきでないデータを結合してしまうことがあり、その結果、データ ポイントの名前は同じでも意味が異なることになります。

不完全なデータにより、実用的な結果が得られなかったり、洞察が得られなかったり、誤解を招くような結果になったりする可能性があります。

4. データのラベル付け

ラベル付きデータが利用できないことは、機械学習プロジェクトを妨げるもう 1 つの課題です。 MIT Sloan Management Review によると、76% の企業がこの課題に取り組むにあたり、トレーニング データに自らラベルを付けて注釈を付けようとし、63% の企業が独自の自動ラベル付けおよび注釈付けテクノロジーを構築しようとしています。

つまり、データ サイエンティストは、ラベル付けプロセス中に専門知識を十分に活用できないことになります。これは、AI プロジェクトを効果的に実行する上での主な課題です。

そのため、多くの企業はラベリング作業を他社に委託しています。ただし、ラベリング タスクに十分なドメイン知識が必要な場合、ラベリング タスクをアウトソーシングすることは困難です。組織がデータセット全体の品質と一貫性を維持する必要がある場合は、ラベラー向けの標準化されたトレーニングに投資する必要があります。

ラベル付けするデータが複雑な場合は、独自のデータ ラベル付けツールを開発することもできます。ただし、これには機械学習タスク自体よりもコストがかかることがよくあります。

5. 組織の孤立

データは機械学習プロジェクトにおいて最も重要なエンティティです。ほとんどの組織では、このデータは、セキュリティ制約が異なり、形式も異なる (構造化ファイル、非構造化ファイル、ビデオ ファイル、オーディオ ファイル、テキスト、画像など) さまざまな場所に存在します。

このデータをさまざまな場所にさまざまな形式で保存することは、それ自体が課題です。しかし、組織がサイロ化して相互に連携できない場合、課題は倍増します。

6. 協力の欠如

もう 1 つの大きな課題は、データ サイエンティスト、データ エンジニア、データ スチュワード、ビジネス インテリジェンス (BI) エキスパート、DevOps、エンジニアリングなどのさまざまなチーム間のコラボレーションが不足していることです。これは、IoT からデータ サイエンスまでのエンジニアリング シナリオのチームにとって特に重要です。これらのシナリオでは、作業方法やプロジェクトを完了するために使用するテクノロジに多くの違いがあるためです。

エンジニアリング チームは機械学習モデルを実装し、本番環境に導入します。したがって、両者間の適切な理解と強力な連携が必要です。

7. 技術的に実現不可能なプロジェクト

機械学習プロジェクトは非常に高額になる傾向があるため、ほとんどの企業は、組織や製品を完全に変革し、莫大な利益や投資をもたらす野心的な「ムーンショット」を目指す傾向があります。

このようなプロジェクトは決して完了することはなく、データ サイエンス チームの限界に達することになります。最終的に、ビジネスリーダーはプロジェクトに対する信頼を失い、投資をやめるでしょう。

8. 技術チームとビジネスチーム間の調整の問題

多くの場合、機械学習プロジェクトでは、プロジェクトの期待、目標、成功基準に関して、ビジネス チームとデータ サイエンス チームの間で明確な整合性が取れていません。

こうしたタイプのプロジェクトは、目標がまだ明確ではないため、進捗しているかどうかがわからないため、常に研究段階にとどまります。

ここで、データ サイエンス チームは主に精度に重点を置き、ビジネス チームは財務上の利益やビジネス上の洞察などの指標に関心を持つことになります。最終的に、ビジネス チームはデータ サイエンス チームの結果を受け入れなくなります。

9. データ戦略の欠如

MIT Sloan Management Review によると、従業員数が 10 万人を超える大規模組織では、データ戦略を導入する可能性が 50% あります。組織は、機械学習プロジェクトに着手する前に、しっかりとしたデータ戦略を策定することが重要です。

データ戦略の一環として、組織は次の点を明確に理解する必要があります。

  • 組織には合計でどれくらいの量のデータが存在しますか?
  • プロジェクトでは実際にどれくらいのデータが必要ですか?
  • 必要な担当者はこのデータにどのようにアクセスしますか? また、これらの担当者にとってこのデータへのアクセスはどの程度容易ですか?
  • さまざまなソースからのすべてのデータをどのようにまとめるのでしょうか?
  • このデータをどのようにクリーンアップして変換するのでしょうか?

ほとんどの組織は、最初からデータについて計画を立てておらず、データがあることさえ期待していません。

10. リーダーシップのサポート不足

多くの人は、問題に対していくらかのお金と技術を投入するだけで、結果は自動的に得られると信じています。

しかし、データ サイエンティストが開発したモデルに信頼を寄せていないこともある組織のリーダーからの適切なサポートを得て成功するために何が必要かがわかっていません。

これは、組織のリーダーの間で AI に対する理解が不足していることと、データ サイエンティストがモデルがビジネス上のメリットをもたらす理由をリーダーに伝えられないことが原因である可能性があります。

最終的に、組織のリーダーは機械学習がどのように機能するか、そして AI が組織にとって実際に何を意味するかを理解する必要があります。

<<:  コンピュータービジョンは建設業界をどのように変えているのでしょうか?

>>:  ディープラーニングの学習をすぐに始めないでください。非常に詳細な AI 専門家のロードマップ、GitHub は数日間で 2.1k のスターを獲得

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ディープニューラルネットワークを使用してNER固有表現抽出の問題を解決する

この記事は次のように構成されています。固有表現抽出 (NER) とはどのように識別しますか? cs2...

複数のAI企業の人事担当者/面接官が明かす:機械学習エンジニアの採用方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ブロックチェーンとAIを最大限に活用する方法

急速に進化する今日のテクノロジー環境において、成功を目指す企業にとって、常に時代の先を行くことが重要...

人工知能の大学が雨後の筍のように次々と誕生しています。そこでは何を教えるのでしょうか?どのように教えるか?

[[240090]] 2018年グローバル人工知能製品アプリケーション博覧会で、来場者がテーマポス...

自然言語処理はどのように機能しますか? NLPパイプラインの構築方法を段階的に教えます

コンピュータは構造化されたデータを理解するのが得意ですが、主に文化的習慣に基づいた人間の言語を理解す...

Didiは最初の試みで惨敗した。自動運転は本当に良い市場なのか?

道路交通は常に人々の関心事であり、テクノロジーの時代において、人々は自動運転に大きな期待を寄せていま...

このAIはマスクをハゲにし、テスラの設計を手伝った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

仕事の未来: 2030 年までに消滅する仕事はどれでしょうか?

[[397136]]自動化と人工知能が急速に進歩する時代において、2030年までに仕事は消滅するで...

AIは人間の仕事を奪うが、これらの業界ではより多くの仕事も生み出すだろう

イーロン・マスク、ビル・ゲイツらは、人工知能(以下、AI)が「世界の終末」をもたらすだろうと国民に繰...

コンピュータービジョン: 画像検出と画像セグメンテーションの違いは何ですか?

人工知能における画像処理人工知能には画像処理のためのさまざまなタスクがあります。この記事では、物体検...

...

4つの基本的なソートアルゴリズムのPHPコード実装

アルゴリズムはプログラムの核であり、アルゴリズムの品質がプログラムの品質を決定すると多くの人が言いま...

...

ビッグデータと人工知能 - 機械的思考から統計的思考へ

今日は、ビッグデータ、人工知能、認知問題の解決の関係ロジックについて話す記事を書こうと思います。した...

...