機械学習を生産性に変えるには、よくある 4 つの落とし穴に注意してください。

機械学習を生産性に変えるには、よくある 4 つの落とし穴に注意してください。

[[279043]]

ビッグデータダイジェスト制作

出典: topbots

編纂者:呉帥

ある技術カンファレンスで、講演者が聴衆に「ビジネスのために機械学習や人工知能のモデルを開発した人はいますか?」と尋ねたところ、80~90パーセントの人が手を挙げました。

「それで、皆さんの中で誰がそれを生産に投入したのですか?」と講演者は続けた。ほぼ全員が手を下ろしました。ほぼすべての人がビジネスに機械学習を導入したいと考えていることは明らかですが、これらの人々は大きな問題にも直面しています。特にクラウド アーキテクチャでは、モデルを持続可能にすることが難しいのです。

Medium のブロガーもこの問題を指摘し、機械学習モデルを本番環境に導入する際によくある 4 つの落とし穴を提案しました。

車輪の再発明はしない

この言葉は長い間聞かれてきましたが、改善は見られませんでした。既存の解決策を拒否したために失敗するケースを私たちは数多く見てきました。

たとえば、Amazon Web Services (AWS) や Google Cloud には、使いやすい強力な機械学習スイートと製品があります。これらはすべてのケースに適しているわけではありませんが、特に企業の従業員に機械学習の経験があまりない場合は、間違いなく優れたエントリー プラットフォームです。

Google Vision API を使用した感情検出。画像は TheNextWeb より

上記は、Google Cloud の Vision API を使用して抽出できる情報の例です。製品に対する顧客の反応の写真やビデオのデータがあり、顧客の表情に基づいて製品に対する態度を理解したいとします。次に、写真またはビデオをデータとして Google Vision に送信するだけで、処理が行われ、それぞれの顔が表す感情のおおよその把握が可能になります。

一般的に言えば、AWS と Google Cloud 上の製品の価格性能比はすでに良好です。さらに、バージョンアップデートや機能追加などもプラットフォーム側で処理されるため、メンテナンスも非常に簡単です。

解決策は決まっていない

小規模なプロジェクトの場合、このシンプルで簡単なアプローチで十分かもしれません。しかし、大規模なプロジェクトの場合、コストが高すぎるか、より多くのカスタマイズが必要になります。

このようなプロジェクトでは、多くの場合、カスタム ソリューションが必要になります。前述のように、多くのプロジェクトがやりすぎたために失敗するのと同様に、多くのプロジェクトがやりすぎたために失敗します。私たちは「漸進的利益」の精神、つまり長期的な目標を犠牲にすることなく製品から可能な限り多くの短期的な価値を引き出すという精神を維持する必要がありますが、時にはこの行動が製品設計を損なうことがあります。

この問題は次のように解決できます。

  • 問題と期待されるビジネス価値を十分に理解していることを確認する
  • 必要な調査を行ってください。

最初のアプローチでは、チームが最初から技術的な詳細にこだわりすぎると、全体像を把握できない可能性が高くなります。 「私は本当に何を達成したいのか?」を常に自分に思い出させる必要があります。

2 番目のアプローチは少し複雑です。まず、Google Scholar でリサーチし、関連する学術出版物やブログ投稿を精査して、自分が直面している問題を他の人がどのように解決したかを確認します。満足のいく結果が得られない場合は、良い手がかりが見つかるまで、同様の問題(異なる分野でも可能)を探してみてください。その時点で、既製のソリューションを探して、それがニーズを満たすかどうかを確認します。

満足すれば、計画は実行されます。そうでない場合は、さらにカスタマイズを構築する必要があります。

リスクを適切に特定していない

[[279044]]

優れたソリューションを開発した後、これらのモデルに内在するリスクを忘れてしまうことがよくあります。 「モデルがどのように機能するかはよく分からない」と言う人がいるが、それはある程度は真実だ。説明可能な AI は、「なぜこのモデルはこのように動作するのか」といった質問に答えることに特化した、急速に成長している分野です。

しかし、モデルがどのように機能するかを正確に説明する前に、いくつかの必要な予防措置を講じる必要があります。

1. モデル間の特性と相関関係を理解する

通常、モデルが人種、性別、収入レベルなどに基づいて決定を下すことは望ましくないため、それらを入力として使用しません。それですべてうまくいくでしょうか? 必ずしもそうとは限りません。これらの要素が、使用している他の機能に影響を及ぼさないようにする必要があります。たとえば、郵便番号は、人がどこにいるかを示す強​​力な人口統計指標です。したがって、各プロジェクトを開始する前に、データの調査に多大な労力を費やす必要があります。

2. モデルを本番環境で進化させることができますか?

「機械学習」という言葉を聞くと、たいていの人は、それが人間と機械のやりとりの結果としてリアルタイムで変化するモデルを意味すると考えます。一部のモデルではこれを実行しますが (これについては別の投稿で詳しく説明します)、多くのモデルでは実行しません。それには十分な理由があります。必要なチェックや監視を行わなくても、入力データが大幅に変化してもモデルが制御不能になることはありません。

しかし、そうではありません。市場の動向に基づいて動的に更新される株式取引モデルがあるとします。通常の市場ではうまく機能しますが、予測できない事態が発生した場合 (通常は最悪のタイミングで発生します)、モデルは新しい環境に適応するために過剰に補正し、元々トレーニングされた戦略を完全に放棄する可能性があります。

3. モデルの再トレーニングまたは更新はどのくらいの頻度で行う予定ですか?

この質問に対する標準的な答えはありません。それは問題とモデリング手法によって完全に異なりますが、早い段階でそれを把握することが重要です。標準的な更新方法と戦略が必要な理由は単純です。モデルが改善されているか、劣化しているかをどうやって知るかということです。

75% の精度を持つモデルが本番環境にあるとします。精度が 75% であることをどうやって確認すればよいでしょうか? 通常、検証には履歴データの一部を検証セット (通常は 20%) として使用します。

さて、1 か月後にモデルを更新し、精度が 85% であることがわかったとします (すごいですね! 褒めてあげてください!)。そこで、喜んで更新をプラットフォームにプッシュします。しかし、突然、成果が急激に低下し、顧客が不満を言い続けていることに気づきました。何が起こっているのか?

理由は簡単です。検証セット (精度をテストするために使用する生データ) を保存しないと、同等のものを比較していないことになります。更新されたモデルのパフォーマンスが初期モデルよりも優れているかどうかはわかりませんが、それが大きな問題を引き起こします。

始めるのに機械学習は必要ありません

傷つくように聞こえるかもしれないが、これがおそらくこの記事を読んで得られる最大の教訓だろう。機械学習は今日のコンピュータサイエンスの最もクールな分野の 1 つと考えられていますが、機械学習はベルト自体ではなく、ベルトに取り付けられた単なるツールであるという事実を人々は見落としがちです。

釘を打つために削岩機を使う人はいないでしょうから、基本的な Python スクリプトでタスクを実行できる場合は機械学習を使用しないでください。最先端のテクノロジーにアクセスしたいというのは魅力的であり、私もそのことは理解していますが、必要な専門知識がなければ、不必要な失敗を招く可能性があります。

製品を設計する前に「チャットボットをどう活用できるだろうか?」「顔認識で何ができると思う?」などとブレインストーミングする例を私はたくさん見てきました。しかし、実際のところ、これらのアイデアは基本的に役に立たないのです。

リンク: https://www.topbots.com/pitfalls-in-putting-ml-model-in-production/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  2019 年の Web 開発のトレンド トップ 10

>>:  サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

ブログ    
ブログ    

推薦する

AI分野 | ゲームのルールを変える画期的なアイデア10選

[[357174]] AI の旅が始まって以来、私は無限の可能性を秘め、輝かしい歴史に足跡を残してき...

知識共有: 管理距離と最大ホップ数の違いに関するルーティングアルゴリズムの分析

管理距離は、ルーティング プロトコルの優先度を表す人工的に指定された数値です。数値が小さいほど、ルー...

Javaソートアルゴリズムの概要(I):挿入ソート

挿入ソートの基本的な操作は、ソートされた順序付けられたデータにデータを挿入し、それによって番号が 1...

文勝ビデオの次の目的地であるメタはすでにビデオ制作を開始している

テキストガイドによるビデオツービデオ (V2V) 合成は、短編ビデオの作成や映画業界全体など、さまざ...

2つのセッションが終了しました!自動運転に関する15の提案

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

中国の新世代人工知能レポートが発表:中国はAI論文数で世界一

[[266390]] 5月24日、浦江イノベーションフォーラムで「中国の新世代人工知能発展報告書20...

面白いですね!プログラマーが AI を使って双子の息子を認識するんです! 「この Raspberry Pi の顔認識システムは私のものほど正確ではありません」

2021年までに、学習アルゴリズムと人工知能の研究を通じて、機械は多くの面で人間よりも優れていると...

世界中の人工知能企業の数:米国 2,028 社、インド 800 社、中国はどうでしょうか?

テクノロジーは生活を変えるだけでなく、世界も変えることができます。 1760年代初頭、イギリスを中心...

...

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...

2022 年のエンタープライズ向け人工知能のトップ 10 トレンド

人工知能は主流になりました。さまざまな業界の企業が概念実証を成功させ、AI を本番環境に導入すること...

...

機械学習に必要な5つのスキル

機械学習、かっこいいですね。名前からすると、ロボットが一列に並んで座って知識を学習しているように思わ...

2016年の音声認識の発展を技術的な観点から振り返る

ディープラーニングと人工ニューラルネットワークの発展により、音声認識は 2016 年に一連のブレーク...