機械学習を生産性に変えるには、よくある 4 つの落とし穴に注意してください。

[[279043]]

ビッグデータダイジェスト制作

出典: topbots

編纂者：呉帥

ある技術カンファレンスで、講演者が聴衆に「ビジネスのために機械学習や人工知能のモデルを開発した人はいますか？」と尋ねたところ、80～90パーセントの人が手を挙げました。

「それで、皆さんの中で誰がそれを生産に投入したのですか？」と講演者は続けた。ほぼ全員が手を下ろしました。ほぼすべての人がビジネスに機械学習を導入したいと考えていることは明らかですが、これらの人々は大きな問題にも直面しています。特にクラウドアーキテクチャでは、モデルを持続可能にすることが難しいのです。

Medium のブロガーもこの問題を指摘し、機械学習モデルを本番環境に導入する際によくある 4 つの落とし穴を提案しました。

車輪の再発明はしない

この言葉は長い間聞かれてきましたが、改善は見られませんでした。既存の解決策を拒否したために失敗するケースを私たちは数多く見てきました。

たとえば、Amazon Web Services (AWS) や Google Cloud には、使いやすい強力な機械学習スイートと製品があります。これらはすべてのケースに適しているわけではありませんが、特に企業の従業員に機械学習の経験があまりない場合は、間違いなく優れたエントリープラットフォームです。

Google Vision API を使用した感情検出。画像は TheNextWeb より

上記は、Google Cloud の Vision API を使用して抽出できる情報の例です。製品に対する顧客の反応の写真やビデオのデータがあり、顧客の表情に基づいて製品に対する態度を理解したいとします。次に、写真またはビデオをデータとして Google Vision に送信するだけで、処理が行われ、それぞれの顔が表す感情のおおよその把握が可能になります。

一般的に言えば、AWS と Google Cloud 上の製品の価格性能比はすでに良好です。さらに、バージョンアップデートや機能追加などもプラットフォーム側で処理されるため、メンテナンスも非常に簡単です。

解決策は決まっていない

小規模なプロジェクトの場合、このシンプルで簡単なアプローチで十分かもしれません。しかし、大規模なプロジェクトの場合、コストが高すぎるか、より多くのカスタマイズが必要になります。

このようなプロジェクトでは、多くの場合、カスタムソリューションが必要になります。前述のように、多くのプロジェクトがやりすぎたために失敗するのと同様に、多くのプロジェクトがやりすぎたために失敗します。私たちは「漸進的利益」の精神、つまり長期的な目標を犠牲にすることなく製品から可能な限り多くの短期的な価値を引き出すという精神を維持する必要がありますが、時にはこの行動が製品設計を損なうことがあります。

この問題は次のように解決できます。

問題と期待されるビジネス価値を十分に理解していることを確認する
必要な調査を行ってください。

最初のアプローチでは、チームが最初から技術的な詳細にこだわりすぎると、全体像を把握できない可能性が高くなります。「私は本当に何を達成したいのか？」を常に自分に思い出させる必要があります。

2 番目のアプローチは少し複雑です。まず、Google Scholar でリサーチし、関連する学術出版物やブログ投稿を精査して、自分が直面している問題を他の人がどのように解決したかを確認します。満足のいく結果が得られない場合は、良い手がかりが見つかるまで、同様の問題（異なる分野でも可能）を探してみてください。その時点で、既製のソリューションを探して、それがニーズを満たすかどうかを確認します。

満足すれば、計画は実行されます。そうでない場合は、さらにカスタマイズを構築する必要があります。

リスクを適切に特定していない

[[279044]]

優れたソリューションを開発した後、これらのモデルに内在するリスクを忘れてしまうことがよくあります。「モデルがどのように機能するかはよく分からない」と言う人がいるが、それはある程度は真実だ。説明可能な AI は、「なぜこのモデルはこのように動作するのか」といった質問に答えることに特化した、急速に成長している分野です。

しかし、モデルがどのように機能するかを正確に説明する前に、いくつかの必要な予防措置を講じる必要があります。

1. モデル間の特性と相関関係を理解する

通常、モデルが人種、性別、収入レベルなどに基づいて決定を下すことは望ましくないため、それらを入力として使用しません。それですべてうまくいくでしょうか? 必ずしもそうとは限りません。これらの要素が、使用している他の機能に影響を及ぼさないようにする必要があります。たとえば、郵便番号は、人がどこにいるかを示す強力な人口統計指標です。したがって、各プロジェクトを開始する前に、データの調査に多大な労力を費やす必要があります。

2. モデルを本番環境で進化させることができますか?

「機械学習」という言葉を聞くと、たいていの人は、それが人間と機械のやりとりの結果としてリアルタイムで変化するモデルを意味すると考えます。一部のモデルではこれを実行しますが (これについては別の投稿で詳しく説明します)、多くのモデルでは実行しません。それには十分な理由があります。必要なチェックや監視を行わなくても、入力データが大幅に変化してもモデルが制御不能になることはありません。

しかし、そうではありません。市場の動向に基づいて動的に更新される株式取引モデルがあるとします。通常の市場ではうまく機能しますが、予測できない事態が発生した場合 (通常は最悪のタイミングで発生します)、モデルは新しい環境に適応するために過剰に補正し、元々トレーニングされた戦略を完全に放棄する可能性があります。

3. モデルの再トレーニングまたは更新はどのくらいの頻度で行う予定ですか?

この質問に対する標準的な答えはありません。それは問題とモデリング手法によって完全に異なりますが、早い段階でそれを把握することが重要です。標準的な更新方法と戦略が必要な理由は単純です。モデルが改善されているか、劣化しているかをどうやって知るかということです。

75% の精度を持つモデルが本番環境にあるとします。精度が 75% であることをどうやって確認すればよいでしょうか? 通常、検証には履歴データの一部を検証セット (通常は 20%) として使用します。

さて、1 か月後にモデルを更新し、精度が 85% であることがわかったとします (すごいですね! 褒めてあげてください!)。そこで、喜んで更新をプラットフォームにプッシュします。しかし、突然、成果が急激に低下し、顧客が不満を言い続けていることに気づきました。何が起こっているのか？

理由は簡単です。検証セット (精度をテストするために使用する生データ) を保存しないと、同等のものを比較していないことになります。更新されたモデルのパフォーマンスが初期モデルよりも優れているかどうかはわかりませんが、それが大きな問題を引き起こします。

始めるのに機械学習は必要ありません

傷つくように聞こえるかもしれないが、これがおそらくこの記事を読んで得られる最大の教訓だろう。機械学習は今日のコンピュータサイエンスの最もクールな分野の 1 つと考えられていますが、機械学習はベルト自体ではなく、ベルトに取り付けられた単なるツールであるという事実を人々は見落としがちです。

釘を打つために削岩機を使う人はいないでしょうから、基本的な Python スクリプトでタスクを実行できる場合は機械学習を使用しないでください。最先端のテクノロジーにアクセスしたいというのは魅力的であり、私もそのことは理解していますが、必要な専門知識がなければ、不必要な失敗を招く可能性があります。

製品を設計する前に「チャットボットをどう活用できるだろうか？」「顔認識で何ができると思う？」などとブレインストーミングする例を私はたくさん見てきました。しかし、実際のところ、これらのアイデアは基本的に役に立たないのです。

リンク: https://www.topbots.com/pitfalls-in-putting-ml-model-in-production/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest（id: BigDataDigest）」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 2019 年の Web 開発のトレンドトップ 10

>>: サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

機械学習を生産性に変えるには、よくある 4 つの落とし穴に注意してください。

あなたの周りの偽のAI

マイクロソフトは1350億のパラメータを持つスパースニューラルネットワークを使用して、各特徴を2値化することで検索結果を改善している。

2枚の写真から動画が作れます！ Googleが提案したFLIMフレーム補間モデル

人工知能とメタバースの関係を探る

人工知能がサイバーセキュリティの世界に及ぼす影響

北京大学とテンセントは、デザイナーと同じくらいクリエイティブなテキストロゴ生成モデルを提案した。

特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

予想外だが妥当: ガートナーの 2020 年データサイエンスおよび機械学習プラットフォームのマジッククアドラントの解釈

推薦する

人間の世界チャンピオン3人を破り、ネイチャー誌の表紙に登場！ AIドローンエクストリームレースが自動運転の新時代を切り開く

ユニサウンド、50倍の性能を誇る世界初のIoT向けAIチップを発売

学者は大喜び！MetaがPDFと数式を変換できるOCRツールをリリース

新型コロナウイルス感染症の流行中に音声テクノロジーが再び注目を集めているのはなぜでしょうか?

Google、金融機関の内部リスク警告の精度を2～4倍に高められるAIマネーロンダリング対策ツールをリリース

今後 10 年間で人工知能が私たちの生活を支配するようになるとき、携帯電話はどのようなものになるでしょうか?

PyTorch が主要カンファレンスを席巻、TensorFlow が業界から撤退: 機械学習フレームワークは 1 年で変化しました

ソフトウェアエンジニアのコーディング面接でよく聞かれるアルゴリズムトップ 10

AIの限界を理解することがその可能性を実現する鍵となる

ブロックチェーン技術における機械学習

サイバーセキュリティの専門家が知っておくべきAI用語

人工知能の出現は教育にどのような影響を与えるのでしょうか?

インテリジェントな会話型ロボットは顧客サービス分野で成熟を続けている

人工知能は将来の戦争を防ぐことができるのか？

ロボットの時代が来ます。私たちは全員失業してしまうのでしょうか？