機械学習やデータサイエンスのプロジェクトに取り組む際に、初心者がよく犯す間違いにはどのようなものがあるでしょうか? ここでは、最も一般的な間違いをリストします。
機械学習では、製品やソリューションを構築する方法が多数あり、それぞれに異なる前提があります。多くの場合、どの仮定が合理的であるかを判断して特定するのは簡単ではありません。機械学習を初めて使用する人は、後から考えれば間違っていたと思われるような間違いを犯すことがよくあります。この記事では、新しい機械学習エンジニアが犯しがちな間違いのリストを作成します。これらのよくある間違いから学び、真の価値をもたらすより堅実なソリューションを作成できるようになることを願っています。 デフォルトの損失関数を当然のこととして受け入れる 始めたばかりのときは、平均二乗誤差は優れており、素晴らしいデフォルトになる可能性がありますが、実際のアプリケーションでは、この設計されていない損失関数が最適なソリューションを提供することはほとんどありません。 不正行為検出を例に挙げてみましょう。ビジネス目標に合わせるために本当に必要なのは、不正行為によって失われた金額に比例して、報告不足にペナルティを課すことです。一方、平均二乗誤差を使用すると良い結果が得られるかもしれませんが、最も高度な結果は得られません。 機械学習エンジニアになる | ステップ 3: ツールを選択する 使用できるさまざまな ML ツールについて詳しくは、この記事をご覧ください。 要点: 常に、ソリューションの目標にぴったり一致するカスタム損失関数を構築してください。 すべての問題に1つのアルゴリズム/アプローチを使用する 多くの人は最初のチュートリアルを完了すると、すぐに、想像できるあらゆるユースケースで、学んだのと同じアルゴリズムを使い始めます。それは馴染み深いものであり、他のアルゴリズムと同じように機能するだろうと彼らは考えました。これは誤った仮定であり、悪い結果につながる可能性があります。 データによってモデルが選択されます。データが前処理されたら、それをさまざまなモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルがあまり効果的でないかについて、適切なアイデアが得られます。
機械学習エンジニアになる | ステップ 2: プロセスを選択する この投稿をチェックして、プロセスを習得してください。 重要: 同じアルゴリズムを何度も使用している場合は、最良の結果が得られていない可能性があります。 外れ値を無視する コンテキストに応じて、外れ値は重要になるか、完全に無視される可能性があります。たとえば、汚染予測では、大気汚染が急激に増加する可能性があり、それを把握して、なぜ発生するかを理解することが重要です。何らかのセンサー エラーによって異常が発生した場合は、それを無視してデータから削除しても安全です。 モデルの観点から見ると、一部のモデルは他のモデルよりも外れ値に対して敏感です。たとえば、Adaboost は外れ値に大きな重みを置きますが、決定木は各外れ値を単純に誤った分類として扱う場合があります。 機械学習エンジニアになる | ステップ 2: プロセスを選択し、ベスト プラクティスでこの間違いを回避する 要点: 作業を開始する前に、常にデータを注意深く調べ、外れ値を無視するか、注意深く調べるかを決定します。 周期的な特徴を正しく処理していない 一日の時間、曜日、月、風向きなどはすべて周期的な特徴の例です。多くの新人機械学習エンジニアは、これらの特徴を、23 時間と 0 時間が互いに近く、離れていないなどの情報を保持できる表現に変換できるとは考えていません。 時間を例に挙げると、これを処理する最善の方法は、周期的な特徴を円の (x,y) 座標として表すために、sin 成分と cos 成分を計算することです。この時間の表現では、23 と 0 の時間が、当然ながら数字的に隣り合っています。 多くの人がコード例を求めています。ここにあります 重要なポイント: 周期的な特徴があり、それを変換しない場合は、ジャンク データをモデル化します。 標準化なしのL1/L2正則化 L1 および L2 正則化は大きな係数にペナルティを課し、線形回帰またはロジスティック回帰を正則化する一般的な方法ですが、多くの機械学習エンジニアは、正則化を適用する前に特徴を正規化することが重要であることを認識していません。 トランザクションが特徴である線形回帰モデルがあるとします。すべての関数を標準化し、それらを同等の立場に置くことで、すべての関数にわたって正規化が同じになります。 まとめ: 正規化は素晴らしいが、標準化された関数がない場合には問題になることがある 線形回帰またはロジスティック回帰の係数を特徴の重要度として解釈する 線形回帰関数は通常、各係数の p 値を返します。多くの場合、これらの係数により、初心者の機械学習エンジニアは、線形モデルの場合、係数値が大きいほど、機能が重要になると考えます。変数のサイズによって係数の絶対値が変わるため、このようなケースはめったに発生しません。特徴が同一線上にある場合、係数を 1 つの特徴から別の特徴に転送できます。データセットに含まれる特徴が多ければ多いほど、特徴の共線性の可能性が高くなり、特徴の重要性の単純な解釈の信頼性が低下します。 要点: どの機能が結果に大きな影響を与えるかを知ることは重要ですが、係数を見ることができると想定しないでください。彼らは多くの場合、「物語」の全体を語っていません。 いくつかのプロジェクトを実行して良い結果を得ることができれば、100万ドルを獲得できる可能性があります。一生懸命働いて、結果的に素晴らしい仕事をしていることが判明しますが、どんな職業でもそうですが、細部にこそ悪魔が潜んでおり、空想的な筋書きの中にも偏見や間違いが隠れている可能性があります。このリストは網羅的なものではなく、単に読者にソリューションに潜んでいる可能性のあるすべての小さな問題について考えてもらうことを目的としています。良い結果を得るには、プロセスに従い、よくある間違いをしていないことを常に再確認することが重要です。
この記事が役に立った場合は、私の「機械学習エンジニア | ステップ 2: 選択プロセス」の記事から多くのことを学ぶことができます。プロセスのトラブルシューティングに役立ち、より単純な間違いを検出してより良い結果を得ることができます。 |
<<: Googleの2018年度PhDフェローシップが発表され、選ばれた8人の中国人学生は全員国内の大学を卒業した。
翻訳者 |ブガッティレビュー | Chonglou図1. OpenAI Whisperモデルの動作原...
AIワークロードをエッジで実行することで、経済性の向上、意思決定の迅速化、自動化が可能になります。誇...
[[237498]]画像出典: Visual China私のクラスメイトの劉一木は留学の準備をして...
[[248668]]早速、世界で最も「美しい」ソートアルゴリズムについてお話ししましょう。 voi...
Uber や Netflix などの企業でプログラミング、コーディング、ソフトウェア開発の職に応募す...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
家が施錠されていなければ、誰でも勝手に入ることができ、暗号化なしでデータを勝手に変更できてしまうと、...
インテリジェントコネクテッドビークル時代の到来により、自動運転技術が業界の注目を集めるようになりまし...
最近、Google の論文が X などのソーシャル メディア プラットフォーム上で論争を巻き起こしま...
論文リンク: https://www.biorxiv.org/content/10.1101/202...
半世紀以上前に誕生して以来、人工知能(AI)革命は全世界に大きな影響を与えてきました。特に過去10年...
2009年、当時プリンストン大学に勤務していたコンピューター科学者のフェイフェイ・リー氏が、人工知...
クラウド コンピューティングは、集中性、効率性、弾力性、ビジネスの俊敏性をもたらしましたが、クラウド...
AIの分野では、オープンソースとクローズドソースの選択については、常に意見が分かれてきました。しかし...
人工知能 (AI) 音声アシスタントは近年大きな進歩を遂げ、スマートスピーカーやその他の AI スマ...