新人機械学習エンジニアが犯しがちな6つの間違い

新人機械学習エンジニアが犯しがちな6つの間違い

機械学習やデータサイエンスのプロジェクトに取り組む際に、初心者がよく犯す間違いにはどのようなものがあるでしょうか? ここでは、最も一般的な間違いをリストします。

[[225258]]

機械学習では、製品やソリューションを構築する方法が多数あり、それぞれに異なる前提があります。多くの場合、どの仮定が合理的であるかを判断して特定するのは簡単ではありません。機械学習を初めて使用する人は、後から考えれば間違っていたと思われるような間違いを犯すことがよくあります。この記事では、新しい機械学習エンジニアが犯しがちな間違いのリストを作成します。これらのよくある間違いから学び、真の価値をもたらすより堅実なソリューションを作成できるようになることを願っています。

デフォルトの損失関数を当然のこととして受け入れる

始めたばかりのときは、平均二乗誤差は優れており、素晴らしいデフォルトになる可能性がありますが、実際のアプリケーションでは、この設計されていない損失関数が最適なソリューションを提供することはほとんどありません。

不正行為検出を例に挙げてみましょう。ビジネス目標に合わせるために本当に必要なのは、不正行為によって失われた金額に比例して、報告不足にペナルティを課すことです。一方、平均二乗誤差を使用すると良い結果が得られるかもしれませんが、最も高度な結果は得られません。

機械学習エンジニアになる | ステップ 3: ツールを選択する 使用できるさまざまな ML ツールについて詳しくは、この記事をご覧ください。

要点: 常に、ソリューションの目標にぴったり一致するカスタム損失関数を構築してください。

すべての問題に1つのアルゴリズム/アプローチを使用する

多くの人は最初のチュートリアルを完了すると、すぐに、想像できるあらゆるユースケースで、学んだのと同じアルゴリズムを使い始めます。それは馴染み深いものであり、他のアルゴリズムと同じように機能するだろうと彼らは考えました。これは誤った仮定であり、悪い結果につながる可能性があります。

データによってモデルが選択されます。データが前処理されたら、それをさまざまなモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルがあまり効果的でないかについて、適切なアイデアが得られます。

[[225259]]

機械学習エンジニアになる | ステップ 2: プロセスを選択する この投稿をチェックして、プロセスを習得してください。

重要: 同じアルゴリズムを何度も使用している場合は、最良の結果が得られていない可能性があります。

外れ値を無視する

コンテキストに応じて、外れ値は重要になるか、完全に無視される可能性があります。たとえば、汚染予測では、大気汚染が急激に増加する可能性があり、それを把握して、なぜ発生するかを理解することが重要です。何らかのセンサー エラーによって異常が発生した場合は、それを無視してデータから削除しても安全です。

モデルの観点から見ると、一部のモデルは他のモデルよりも外れ値に対して敏感です。たとえば、Adaboost は外れ値に大きな重みを置きますが、決定木は各外れ値を単純に誤った分類として扱う場合があります。

機械学習エンジニアになる | ステップ 2: プロセスを選択し、ベスト プラクティスでこの間違いを回避する

要点: 作業を開始する前に、常にデータを注意深く調べ、外れ値を無視するか、注意深く調べるかを決定します。

周期的な特徴を正しく処理していない

一日の時間、曜日、月、風向きなどはすべて周期的な特徴の例です。多くの新人機械学習エンジニアは、これらの特徴を、23 時間と 0 時間が互いに近く、離れていないなどの情報を保持できる表現に変換できるとは考えていません。

時間を例に挙げると、これを処理する最善の方法は、周期的な特徴を円の (x,y) 座標として表すために、sin 成分と cos 成分を計算することです。この時間の表現では、23 と 0 の時間が、当然ながら数字的に隣り合っています。

多くの人がコード例を求めています。ここにあります

重要なポイント: 周期的な特徴があり、それを変換しない場合は、ジャンク データをモデル化します。

標準化なしのL1/L2正則化

L1 および L2 正則化は大きな係数にペナルティを課し、線形回帰またはロジスティック回帰を正則化する一般的な方法ですが、多くの機械学習エンジニアは、正則化を適用する前に特徴を正規化することが重要であることを認識していません。

トランザクションが特徴である線形回帰モデルがあるとします。すべての関数を標準化し、それらを同等の立場に置くことで、すべての関数にわたって正規化が同じになります。

まとめ: 正規化は素晴らしいが、標準化された関数がない場合には問題になることがある

線形回帰またはロジスティック回帰の係数を特徴の重要度として解釈する

線形回帰関数は通常、各係数の p 値を返します。多くの場合、これらの係数により、初心者の機械学習エンジニアは、線形モデルの場合、係数値が大きいほど、機能が重要になると考えます。変数のサイズによって係数の絶対値が変わるため、このようなケースはめったに発生しません。特徴が同一線上にある場合、係数を 1 つの特徴から別の特徴に転送できます。データセットに含まれる特徴が多ければ多いほど、特徴の共線性の可能性が高くなり、特徴の重要性の単純な解釈の信頼性が低下します。

要点: どの機能が結果に大きな影響を与えるかを知ることは重要ですが、係数を見ることができると想定しないでください。彼らは多くの場合、「物語」の全体を語っていません。

いくつかのプロジェクトを実行して良い結果を得ることができれば、100万ドルを獲得できる可能性があります。一生懸命働いて、結果的に素晴らしい仕事をしていることが判明しますが、どんな職業でもそうですが、細部にこそ悪魔が潜んでおり、空想的な筋書きの中にも偏見や間違いが隠れている可能性があります。このリストは網羅的なものではなく、単に読者にソリューションに潜んでいる可能性のあるすべての小さな問題について考えてもらうことを目的としています。良い結果を得るには、プロセスに従い、よくある間違いをしていないことを常に再確認することが重要です。

[[225260]]

この記事が役に立った場合は、私の「機械学習エンジニア | ステップ 2: 選択プロセス」の記事から多くのことを学ぶことができます。プロセスのトラブルシューティングに役立ち、より単純な間違いを検出してより良い結果を得ることができます。

<<:  Googleの2018年度PhDフェローシップが発表され、選ばれた8人の中国人学生は全員国内の大学を卒業した。

>>:  機械学習に関する9つの誤解

ブログ    
ブログ    

推薦する

...

AppleはAI競争で遅れをとり、市場価値ランキングはAmazon、Google、Microsoftに追い抜かれる可能性も

米国現地時間9月8日木曜日、投資会社ニーダム・セキュリティーズは、アマゾン、グーグル、マイクロソフト...

...

ChatGPT Enterprise Editionがリリースされ、OpenAIはこれをこれまでで最も強力なバージョンと呼んでいる

執筆者:Qianshan過去 1 か月間、OpenAI に関する物議を醸す報道が多くありました。一方...

機械学習ソートLTR:線形モデルを簡単に始める

[[207297]] LTR のエントリーレベルのモデルは線形モデルです。この記事では線形モデルを例...

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...

ディープニューラルネットワーク (DNN) は人間の大脳皮質の構造をシミュレートしますか?

[[199788]]私は生物学を専攻する学部生であり、認知神経科学を専攻する大学院生です。余暇には...

...

ピュー研究所の報告:2025年までにAIのせいで7500万人が解雇される

[[253650]]テクノロジー専門家の約 37% は、人工知能 (AI) と関連技術の進歩により、...

中国の科学者によるこの命を救うAIは海外のホットリストに載った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能とは何かについて10分ほどお話ししましょう。

1999年、ハリウッドSF映画史上最も重要なSF映画『マトリックス』が公開されました。この映画は、...

1日で13.5%も急落!オラクル株は2002年以来最大の下落

オラクルの株価は現地時間9月12日に13.5%急落し、20年以上で最大の下落を記録した。その理由は、...

時系列を大規模モデルと組み合わせることはできますか?アマゾンの最新研究:大規模モデルで時系列予測を説明できる

最近、Amazon は時系列予測にビッグモデルを使用する方法に関する論文を発表しました。これは時系列...

Google が新モデル EfficientNet をオープンソース化: 画像認識効率が 10 倍に向上、パラメータが 88% 削減

畳み込みニューラル ネットワークは通常、限られたリソースで開発され、その後、条件が許せば、より高い精...