機械学習では、製品やソリューションを構築する方法が多数あり、それぞれが異なることを前提としています。多くの場合、どの仮定が合理的であるかを識別する方法が明らかではありません。機械学習を初めて学ぶ人は、後から考えれば愚かな間違いを犯してしまうことがよくあります。新人機械学習エンジニアが犯しがちな最も一般的な間違いのリストをまとめました。これらのよくある間違いから学び、真の価値をもたらすより堅牢なソリューションを作成できるようになることを願っています。
デフォルトの損失関数 平均二乗誤差は非常に大きいです。これは確かに驚くべきデフォルトですが、実際には、このような既製の損失関数は、解決しようとしているビジネス上の問題にはほとんど適していません。 不正行為検出を例に挙げてみましょう。ビジネス目標に合わせるために本当に必要なのは、不正行為によって失われた金額に比例して、偽陰性にペナルティを課すことです。平均二乗誤差を使用すると適切な結果が得られるかもしれませんが、最良の結果は決して得られません。 要点: 常に、ソリューションの目的に厳密に一致するカスタム損失関数を構築します。 すべての問題に1つのアルゴリズム/アプローチを使用する 多くの人は最初のチュートリアルを完了すると、すぐに各ユースケースで学んだのと同じアルゴリズムを使い始めます。これはよく知られたものであり、他のアルゴリズムと同じくらい効果的だと彼らは考えています。これは悪い結果につながる誤った仮定です。 データによってモデルが選択されます。データを前処理したら、それをさまざまなモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルがそれほど効果的でないかについて、よく理解できるようになります。 要点: 同じアルゴリズムを何度も使用している場合は、おそらく最良の結果が得られていないことを意味します。 外れ値を無視する 外れ値は、状況に応じて重要になる場合もあれば、完全に無視される場合もあります。汚染予測を例に挙げてみましょう。大気汚染は急激に増加することがあるため、それを観察してその原因を理解することは良い考えです。特定の種類のセンサー エラーによって発生した外れ値の場合は、それを無視してデータから削除しても問題ありません。 モデルの観点から見ると、一部のモデルは他のモデルよりも外れ値に対して敏感です。たとえば、Adaboost はこれらの外れ値を「難しい」ケースとして扱い、それらに不釣り合いな重み付けをしますが、決定木は各外れ値を単純に誤分類として扱う場合があります。 重要: 作業を開始する前に、必ずデータを注意深く調べて、外れ値を無視するか、さらに詳しく調べるかを判断してください。 適切な処理サイクル特性がない 一日の時間、曜日、月、風向きはすべて周期的です。多くの新しい機械学習エンジニアは、これらの特徴は、互いに近くて遠くない 23 時間や 0 時間などの情報を保持できる表現に変換することはできないと考えています。 前の例に従って、この問題を処理する最善の方法は、周期的な特徴を (x,y) の円形座標で表せるように sin 成分と cos 成分を計算することです。この時間の表現では、23 と 0 は当然ながら数値的に隣接しています。 重要なポイント: 循環的な特徴があり、それを変換しない場合は、モデルにガベージ データを入力することになります。 L1/L2 正規化を行うが標準化は行わない L1 および L2 正則化は大きな係数には適しておらず、線形回帰またはロジスティック回帰を正則化するための一般的な方法です。ただし、多くの機械学習エンジニアは、正則化を適用する前に特徴を正規化することの重要性を認識していません。 トランザクションを特徴とする線形回帰モデルがあるとします。すべての機能を正規化し、それらを同等の立場に置いて、すべての機能にわたって正規化が同じになるようにします。一部の特性をセントで表現し、他の特性をドルで表現しないでください。 まとめ: 正規化は素晴らしいが、特徴を正規化しないと頭痛の種になる可能性がある 線形回帰またはロジスティック回帰の係数を特徴の重要度として解釈する 線形回帰では通常、各係数の p 値が返されます。これらの係数により、機械学習の初心者は、線形モデルの場合、係数の値が大きいほど、特徴が重要になると考えがちです。変数のスケーリングによって係数の絶対値が変化するため、これは正しくありません。特徴が同一線上にある場合、係数を 1 つの特徴から別の特徴に転送できます。データセットに含まれる特徴が多ければ多いほど、特徴が共線的である可能性が高くなり、特徴の重要性の単純な解釈の信頼性は低くなります。 要点: 結果にとって最も重要な特徴を理解することは重要ですが、係数を見るだけでわかるとは思わないでください。係数だけでは全体像がわからないことがよくあります。 いくつかのプロジェクトを実行して良い結果を得ると、100万ドルを獲得したような気分になります。一生懸命働き、良い仕事をしているということを証明できる結果が出ていますが、他の業界と同様に、細部にこそ問題があり、手の込んだ計画の中にも偏見や間違いが隠れている可能性があります。このリストは網羅的なものではなく、読者にソリューションに潜んでいる可能性のあるすべての小さな問題について考えてもらうためのものです。良い結果を得るには、プロセスに従い、よくある間違いをしていないか再確認することが重要です。 |
>>: データサイエンスの面接で必ず知っておくべき 5 つの質問
最近では、営業所での顔認証が標準装備になったというニュースが話題となり、個人情報セキュリティの問題が...
10月20日、国家インテリジェントコネクテッドビークルイノベーションセンター(以下、「イノベーション...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能は現在最も注目されている産業であり、将来的にはロボット、スマートセンサー、ウェアラブルデバイ...
「まあまあ、今のところ需要はないんですが、ありがとうございます。」今週、子供向け番組を「販売」する...
Stability AI は、Stable Diffusion 3 のリリースに続いて、本日詳細な...
機械学習の分野では、「世の中にただ飯はない」という格言があります。簡単に言えば、あらゆる問題に対して...
上海がゴミの分別を推進し始めて以来、クレイジーな上海寧は多くのジョークや絵文字を投稿し、大多数のネッ...
[51CTO.com クイック翻訳] 現在、人工知能技術が「悪のロボット」に発展し、世界を支配するの...
序文音声認識の現在の開発状況をまとめると、DNN、RNN/LSTM、CNN が音声認識における主流の...
2016年、著名な科学ライターでありシリコンバレーの投資家でもある呉軍氏は、大胆に次のように予測しま...