機械学習に関して新人エンジニアが犯しがちな6つの間違い

機械学習に関して新人エンジニアが犯しがちな6つの間違い

[[206602]]

デフォルトの損失関数は当然使用される

始めたばかりのときは、損失関数として平均二乗誤差がデフォルトの選択肢として適しています。しかし、現実世界の問題に対処する場合、そのような設計されていない損失関数が最適な解決策を与えることはほとんどありません。

たとえば、不正行為の検出を考えてみましょう。真のビジネス目標に合わせるには、不正行為による損失額に比例して、偽陰性にペナルティを課す必要があります。平均二乗誤差を使用すると適切な結果が得られますが、現時点では最良の結果にはなりません。

要点: 損失関数を毎回カスタマイズして、目的に厳密に一致するようにします。

すべての問題に1つのアルゴリズム/アプローチを使用する

多くの人は、入門チュートリアルを完了すると、すべてのケースで同じアルゴリズムを使い始めます。これはよくあることであり、彼らはこのアルゴリズムが他のアルゴリズムと同じように機能すると考えています。これは誤った仮定であり、最終的には悪い結果につながります。

解決策は、データにモデルを選択させることです。データを前処理したら、それを複数の異なるモデルに入力して結果を確認します。どのモデルが最も効果的で、どのモデルが効果的でないかを学びます。

重要なポイント: 同じアルゴリズムを使い続けると、結果が最善ではなくなる可能性があります。

外れ値を無視する

状況に応じて、外れ値は重要になる場合もあれば、無視される場合もあります。収益予測を例にとると、収益は突然劇的に変化することがあります。この現象を観察し、その理由を理解することは役に立ちます。場合によっては、何らかのエラーによって外れ値が発生することがあります。その場合は、その外れ値を安全に無視してデータから削除できます。

モデルの観点から見ると、一部のモデルは外れ値に対してより敏感です。 Adaboost を例にとると、Adaboost は外れ値を重要な例として扱い、大きな重み付けを行いますが、決定木は外れ値を単純に誤った分類として扱う場合があります。

重要なポイント: 各作業を開始する前に、データを注意深く調べて、外れ値を無視するかどうかを決定します。 決定できない場合は、さらに注意深く調べます。

周期的な特徴が正しく処理されていない

1 日の 24 時間、1 週間の 7 日間、1 年の 12 か月、風向きはすべて周期的な特徴です。機械学習に不慣れなエンジニアの多くは、これらの特徴を表現に変換することで、23:00 と 0:00 の近さなどの情報を保持できることを知りません。

時間を例にとると、それを処理する最善の方法は、その sin と cos を計算して、周期的な特徴を円の (x,y) 座標として表すことです。このように表現される時間では、23:00 と 0:00 は単に数字的に隣り合っている 2 つの数字であり、それだけです。

重要なポイント: 研究中に周期的な特徴に遭遇しても、それを表現に変換しないと、モデルにジャンク データが追加されることになります。

標準化されていない L1/L2 正則化

L1 および L2 正則化は大きな係数にペナルティを課し、線形回帰またはロジスティック回帰を正則化する一般的な方法です。しかし、多くの機械学習エンジニアは、正規化を使用する前に特徴を正規化することの重要性を認識していません。

特徴の 1 つが「取引金額」である線形回帰モデルがあるとします。取引金額が米ドルの場合、その係数はセント単位の係数の 100 倍になります。これによりバイアスが生じ、モデルが実際には小さい特徴にペナルティを課す可能性があります。この問題を回避するには、すべての特徴に対して正規化が等しくなるように特徴を正規化する必要があります。

重要なポイント: 正規化は便利ですが、特徴を正規化しないと、非常に厄介な問題が発生します。

線形回帰またはロジスティック回帰の係数の絶対値を特徴の重要性を判断する基準として使用する

多くの既製の線形回帰モデルは各係数の p 値を返しますが、初心者の機械学習エンジニアの中には、線形モデルの場合、係数の値が大きいほど、特徴の重要性が高くなると考える人もいます。変数のサイズによって係数の絶対値が変わるため、これは正確ではありません。特徴が共線的である場合、係数は 1 つの特徴から別の特徴にシフトできます。データセットに含まれる特徴が多ければ多いほど、特徴が共線的である可能性が高くなり、特徴の重要性に関するこの単純な解釈の信頼性は低くなります。

重要なポイント: どの機能が結果に最も大きな影響を与えるかを知ることは重要ですが、係数だけではそれを判断することはできません。

いくつかのプロジェクトを実行して良い結果を得ると、100 万ドルを獲得したような気分になります。一生懸命働き、良い仕事をしたという結果が示されますが、どの業界でもそうですが、細部にこそ問題があり、最も洗練されたチャートでも偏差やエラーが隠れている場合があります。この記事のエラーのリストは網羅的ではありませんが、読者にソリューションに潜む微妙な問題を考えるよう促すことを目的としています。良い結果を得るためには、プロセスに従って作業し、よくある間違いが起こらないように注意深くチェックすることが重要です。

<<:  アクセンチュア:AIが新しいUIとなり、7年後にはスクリーンレス時代が到来

>>:  GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました

ブログ    
ブログ    

推薦する

人工知能とモノのインターネット:自然災害への新たな対応アプローチ

より持続可能な環境を目指して、私たちは革新的な技術を活用して自然災害による損失を最小限に抑える努力を...

ジェネレーティブAIは伝統的な医師と患者の関係を破壊している

「医者はいつも正しい」という考えが何十年も続いた後、伝統的な医師と患者の関係は重大な岐路に立たされて...

JSPフォーラムツリー構造を実装するための特定のアルゴリズム

1. JSP フォーラムのデモテーブルの構造: テーブル名: mybbslist フィールド データ...

...

自動運転車におけるセンサー応用に関する重要な考慮事項

[[348758]]運転支援運転システム (ADAS) や自律走行車 (AV) 向けのセンシング技術...

...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

AIベースのクラウド管理ツールではコンテキストが重要

AI を活用したクラウド管理ツールはまだ導入の初期段階にありますが、IT 業界の専門家は、このような...

ニューヨーク州が顔認識を「禁止」する法律を制定。なぜキャンパス内で AI が頻繁に「失敗」するのか?

アメリカは顔認識技術と全面的に戦っている。米ニューヨーク州は最近、2022年まで学校での顔認識やその...

...

過去10年間のGoogleアルゴリズムの変化

Google のアルゴリズムは毎年 500 ~ 600 回も変更されますが、その多くは小さな変更です...

IBMの新しいデータ分析アルゴリズムは、20分で9TBのデータを分析できる

IBMは最近、スイスのチューリッヒ研究所がデータ分析アルゴリズムにおいて画期的な進歩を遂げ、膨大なデ...

AIを使って内部脅威を特定することの倫理

マイノリティ・リポートのトム・クルーズを覚えていますか? AI は将来のリスクを示唆する従業員の行動...

エネルギーおよび公益事業業界におけるインテリジェントオートメーションの役割

世界はクリーンで安全、かつ手頃な価格で持続可能な電力を緊急に必要としており、各国は化石エネルギーに代...

マクロン仏大統領「人工知能は制限されなければ西側諸国の民主主義を完全に破壊するだろう」

3月29日、フランスのエマニュエル・マクロン大統領がパリで演説を行った。ホーキング博士はかつて、人...