使用される特徴の数が増えるにつれて、モデルのパフォーマンスが向上することが分かっています。ただし、ピークを超えると、モデルのパフォーマンスが低下します。そのため、予測に効果的な特徴のみを選択する必要があります。
特徴選択は、特徴の数を減らすことを目的とする点で次元削減技術に似ていますが、根本的に異なります。違いは、特徴選択ではデータセットから保持または削除する特徴を選択するのに対し、次元削減ではデータの投影が作成され、完全に新しい入力特徴が生成される点です。 特徴選択にはさまざまな方法があります。この記事では、最もシンプルでありながら非常に便利な Scikit-Learn の 5 つの方法を紹介します。それでは始めましょう。 1. 分散閾値特徴選択分散が大きい特徴は、その特徴内の値が大きく変化することを意味し、分散が小さい特徴は、その特徴内の値が類似していることを意味し、分散がゼロの場合は、同じ値の特徴があることを意味します。 分散選択法では、まず各特徴の分散を計算し、次にしきい値に基づいて分散がしきい値より大きい特徴を選択します。使用方法を示す例を次に示します。
この例では、簡潔にするために数値機能のみを使用しています。分散しきい値特徴選択を使用する前に、分散は数値スケールの影響を受けるため、これらすべての数値特徴を変換する必要があります。
すべての特徴は同じスケールなので、分散しきい値法を使用して必要な特徴のみを選択してみます。分散が 1 に制限されていると仮定します。
分散しきい値設定は、教師なし学習のための特徴選択方法です。教師あり学習の目的で特徴を選択したい場合はどうすればよいでしょうか? 次にこれについて説明します。 2.SelectKBestの機能単変量特徴選択は、カイ2乗検定やピアソン検定などの単変量統計検定に基づく手法です。 SelectKBest の前提は、検証されていない統計テストと、X と y の間の統計結果に基づいて K 個の数値を選択する機能を組み合わせることです。
単変量特徴選択法は教師あり学習用に設計されているため、特徴を独立変数と従属変数に分離します。次に、最も重要な 2 つの機能のみが必要であると仮定して、SelectKBest を使用します。
3. 再帰的特徴除去(RFE)再帰的特徴除去 (RFE) は、機械学習モデルを利用して、再帰トレーニング後に最も重要でない特徴を除去することで特徴を選択する特徴選択方法です。 Scikit-Learn によれば、RFE は、より小さな特徴セットを再帰的に考慮することで特徴を選択する方法です。
この例では、誰が生き残るかを予測する分類問題にタイタニック号のデータセットを使用します。
私は、タイタニック号の生存者を予測するのに最も役立つ特徴を知りたかったのです。最良の特徴を得るために、LogisticRegression モデルを使用しましょう。
デフォルトでは、RFE に選択される特徴の数はすべての特徴の中央値であり、ステップ サイズは 1 です。もちろん、経験に基づいて変更することもできます。 4. SelectFromModel 特徴選択Scikit-Learn の SelectFromModel は、重要度属性しきい値に基づいて機械学習モデルの推定のための機能を選択するために使用されます。デフォルトでは、しきい値は平均値です。 この概念をよりよく理解するために、サンプルデータセットを使用しましょう。前回のデータを使用します。
RFE と同様に、特徴の重要性を推定するために使用できる限り、任意の機械学習モデルを特徴選択に使用できます。 Random Forest または XGBoost で試すことができます。 5. シーケンシャル特徴選択(SFS)順次特徴選択は、クロス検証スコアと推定値に基づいて前方または後方に最良の特徴を見つける貪欲アルゴリズムであり、Scikit-Learn バージョン 0.24 の新機能です。方法は次のとおりです。
説明のために例を挙げてみましょう。
結論は特徴選択は機械学習モデルの重要な側面です。モデルにとって役に立たない特徴は、モデルのトレーニング速度だけでなく、モデルの効果にも影響します。 |
<<: オンラインクレジットは消費者保護において「難しい問題」でしょうか? AIアプリケーションは消費者の権利を保護する
>>: AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である
業界に「金儲けの見込み」があれば、必然的に「混乱」が起こります。 10年前はスマートフォンでしたが、...
DAMOアカデミーは9月18日、2020年雲奇大会において、音声AI技術の最新のブレークスルーを発表...
[[322566]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
イーロン・マスク氏は、わずか5年で人間の言語を無意味にすることができる技術に取り組んでいると述べてい...
コロナウイルスのパンデミック以前、AI業界は2020年に大きな成長を遂げると予想されていました。 2...
[[207297]] LTR のエントリーレベルのモデルは線形モデルです。この記事では線形モデルを例...
[[257459]]著名なベンチャーキャピタル調査機関である CB Insights は、2019 ...
現在の科学技術分野で最もホットな技術の一つとして、人工知能は業界内外の多くの人々の注目を集めています...
[[408210]]今では「顔認証で出勤、顔認証で支払い、顔認証でドアを開ける」といったハイテクノ...
[51CTO.com クイック翻訳] 調査機関ガートナーが「ハイパーオートメーション」という用語を...
2018年9月7日、Minglu Dataは北京で「シンボルの力 - 産業AI脳インテリジェントシ...
北京時間9日午前1時(米国現地時間5月8日午前10時)、カリフォルニア州マウンテンビューで2018 ...
基本的な紹介学術的なニーズを別にすれば、ほとんどの人はアルゴリズムの研究に従事するのではなく、第一線...