いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

[[403820]]

この記事はWeChat公式アカウント「DATA STUDIO」から転載したもので、著者はYun Duojunです。記事の転載についてはDataSTUDIO公式アカウントまでご連絡ください。

この記事では、さまざまな解釈不可能な (ブラック ボックス) 機械学習手法と解釈可能な機械学習手法における機械学習モデルの特徴の重要度を評価することに基づく特徴選択手法のパフォーマンスに焦点を当てます。 CART、最適ツリー、XGBoost、SHAP が関連する特徴サブセットを正しく識別する能力を比較しました。

ネイティブの特徴重要度法も、SHAP や XGBoost も、関連する特徴と関連しない特徴を明確に区別することはできません。解釈可能な方法は、無関係な特徴を正確かつ効果的に識別できるため、特徴選択のパフォーマンスが大幅に向上します。

機能選択

モノのインターネットの時代では、データは日々ますます速い速度で作成、収集されており、各データ ポイントに関連付けられた何千もの機能を持つデータセットが生成されます。多くの機械学習や人工知能の手法には強力な予測機能がありますが、このような高次元のデータセットでは、さまざまな機能の相対的な品質を理解するモデルが複雑になる可能性があります。実際、モデルをトレーニングするときにすべての高次元データセットを使用する必要はなく、少数の特徴を使用してモデルをトレーニングすることでも、予測パフォーマンスの大部分またはすべてを得ることができます。

特徴選択では、すべての特徴からモデルに役立つ意味のある特徴を選択し、トレーニングのためにすべての特徴をモデルにインポートする必要を回避します。

一般的に、フィルタリング、埋め込み、パッケージ化、次元削減の 4 つの方法から選択できます。パッケージ化方法と埋め込み方法はどちらもアルゴリズム自体の選択に依存しており、つまり機械学習モデルの機能の重要度を評価し、重要度スコアに基づいて予測を行うためにどの機能が最も関連しているかを理解することに基づいています。これは、最も一般的に使用される特徴選択方法の 1 つでもあります。

特徴選択の重要性については多くの説明は必要ないため、モデルによって計算された重要度スコアが実際の状況を反映することが重要です。無関係な特徴の重要性を誤って過大評価すると、誤った発見につながる可能性があります。一方、関連する特徴の重要性を過小評価すると、重要な特徴が破棄され、モデルのパフォーマンスが低下する可能性があります。

さらに、XGBoost のようなブラック ボックス モデルはより高度な予測パフォーマンスを提供しますが、その内部原理は人間にとって理解しにくいため、特徴選択における動作を研究するには、特徴重要度スコアや SHAP などの解釈可能な方法に頼る必要があります。

評価者に基づいて特徴の重要度を計算する原理

前述したように、最も一般的に使用される特徴選択方法の 1 つは、機械学習モデルにおける特徴の重要度を評価することに基づいており、ターゲット変数を予測する際の各特徴の相対的な重要度を定量化しようとします。機能の重要度は、モデル内の各機能の使用によってもたらされるパフォーマンスの増分的な改善を測定し、この情報をモデル全体で要約することによって計算されます。これを使用して、重要性が低い、またはまったくないと考えられる特徴を識別し、モデルから削除することができます。

欠点: 特徴選択方法は、正確である場合にのみ役立ちます。

CARTツリー特徴選択の利点と欠点

ツリーベースのモデルは、その強力さと解釈可能性により、機械学習で最も一般的に使用される方法の 1 つです。 CART などの単一ツリー モデルは、最終的な決定ツリーの分割を観察することで予測ロジックを簡単に追跡できるため、完全に解釈可能です。

ただし、CART は、一度に 1 つの分割でツリーを形成する貪欲なヒューリスティック アプローチを使用してモデルをトレーニングしますが、これには多くの欠点があります。

  • まず、貪欲ヒューリスティックの任意の時点での最適な分割は、ツリーの将来の成長コンテキストでは最適ではないことが示されているため、これにより、グローバルに最適とはほど遠いツリーが生成される場合があります。
  • 第二に、CART アルゴリズムは、すべての特徴を徹底的に検索して各ステップで選択方法を分割するため、より多くの分割ポイントを持つ特徴を選択する傾向があります。特徴選択は一意の値の数が多い特徴に偏る傾向があるため、貪欲アルゴリズムでは、ツリーのルート付近でデータを分割するために使用される特徴(多くの場合、最も重要な特徴)が誤って選択される可能性があります。

ツリーベースのアンサンブル学習者

ランダム フォレストや勾配ブースティング (XGBoost など) などのツリーベースのアンサンブル手法は、多数の個別のツリー モデルの予測を統合することで CART のパフォーマンスを向上させます。これにより、パフォーマンスは確かに向上しますが、モデルの解釈可能性が犠牲になります。何百、何千ものツリー モデル間の相互作用やその他の動作を人間が理解することはほぼ不可能だからです。したがって、これらのモデルの動作メカニズムを理解して説明するには、変数重要度法に頼る必要があることがよくあります。

これらのモデルは、特に多くの潜在的な分割ポイントを持つ機能や、バイアスが発生しやすいデータを含む機能の場合、機能の重要度を計算するときに敏感になる可能性があります。

シャープ

SHAP は、多くの以前のアプローチを統合し、アンサンブル ツリー モデルのバイアスの問題に対処することを目的とした最近の手法であり、ゲーム理論的手法を使用して、各機能が最終的な予測にどのように影響するかを理解し、説明します。 SHAP は、その堅牢性とバイアスの問題への対処能力により、ブラック ボックス モデルの説明や特徴選択の実行に急速に広く使用されるようになりました。

最適ツリー

前述のように、CART はアンサンブル法に比べて予測性能が低くなりますが、アンサンブル法では予測性能を高めるために個々の決定木の解釈可能性を犠牲にせざるを得ず、実践者は性能と解釈可能性のどちらかを選択する必要があります。

Optimal Tree は、混合整数最適化を使用して、1 つのステップでグローバルに最適な決定木を構築します。結果として得られるモデルは、単一の決定木の解釈可能性を維持するだけでなく、ブラック ボックス モデルと同じ高いパフォーマンスも実現します。

この方法では、ツリー内のすべての分割を貪欲に 1 つずつ最適化するのではなく、同時に最適化することを考慮するため、分割の選択は CART と同じバイアスの問題の影響を受けにくいと予想されます。

比較結果

SHAP と XGBoost は、主要な特徴の重要性を一貫して過小評価し、無関係な特徴に大きな重要性を割り当て、ノイズが多い状況では関連する特徴と無関係な特徴を完全に区別することができません。当然ながら、これらは特徴の選択や解釈には使用できません。そうしないと、深刻な結果が生じます。

一方、解釈可能な単一ツリー モデルは、予測に関係のない特徴を識別することに優れており、比較的少ないトレーニング データでそれらの重要度をゼロに減らします。

CART ツリーと比較すると、最適ツリーはグローバル最適化に重点を置いているため、無関係な特徴をより速く識別し、特徴選択のバイアスの問題に対する感度が低くなります。

解釈可能な単一ツリー モデルは完全に透過的であり、無関係な機能の排除に効果的です。最適なツリーを使用すると、パフォーマンスの低下をほとんどまたはまったく伴わずにこれを実現できる場合がよくあります。

参照:

特徴選択における解釈可能性と説明可能性の比較

Interpretable AI Cambridge、MA 02142、Jack Dunn 等

<<:  AI、IoT、クラウド コンピューティング、ブロックチェーンは従業員エクスペリエンスをどのように向上させることができるのでしょうか?

>>:  野生生物の保護: ドローン、ロボット、AI

ブログ    
ブログ    
ブログ    

推薦する

AIがプログラマーの仕事を奪う:2040年にはAIがプログラマーに取って代わる可能性

米国のオークリッジ国立研究所の一部専門家は、2040年までにAI技術がプログラマーに取って代わるほど...

人工知能の急速な発展により、私たちは職を失うことになるのでしょうか?

音声制御システムから今日のいくつかの無人技術まで、人工知能は徐々に成熟しています。ビッグデータセンタ...

ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

ソラの登場はAI界全体に熱狂を巻き起こしたが、ルカンは例外だった。 OpenAI による Sora ...

AI声優が偽の声を本物らしくする方法

AI音声スタートアップ企業のソナンティックは、オーディオディープフェイクで小さな進歩を遂げ、からかっ...

...

AIが建物の運営に及ぼす影響

昨年、ChatGPT とその他の AI 搭載サービス エンジンがリリースされて以来、このテクノロジー...

TensorFlow、危険です! Google自身が放棄している

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

未来:ビッグデータとAIがあなたをより深く理解する

今の時代の発展は本当に速すぎます、それを今実感していただけると思います。 3G から 4G、そして ...

ガートナーは未来を変える5つのテクノロジーを特定

Gartner は、組織のデジタルの未来を変革すると考えられる 5 つのテクノロジーを紹介します。 ...

WiFiベースの電子タグ位置決めアルゴリズム

無線通信の急速な発展に伴い、屋内測位のための無線ネットワークと RFID 技術の組み合わせがますます...

...

人工知能がいかに「知的」であっても、それは人類の奇跡である

テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...

世界トップクラスのAI研究所? DeepMind、OpenAI、FAIRがトップ3を占める

Google、Facebook、Amazon、Apple、Microsoftなどの大手アメリカのテク...

...

ビッグデータと人工知能を活用して英語教育の問題を解決する

1. 英語教育と学習の現状現在、我が国の英語教育は大きな進歩を遂げていますが、依然として我が国の発展...