この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 AI の偏りに関する懸念が高まるにつれ、モデルによって生成された予測とモデル自体の仕組みを説明できる実践者の能力がますます重要になります。幸いなことに、上記の問題を解決するために多くの Python ツールキットが開発されています。以下では、機械学習モデルの翻訳と解釈のための既存の確立されたツールキット 4 つについて簡単に説明します。 これらのツールキットは pip 経由でインストールでき、包括的なドキュメントが用意されており、解釈可能性を向上させるために視覚化が重視されています。 イエローブリックこのツールキットは本質的には scikit-learn の拡張機能であり、非常に実用的で美しい機械学習モデルの視覚化ツールを提供します。 `visualiser` オブジェクトはコア インターフェイスであり、scikit-learn 推定器であるため、scikit-learn ワークフローに精通している場合は、非常に馴染み深いものになります。 この視覚化ツールは、モデルの選択、機能の重要性、モデルのパフォーマンス分析などの側面をカバーします。 いくつかの短い例を見てみましょう。 ツールキットは pip 経由でインストールできます。
ツールキットのいくつかの機能を説明するために、scikit-learn のワイン認識データセットを使用します。このデータセットには、13 個の機能と 3 つのターゲット カテゴリが含まれています。 scikit-learn 経由で直接ロードできます。以下のコードでは、データセットをインポートし、それを pandas データフレームに変換します。データセットは、他のデータ処理を行わずにモデルを直接トレーニングするために使用できます。
Scikit-learn は、データをさらにテスト セットとトレーニング セットに分割するために使用されます。
次に、yellowbrick ビジュアライザーを使用して、特徴間の相関関係を観察します。
ここで、ランダム フォレスト分類器を適合させ、別のビジュアライザーを通じてそのパフォーマンスを評価します。
エリ5ELI5 は、機械学習モデルのデバッグや、それらが生成する予測の解釈に非常に役立つ、もう 1 つの視覚化ツールキットです。 scikit-learn、XGBoost、Keras など、ほとんどの一般的な Python 機械学習ツールキットで使用できます。 ELI5 を使用して、上でトレーニングしたモデルの特徴の重要度を観察してみましょう。
デフォルトでは、`show_weights` メソッドは GAIN を使用して重みを計算しますが、他の `importance_type` を渡して特徴の重要度の計算を制御することもできます。 また、`show_prediction` を使用して、特定のサンプルの予測結果の理由を観察することもできます。
ライムLIME (Model-Independent Local Interpretable) は、モデルによって行われた予測を説明するためのツールキットです。 LIME は、さまざまな分類器の単一サンプル予測の説明をサポートし、scikit-learn をネイティブにサポートします。 LIME を使用して、上でトレーニングしたモデルからの予測の一部を解釈してみましょう。 LIMEはpipを使ってインストールできます
まず、トレーニング データセット配列、モデルで使用される機能名、およびターゲット変数のカテゴリ名で初期化される説明を構築します。
次に、モデルを使用してサンプルを予測することを表すラムダ関数を作成します。こちらの優れた、より詳細な LIME チュートリアルをご覧ください。まず、トレーニング データセット配列、モデルで使用される機能名、およびターゲット変数のカテゴリ名で初期化される説明を構築します。
次に、指定したサンプルの予測結果を説明するために、Explainer を使用します。結果は以下の通りです。 LIME は視覚化結果を使用して、得られた予測結果に特徴がどのように影響するかを示します。
MLエクステンドこのツールキットには、機械学習で使用できる一連のユーティリティ関数が含まれています。スタッキングと投票、モデル評価、特徴抽出、特徴エンジニアリング、視覚化を通じて構築された分類器が含まれます。ツールキットのドキュメントに加えて、このホワイト ペーパーもツールキットの詳細を理解するための優れたリソースです。 MLxtend を使用して、アンサンブル分類器の分類境界とそれを構成するサブ分類器の分類境界を比較してみましょう。 同様に、MLxtend も pip 経由でインストールできます。
いくつかのツールキットを紹介します。
次のビジュアライザーは、一度に 2 つの機能のみを入力として受け入れることができるため、配列 ['proline', 'color_intensity'] を作成します。上記の ELI5 を使用して分析した場合、これら 2 つの特徴は最も重要な特徴であるためです。いくつかのツールキットを紹介します。
次に、いくつかの分類器を作成し、それをトレーニング データに適合させ、MLxtend を使用して決定境界を視覚化します。出力は以下のコードから得られます。
上記は、モデルの解釈可能性と視覚化ツールキットの包括的なリストではありません。このブログ投稿には、チェックする価値のある他の便利なツールキットのリストが含まれています。 読んでくれてありがとう! |
<<: Pythonでシンプルだが強力な顔認識システムを書く
[[406559]] Python 中国語コミュニティ (ID: python-china)一部の予...
Googleは現在、コア検索アルゴリズムに変更を加えており、検索結果の最大10分の1のランキングに影...
遺伝的アルゴリズムはランダムなグローバル最適化アルゴリズムです。人工ニューラル ネットワークと並んで...
10年前の2010年2月、同社初のバーチャルパーソナルアシスタントアプリであるSiriがApple...
最近の人工知能の進歩は目覚ましいものがあります。人工システムは、アタリのビデオゲーム、古代のボードゲ...
IoT によって促進される相互接続性と AI の学習機能は、幅広い問題を解決する可能性を示しています...
[[435206]]近年、ディープニューラルネットワークは多くの科学技術上の問題において優れたパフ...
近年、自然言語処理における事前トレーニングは研究分野でホットな話題となっており、有名なGPT-3も新...
機械学習の初心者であっても、中級プログラマーであっても、この質問に戸惑うかもしれません。チートシート...
7月29日、これまでの多くの噂がついに確認された。マイクロソフトとヤフーは10年間の検索協力契約を締...
近年、3D自然シーンの生成に関する研究は盛んに行われていますが、3D都市の生成に関する研究はまだほと...
覚えていますか? 「小都」はかつて「The Brain」の舞台でエネルギー溢れる出場者たちと競い合い...
4月26日、中国サイバースペース管理局の主催で「人工知能-社会実験の観点から見た社会ガバナンス」を...
機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...