ビッグデータ概要 編纂者: 王暁奇、大潔瓊、アイリーン Scikit-learn パッケージのあまり知られていない隠れた機能のいくつかを紹介します。 Scikit-learn は、すべての Python 機械学習パッケージの中で習得しなければならない最も重要なパッケージです。サポートベクターマシン、ランダムフォレスト、勾配ブースティング、k-means、密度ベースクラスタリングアルゴリズム (DBSCAN) など、さまざまな分類アルゴリズム、回帰アルゴリズム、クラスタリングアルゴリズムが含まれており、Python 数値ライブラリ NumPy および科学ライブラリ SciPy と連携するように設計されています。 単一のインターフェースを通じて、さまざまな教師ありおよび教師なしアルゴリズムを提供します。このライブラリは、本番環境での使用時に優れた堅牢性とサポートを実現することを目指しており、使いやすさ、コード品質、コラボレーション、ドキュメント生成、パフォーマンスなどの問題に重点を置いています。 Scikit-learn ライブラリは、機械学習の初心者と経験豊富な専門家の両方が習得するのに最適なパッケージです。ただし、経験豊富な機械学習の専門家であっても、このパッケージに隠されており、タスクを簡単に達成するのに役立つ機能のいくつかに気付いていない可能性があります。次に、この記事では、scikit-learn ライブラリ内のあまり知られていないメソッドやインターフェースをいくつか紹介します。 パイプライン これを使用して、複数の推定値を 1 つに連結できます。この方法は、通常、特徴選択、正規化、分類など、データを処理する際に固定された一連の手順があるため、非常に便利です。 詳細情報: http://scikit-learn.org/stable/modules/pipeline.html グリッド検索 ハイパーパラメータは、パラメータ推定では直接学習されません。scikit-learn ライブラリでは、ハイパーパラメータは推定器クラスのコンストラクターに引数として渡され、ハイパーパラメータ空間で最適なクロス検証スコアが検索されます。パラメータ推定器の構築時に提供されるパラメータは、この方法で最適化できます。 詳細情報: グリッド検索 検証曲線 それぞれの推定方法には長所と短所があり、その一般化誤差はバイアス、分散、ノイズに分解できます。推定値のバイアスは、異なるトレーニング セットの平均誤差であり、推定値の分散は、異なるトレーニング セットに対する感度であり、ノイズはデータ自体の特性です。 個々のハイパーパラメータがトレーニング スコアと検証スコアに与える影響をプロットすると、推定器が特定のハイパーパラメータ値に対して過剰適合しているか、不足適合しているかがわかるので、非常に便利です。 Scikit-learn ライブラリには、上記のプロセスを実現できる組み込みメソッドがあります。 詳細情報: 参考文献 カテゴリデータのワンホットエンコーディング これは非常に一般的なデータ前処理手順であり、分類または予測タスク (定量的特徴とテキスト特徴が混在するロジスティック回帰など) でマルチクラス変数を 2 つのカテゴリにエンコードするためによく使用されます。 Scikit-learn ライブラリは、これを実行するための効率的かつ簡単な方法を提供します。 Pandas データ フレームまたは Numpy 配列に対して直接操作できるため、ユーザーは特別なマップ関数を記述したり、これらのデータ変換用の関数を適用したりできます。 Scikit-learn ライブラリの詳細情報: http://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features 多項式特徴生成 数多くの回帰モデリング タスクにおいて、モデルの複雑さを増す一般的な効果的な方法は、説明変数に非線形特性を追加することです。多項式特徴は、特徴の高次項と交差項を取得できるため、シンプルで一般的に使用される方法です。 Scikit-learn ライブラリには、指定された一連の機能とユーザーが選択した最高の多項式に基づいて高次の交差項を生成できる既製の関数があります。 詳細情報: 多項式特徴を生成する データセットジェネレーター Scikit-learn ライブラリには、さまざまなサイズと複雑さの人工データセットを構築するために使用できるさまざまなランダム サンプル ジェネレーターが含まれており、分類、クラスタリング、回帰、行列分解、および多様体テストの機能を備えています。 詳細情報: http://scikit-learn.org/stable/datasets/index.html#sample-generators 関連レポート: https://heartbeat.fritz.ai/some-essential-hacks-and-tricks-for-machine-learning-with-python-5478bc6593f2 [この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: Microsoft AI の面接の質問はどれくらい難しいですか?サンプルロールはこちら
>>: McKinsey AI Notes: 19 の業界における 400 を超える人工知能の使用事例を解読すると、1 兆ドルの価値はどこにあるのか?
高齢者介護サービスも人工知能を積極的に取り入れる必要がある。両者を統合し、相互に補強し、高齢者の多様...
報告書によると、医療における人工知能の主な応用分野の一つである医療ロボットの市場規模は2019年に4...
最近、「被験者 3」について多かれ少なかれ耳にしたことがあるかもしれません。握手、軽く捻挫した足、リ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[443228]]現在、自己教師あり学習は、手動によるラベル付けを必要とせずに強力な視覚特徴抽出機...
OpenAIの共同創設者であるヴォイチェフ・ザレンバ氏はポッドキャストで、OpenAIがロボット工学...
画像マッティングとは、画像内の正確な前景を抽出することを指します。現在の自動方法では、画像内のすべて...
【51CTO.comオリジナル記事】 [[376669]]医療は人々の生活に関わる最も重要な問題の一...
近年、グラフ構造の強力な表現力により、機械学習の手法を用いたグラフ解析の研究が注目を集めています。グ...
突然、花形「超高速鉄道」企業ハイパーループ・ワンが倒産し、従業員の大半を解雇し、12月31日に完全に...
人工知能 (AI)、ロボット工学、自動化の融合により、生産性、効率性、革新の新しい時代が到来していま...
定義上、人工知能 (AI) は人間の脳の働きを模倣して組織活動を最適化することを目的としています。 ...