Scikit-learn をご存知ですか?これらの機能をご存知ですか?

[[229302]]

ビッグデータ概要

編纂者: 王暁奇、大潔瓊、アイリーン

Scikit-learn パッケージのあまり知られていない隠れた機能のいくつかを紹介します。

Scikit-learn は、すべての Python 機械学習パッケージの中で習得しなければならない最も重要なパッケージです。サポートベクターマシン、ランダムフォレスト、勾配ブースティング、k-means、密度ベースクラスタリングアルゴリズム (DBSCAN) など、さまざまな分類アルゴリズム、回帰アルゴリズム、クラスタリングアルゴリズムが含まれており、Python 数値ライブラリ NumPy および科学ライブラリ SciPy と連携するように設計されています。

単一のインターフェースを通じて、さまざまな教師ありおよび教師なしアルゴリズムを提供します。このライブラリは、本番環境での使用時に優れた堅牢性とサポートを実現することを目指しており、使いやすさ、コード品質、コラボレーション、ドキュメント生成、パフォーマンスなどの問題に重点を置いています。

Scikit-learn ライブラリは、機械学習の初心者と経験豊富な専門家の両方が習得するのに最適なパッケージです。ただし、経験豊富な機械学習の専門家であっても、このパッケージに隠されており、タスクを簡単に達成するのに役立つ機能のいくつかに気付いていない可能性があります。次に、この記事では、scikit-learn ライブラリ内のあまり知られていないメソッドやインターフェースをいくつか紹介します。

パイプライン

これを使用して、複数の推定値を 1 つに連結できます。この方法は、通常、特徴選択、正規化、分類など、データを処理する際に固定された一連の手順があるため、非常に便利です。

詳細情報:

http://scikit-learn.org/stable/modules/pipeline.html

グリッド検索

ハイパーパラメータは、パラメータ推定では直接学習されません。scikit-learn ライブラリでは、ハイパーパラメータは推定器クラスのコンストラクターに引数として渡され、ハイパーパラメータ空間で最適なクロス検証スコアが検索されます。パラメータ推定器の構築時に提供されるパラメータは、この方法で最適化できます。

詳細情報:

グリッド検索

検証曲線

それぞれの推定方法には長所と短所があり、その一般化誤差はバイアス、分散、ノイズに分解できます。推定値のバイアスは、異なるトレーニングセットの平均誤差であり、推定値の分散は、異なるトレーニングセットに対する感度であり、ノイズはデータ自体の特性です。

個々のハイパーパラメータがトレーニングスコアと検証スコアに与える影響をプロットすると、推定器が特定のハイパーパラメータ値に対して過剰適合しているか、不足適合しているかがわかるので、非常に便利です。 Scikit-learn ライブラリには、上記のプロセスを実現できる組み込みメソッドがあります。

詳細情報:

参考文献

カテゴリデータのワンホットエンコーディング

これは非常に一般的なデータ前処理手順であり、分類または予測タスク (定量的特徴とテキスト特徴が混在するロジスティック回帰など) でマルチクラス変数を 2 つのカテゴリにエンコードするためによく使用されます。 Scikit-learn ライブラリは、これを実行するための効率的かつ簡単な方法を提供します。 Pandas データフレームまたは Numpy 配列に対して直接操作できるため、ユーザーは特別なマップ関数を記述したり、これらのデータ変換用の関数を適用したりできます。

Scikit-learn ライブラリの詳細情報:

http://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features

多項式特徴生成

数多くの回帰モデリングタスクにおいて、モデルの複雑さを増す一般的な効果的な方法は、説明変数に非線形特性を追加することです。多項式特徴は、特徴の高次項と交差項を取得できるため、シンプルで一般的に使用される方法です。 Scikit-learn ライブラリには、指定された一連の機能とユーザーが選択した最高の多項式に基づいて高次の交差項を生成できる既製の関数があります。

詳細情報:

多項式特徴を生成する

データセットジェネレーター

Scikit-learn ライブラリには、さまざまなサイズと複雑さの人工データセットを構築するために使用できるさまざまなランダムサンプルジェネレーターが含まれており、分類、クラスタリング、回帰、行列分解、および多様体テストの機能を備えています。

詳細情報: http://scikit-learn.org/stable/datasets/index.html#sample-generators

たった今、OpenAI のライバルが Inflection-2.5 をリリースしました!パフォーマンスはGPT-4に匹敵しますが、計算量はわずか40％です。高感情知能アプリケーションPiは、1日あたり100万人のアクティブユーザーを突破しました。

ブログ

ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む

Scikit-learn をご存知ですか?これらの機能をご存知ですか?

ザッカーバーグの45分間の詳細なインタビュー：今後10年間のVRと脳コンピューターインターフェースへの野望を明らかにする

クラウドコンピューティングにおいて人工知能はどのような役割を果たすのでしょうか?

ウーバーの安全担当者が世界初の自動運転車による死亡事故で有罪を認め、3年間の保護観察処分を受ける

人工知能の発展の特徴とその3つのタイプの現れについての簡単な分析

偉大な人物が学界に復帰：何開明氏がMITへの入学を発表

たった今、OpenAI のライバルが Inflection-2.5 をリリースしました!パフォーマンスはGPT-4に匹敵しますが、計算量はわずか40％です。高感情知能アプリケーションPiは、1日あたり100万人のアクティブユーザーを突破しました。

ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む

ディープラーニングでは音声認識の問題を解決できない

調査結果：人工知能はクリエイターにより多くのファンと収入をもたらす可能性がある

推薦する

プレミアリーグファンに朗報：AIはチームの勝率とゴール時間を予測できるのか？

ロボット開発で人気の言語：不滅のJava、不滅のC/C++、そして新興のPython

人工知能とモノのインターネットの統合後の応用シナリオは何ですか?

プリンストン・インフィニゲン・マトリックスが始動！ AI Creatorが爆発するほどリアルな100%自然を創造

米陸軍は航空機、戦車、VR訓練にデジタルツインプロジェクトを導入している

中国チームが最優秀論文賞と最優秀システム論文賞を受賞し、CoRLの受賞論文が発表されました。

ByteDanceのLi Hang: 言語ビッグモデルに関するいくつかの観察と考察

MIT の驚くべき証明: 大きな言語モデルは「世界モデル」ですか?アンドリュー・ン氏の視点が再び確認され、LLMは空間と時間を理解できる

AIは人間のための単なるツールだということをご存知ですか?

テクノロジーは無罪？ AIが女性の服を直接「脱がす」！

デジタルセンサーを使用してピンホールカメラを作るにはどうすればいいですか?