Scikit-learn Python ライブラリは 2007 年に最初にリリースされ、さまざまな機械学習やデータ サイエンスの問題を解決するためによく使用されています。この多用途のライブラリは、クリーンかつ一貫性のある効率的な API と包括的なオンライン ドキュメントを提供します。 Scikit-learn とは何ですか?Scikit-learn は、強力なデータ分析およびデータマイニング ツールを備えたオープン ソースの Python ライブラリです。 BSD ライセンスの下で利用可能であり、次の機械学習ライブラリ上に構築されています。
Scikit-learn は、データ サイエンス プロジェクトで十分に活用できる幅広い組み込みアルゴリズムを提供します。 Scikit-learn ライブラリを使用する主な方法は次のとおりです。 1. 分類分類ツールは、提供されたデータに関連付けられたカテゴリを識別します。たとえば、電子メールをスパムかそうでないか分類するために使用できます。 Scikit-learn の分類アルゴリズムには次のものがあります。
2. 回帰回帰では、入力データと出力データの関係を理解しようとするモデルを作成します。たとえば、回帰ツールを使用すると株価の動きを理解できます。 回帰アルゴリズムには次のものがあります。
3. クラスタリングScikit-learn クラスタリング ツールは、類似した特性を持つデータを自動的にグループ化するために使用されます。 たとえば、顧客データは場所に基づいてセグメント化できます。 クラスタリング アルゴリズムには次のものがあります。
4. 次元削減次元削減により、分析に使用されるランダム変数の数が削減されます。たとえば、周辺データは視覚化の効率を向上させるために考慮されない場合があります。 次元削減アルゴリズムには以下のものがあります。
5. モデルの選択モデル選択アルゴリズムは、データ サイエンス プロジェクトで使用する最適なパラメーターとモデルを比較、検証、選択するためのツールを提供します。 パラメータ調整によって精度を向上できるモデル選択モジュールには次のものがあります。
6. 前処理Scikit-learn 前処理ツールは、データ分析中の特徴抽出と正規化において非常に重要です。 たとえば、これらのツールを使用して、テキストなどの入力データを変換し、その特性を分析に適用できます。 前処理モジュールには以下が含まれます。
Scikit-learn ライブラリの例簡単な例を使って、データ サイエンス プロジェクトで Scikit-learn ライブラリを使用する方法を説明しましょう。 Scikit-learn ライブラリに含まれている Iris flower データセットを使用します。 アイリスの花のデータセットには、3 種類の花に関する 150 の詳細が含まれています。
データセットには、花の種類ごとに次の特徴が含まれています (センチメートル単位で測定)。
ステップ1: ライブラリをインポートするアイリスの花のデータセットは Scikit-learn データ サイエンス ライブラリに含まれているため、次のようにしてワークスペースに読み込むことができます。
これらのコマンドは、 ステップ2: データセットの特徴を取得する
Scikit-learn では、データセットはデータに関するすべての詳細が含まれる辞書のようなオブジェクトを指します。 データは、配列リストである たとえば、
出力は次のとおりです (結果は切り捨てられています)。
また、
出力は次のようになります。
Python コードを実行した結果は次のとおりです。
ステップ3: データセットを視覚化するボックス プロットを使用して、アイリス データセットの視覚的な表現を生成できます。 ボックス プロットは、データが四分位数を通る平面上でどのように分布しているかを示します。 これを実現する方法は次のとおりです。
結果を見てみましょう: 水平軸について:
縦軸の寸法はセンチメートル単位です。 要約する以下は、このシンプルな Scikit-learn データ サイエンス チュートリアルの完全なコードです。
Scikit-learn は、データ サイエンス プロジェクトを効率的に完了するために使用できる多目的 Python ライブラリです。 |
<<: アマゾン、AIが女性の求職者に低い評価を与えたため研究チームを解散に追い込まれる
科学者たちは最近、AI に数学の授業をさせることに夢中になっていると言わざるを得ません。現在、Fac...
9月12日、複数の投資家は、NVIDIAがすでに人工知能(AI)チップ製造の分野で優位に立っており...
写真トークン、ベクトル、埋め込み、アテンション、これらの AI モデル用語は、いつも馴染みがありそう...
人類史上のスーパープロジェクトとは何でしょうか?ピラミッド、万里の長城、ドバイワールドアイランド、三...
現実には、あらゆる種類の印刷されたテキストや、周囲のあらゆるものを何の障害もなく簡単に読むことができ...
MoE(Mixed of Experts)モデルは最近とても人気があるので、詳しく紹介する必要はな...
Microsoft は最近、AI 駆動型コンテンツ モデレーション システムを監査し、AI モデルの...
[51CTO.com からのオリジナル記事] インターネットの継続的な更新と反復により、ネットワーク...
[[199395]]導入機械学習におけるモデルパラメータとモデルハイパーパラメータは機能やソースが...
[[434349]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
AppleがSiriを発表してから7年、そしてジェフ・ベゾスがスタートレックにインスピレーションを得...
OpenAIは7月21日、カスタム指示機能のリリースを発表しました。この機能はまずPLUSプランのベ...
IT リーダーはすでに人工知能と機械学習テクノロジーの恩恵を受けています。最近の調査によると、経済が...