データサイエンスに必須の Python パッケージ 10 個

データサイエンスに必須の Python パッケージ 10 個

[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高まりました。データサイエンスや機械学習に適したプログラミング言語は数多くありますが、最も人気があるのはPythonです。

Python は機械学習に最適な言語であるため、この記事では最も人気のある機械学習パッケージを含む、10 個の重要な Python 中心のデータ サイエンス パッケージについて説明します。

サイキットラーン

Scikit-Learn は、SciPy と NumPy をベースにした Python 機械学習モジュールです。これは、Google Summer of Code プロジェクトとして David Cournapeau によって開発されました。それ以来、コミット数は 20,000 件を超え、リリース数は 90 件を超えるまでに成長しました。 JPMorgan Chase や Spotify などの企業は、データ サイエンスの取り組みにこれを使用しています。

Scikit-Learn は学習曲線が緩やかなので、企業のビジネスパーソンでも使用できます。たとえば、Scikit-Learn の公式 Web サイト (https://scikit-learn.org/stable/auto_examples/index.html#examples-based-on-real-world-datasets) にある一連のチュートリアルでは、実際のデータセットを分析する方法が説明されています。初心者で機械学習ライブラリを学びたい場合、Scikit-Learn が最適な選択です。

要件は次のとおりです。

  • Python 3.5以上
  • NumPy 1.11.0 以上
  • SciPy 0.17.0以上

パイトーチ

PyTorch は 2 つの点で優れています。まず、強力な GPU を使用してテンソル計算を高速化します。 2 番目に、テープベースの autograd システム上に動的なニューラル ネットワークを構築し、再利用とパフォーマンスの向上を実現します。これら両方の機能を簡単に習得できるパッケージを求めている学者やエンジニアにとって、PyTorch は最適です。

PyTorch は特定の状況で優れています。たとえば、前述のように、GPU を使用してテンソルをより速く計算したいですか? NumPy ではそれができないため、PyTorch を使用します。言語処理に RNN を使用したいですか? ランタイム定義の機能があるため、PyTorch を使用してください。あるいは、ディープラーニングを使いたいけれど初心者ですか? Scikit-Learn はディープラーニングには適していないため、PyTorch を使用してください。

PyTorch の要件はオペレーティング システムによって異なります。インストールは Scikit-Learn よりも少し複雑です。 「はじめに」ページをガイドとして使用することをお勧めします。通常、次のものが必要です。

  • Python 3.6以上
  • Conda 4.6.0 以上

カフェ

Caffe は畳み込みネットワークを実装するための最も高速なツールの 1 つであり、画像認識に最適です。画像の処理に優れています。

Yangqing Jia 氏は、カリフォルニア大学バークレー校で博士号取得を目指しながら Caffe の開発を始めました。これは BSD 2 条項ライセンスの下でリリースされており、市場で最も高性能なディープラーニング フレームワークの 1 つとして高く評価されています。公式サイトによれば、Caffe の画像処理速度は非常に驚異的で、「1 つの NVIDIA K40 GPU を使用して 1 日あたり 6,000 万枚以上の画像を処理できる」と主張しています。

学習曲線はまだ比較的緩やかですが、Caffe では少なくとも機械学習に関する中級レベルの知識があることを前提としていることを強調しておきます。

PyTorch と同様に、要件はオペレーティング システムによって異なります。インストール ガイドについては、こちら (http://caffe.berkeleyvision.org/installation.html) を参照してください。可能であれば、すぐに使用できるように Docker 版を使用することをお勧めします。必須の依存関係は次のとおりです。

  1. GPU モード用の CUDA (https://developer.nvidia.com/cuda-zone)
  • ライブラリバージョン7以上と最新のドライババージョンが推奨されますが、6シリーズバージョンも良いです
  • 5.5 は 5.0 と互換性がありますが、古いバージョンと見なされます。
  1. BLAS (http://en.wikipedia.org/wiki/Basic_Linear_Algebra_Subprograms)、ATLAS、MKL、または OpenBLAS 経由
  2. Boost 1.55 以上 (http://www.boost.org/)

テンソルフロー

TensorFlow は、いくつかの非常に良い理由から、最も有名な機械学習ライブラリの 1 つです。データフローグラフを使用した数値計算に優れています。

TensorFlow はもともと Google Brain によって開発されたオープンソースです。さまざまなタスクにデータフローグラフと微分可能プログラミングを使用し、これまでに作成された中で最も柔軟で強力な機械学習ライブラリの 1 つとなっています。

大規模なデータセットを迅速に処理する必要がある場合、これは無視できないライブラリです。

最新の安定バージョンは v1.13.1 ですが、新しい v2.0 は現在ベータ テスト中です。

テアノ

Theano は、ディープラーニング開発用の最も初期のオープンソース ソフトウェア ライブラリの 1 つであり、高速コンピューティングに最適です。

Theano は 2017 年の v1.0 のリリース後に大規模な開発の停止を発表しましたが、その歴史を研究することはまだ可能です。この Python パッケージがデータ サイエンス向けトップ 10 のリストに載っているのは、このパッケージに精通していれば、その革新が後にどのように進化して、今日の競合ライブラリに見られる機能になったかについて、大まかな見当がつくからです。

パンダ

Pandas は、Python で書かれた強力で柔軟なデータ分析ライブラリです。厳密には機械学習ライブラリではありませんが、大規模なデータセットのデータ分析や処理に適しています。特に、データ構造 (DataFrame など)、時系列の操作と分析、数値データ テーブルに使用するのが好きです。大企業やスタートアップ企業の多くのビジネス従業員は、分析に Pandas を簡単に使用できます。さらに、使い始めるのは非常に簡単で、データ分析機能は競合するライブラリに匹敵します。

Pandas を使用する場合は、次のものが必要です。

  • Setuptools バージョン 24.2.0 以降
  • NumPy バージョン 1.12.0 以上
  • Python dateutil 2.5.0 以上
  • クロスプラットフォームのタイムゾーン計算のためのpytz

ケラス

Keras は迅速な実験のために設計されています。 TensorFlow などの他のフレームワークでも実行できます。ディープラーニング ライブラリとして、Keras はプロトタイピングを簡単かつ迅速に行うことで知られています。

Keras は、使いやすい API のため、ディープラーニング ライブラリ愛好家の間で人気があります。 Jeff Hale 氏は主要なディープラーニング フレームワークの分類とランキングを行いましたが、Keras は劣っていません。

Keras に必要なのは、TensorFlow、Theano、CNTK の 3 つのバックエンド エンジンのいずれかだけです。

ナンピ

NumPy は、Python による科学計算に必要な必須パッケージです。科学計算用の使いやすい Python ライブラリを求める研究者にとって、これは最適な選択肢です。実際、NumPy はまさにこの目的のために設計されました。配列の計算がはるかに簡単になります。

もともと、NumPy コードは SciPy の一部でした。しかし、仕事で配列オブジェクトを使用する必要がある科学者は、かさばる SciPy パッケージをインストールする必要があります。これを回避するために、SciPy とは別に NumPy という新しいパッケージが作成されました。

NumPy を使用する場合は、Python 2.6.x、2.7.x、3.2.x 以上が必要です。

マトプロット

Matplotlib は、クロスプラットフォームのチャートやグラフを簡単に作成できる Python 2D プロット ライブラリです。

これまで、私たちは多くの機械学習、ディープラーニング、さらには高速コンピューティングフレームワークを導入してきました。しかし、データサイエンスでは、グラフやチャートを描くことも必要です。データ サイエンスと Python について話すとき、プロットとデータの視覚化のための Matplotlib がすぐに思い浮かびます。出版物品質の図や表を作成するのに最適です。

長期サポートの場合、現在の安定バージョンは v2.2.4 ですが、最新機能を入手するには v3.0.3 をダウンロードできます。 Python 2 のサポートは廃止されたため、Python 3 以降が必要になります。

サイパイ

SciPy は、主に数学、科学、工学におけるデータ サイエンス用のパッケージの大規模なライブラリです。技術的および科学的な計算を実行するために必要なものをすべて求めているデータ サイエンティストまたはエンジニアであれば、SciPy が最適です。

SciPy は NumPy 上に構築されているため、同じターゲット ユーザーを対象としています。多数のサブパッケージがあり、それぞれがフーリエ変換、信号処理、最適化アルゴリズム、空間アルゴリズム、最近傍法などの特定の領域に焦点を当てています。実際、これは典型的なデータ サイエンティストが必要とする Python コンパニオン ライブラリです。

要件に関して言えば、SciPy が必要な場合は NumPy も必要です。

これらは、データ サイエンスに関連する上位 10 の Python ライブラリです。

原題: Python に必須のデータ サイエンス パッケージ 10 選、著者: TJ Simmons

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  ボストン・ダイナミクスの二足歩行ロボット「アトラス」が驚異的な体操ショーを披露、ネットユーザー「恐ろしい」

>>:  AI軍拡競争により、将来のAIハードウェアアーキテクチャの開発に3つの主要な方向性が生まれました。

ブログ    

推薦する

マスク氏と陳天橋氏の両者が期待している脳コンピューターインターフェースは、将来いつ実現するのだろうか?

[[415853]]失語症の人は再び話せるようになり、聴覚障害の人は再び聞こえるようになり、四肢麻...

...

2019 年に CIO が AI 導入をリードできる 5 つの方法

[[261760]]詳細な宿題のレビューからバックオフィスの自動化まで、AI の進歩は今後 1 年間...

AIインテリジェンスを活用して企業の効率性を向上させる方法

人工知能はさまざまな分野から深い注目を集めており、人工知能分野のディープラーニングとインテリジェント...

複数の機会が生まれており、虹彩認識技術の将来の発展は有望である

[[424491]]近年、人工知能ブームの影響を受けて、生体認証技術は急速に進歩し、市場の発展も好調...

世界の主要なテクノロジー企業は新型コロナウイルスとどう戦っているのか?

[[319653]]新型コロナウイルスは、ウイルス自体の急速な拡散という点だけでなく、ますます多く...

...

...

これはアリババに入社してジャック・マーと一緒に働けるようになる良いニュースです。これを逃すと何年も待たなければなりません。

ジャック・マーがあなたをアリババに来て一緒に働くように呼んでいます〜これ以上くだらないことは言いませ...

2021年のAIの発展:エッジAIは止められない

[[388887]]人工知能研究を専門とする外国の機関が、人工知能の実務家を対象に、2021年の人工...

...

...

...

デジタル変革とAIイノベーションが銀行業界を新たな時代へ導く

急速な技術進歩と規制環境の変化が進む時代において、銀行が競争力を維持し、規制に準拠する必要性がかつて...

エッジコンピューティング時代の到来は AI にどのような影響を与えるのでしょうか?

[[270736]]近年、人工知能はテクノロジー界で注目されている分野です。中国では、Megvii...