機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあります。幸いなことに、Pythonはビッグデータや機械学習のさまざまなツールで広く使用されている言語であり、その利用範囲は極めて広いです。機械学習には通常、多くの手作業による作業、ワークフローとパイプラインの組み立て、データ ソースの設定、オンプレミスとクラウドに展開されたリソース間の切り替えが伴います。これら 5 つの Python ライブラリは、たとえば AWS Lambda を使用して計算負荷の高いジョブをシャーディングしたり、TensorFlow モデルを使用して TensorFlow をオフロードしたりすることで、データ パイプラインの高速化に役立ちます。
ピュレン 強力な前提を備えたシンプルなパッケージである PyWren を使用すると、Python ベースの科学計算ワークロードを AWS Lambda 関数の複数のインスタンスとして実行できます。 The New Stack のプロジェクト プロファイルでは、PyWren は主にメモリやストレージをあまり消費しない小規模プロジェクト向けに、並列処理システムとして AWS Lambda を使用すると説明されています。 PyWren の欠点の 1 つは、ラムダ関数を最大 300 秒以上実行できないことです。ジョブが数分しかかからず、データセット上で数千回実行される場合、ハードウェアでは利用できない規模でクラウド内で作業を並列化できるため、PyWren が適切な選択肢となる可能性があります。 Tfdeploy Google の TensorFlow フレームワークは機械学習分野で傑出した存在として登場し、現在は完全な 1.0 リリースとなっています。ユーザーはよく、「TensorFlow 自体を使用せずに TensorFlow でモデルをトレーニングするにはどうすればよいか」という質問に直面します。 Tfdeploy はこの問題に対する部分的な答えです。トレーニング済みの TensorFlow モデルを「シンプルな NumPy ベースの呼び出し可能なモデル」としてエクスポートします。つまり、Tfdeploy と NumPy 数学および統計ライブラリのみを依存関係として使用して、Python でモデルを実行できます。 TensorFlow で実行できるほとんどの操作は Tfdeploy でも実行でき、ライブラリの動作は標準の Python メタファー (クラスのオーバーロードなど) を通じて拡張できます。 残念なことに、Tfdeploy は GPU アクセラレーションをサポートしていません。NumPy を使用してこれを克服できれば良いのですが。 Tfdeploy の作成者は、代替案として gNumPy プロジェクトを提案しています。 ルイージ バッチ処理は多くの場合、データ パイルの処理の一部にすぎず、すべてのタスクをワークフローに似たものにまとめる必要があります。 Luigi は Spotify によって作成され、「バッチ プロセスの実行に関連するすべてのパイプラインの問題を解決する」ために位置付けられています。 Luigi を使用すると、開発者は、Hive クエリ、Java の Hadoop ジョブ、Scala の Spark ジョブ、データベースからのテーブルのダンプなど、いくつかの異なる無関係なデータ処理タスクを取得し、それらをエンドツーエンドで実行するワークフローを作成できます。タスクとその依存関係の完全な説明は、XML 構成ファイルやその他のデータ形式ではなく、Python モジュールとして作成されるため、他の Python 中心のプロジェクトに統合できます。 クベリブ Kubernetes を機械学習タスクのオーケストレーション システムとして使用する場合は、多くの問題を生み出すのではなく、Kubernetes を使用してより多くの問題を解決する必要があります。 Kubelib は、当初 Jenkins スクリプトとして記述された、Kubernetes 用の Python インターフェースのセットを提供します。ただし、Jenkins がなくても使用でき、kubectl CLI または Kubernetes API によって公開されるすべての操作を実行できます。 パイトーチ Torch 機械学習フレームワークを実装するツールである、最近発表された Python の注目の新製品を忘れないでください。 PyTorch は Torch を Python に移植するだけでなく、GPU アクセラレーションや共有メモリを使用したマルチプロセス処理を可能にするライブラリ (複数のコア間でジョブを分割するため) など、他の多くの便利な機能も追加します。最も重要なのは、NumPy の一部の非高速関数に対して GPU 高速化による代替を提供できることです。 |
<<: 14,000元の費用でディープラーニングサーバーを自分で構築するにはどうすればいいでしょうか?
>>: ピュー研究所:アルゴリズム時代の7つの主要テーマとその主な影響
「もし誰かが(ディープラーニングが)壁にぶつかったと言うなら、ディープラーニングではできないことの...
モデルのハードウェア要件に関して、まず頭に浮かぶのは計算量、つまりディープラーニング モデルがフィー...
近年、機械学習データ(MLデータ)を深く理解する必要性に対する認識が高まっています。しかし、大規模な...
実際、AI と ML はほとんどの人間によるやりとりを置き換えつつあります。市場にはチャットボットや...
現在、人工知能や予測分析などのテクノロジーは、多くのストレージ製品に組み込まれています。これらのテク...
現在、革命的な変化の波が進行しており、企業が顧客や企業にサービスを提供する方法を変えていると考えられ...
2週間に及ぶ「舌戦」の末、チューリング賞受賞者でフェイスブックの主任AI科学者であるヤン・ルカン氏...
アメリカは顔認識技術と全面的に戦っている。米ニューヨーク州は最近、2022年まで学校での顔認識やその...
[[264843]]人工知能の基本的な技術アプリケーションとして、コンピューター ビジョンは、その幅...
人工知能 (AI) と機械学習 (ML) を使用したセキュリティ ソフトウェアを標的としたデータ ポ...
「私の仕事はロボットに置き換えられるのでしょうか?」人工知能の急速な発展により、ますます多くの人々...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキスト ウィンドウを処理する...