機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあります。幸いなことに、Pythonはビッグデータや機械学習のさまざまなツールで広く使用されている言語であり、その利用範囲は極めて広いです。機械学習には通常、多くの手作業による作業、ワークフローとパイプラインの組み立て、データ ソースの設定、オンプレミスとクラウドに展開されたリソース間の切り替えが伴います。これら 5 つの Python ライブラリは、たとえば AWS Lambda を使用して計算負荷の高いジョブをシャーディングしたり、TensorFlow モデルを使用して TensorFlow をオフロードしたりすることで、データ パイプラインの高速化に役立ちます。
ピュレン 強力な前提を備えたシンプルなパッケージである PyWren を使用すると、Python ベースの科学計算ワークロードを AWS Lambda 関数の複数のインスタンスとして実行できます。 The New Stack のプロジェクト プロファイルでは、PyWren は主にメモリやストレージをあまり消費しない小規模プロジェクト向けに、並列処理システムとして AWS Lambda を使用すると説明されています。 PyWren の欠点の 1 つは、ラムダ関数を最大 300 秒以上実行できないことです。ジョブが数分しかかからず、データセット上で数千回実行される場合、ハードウェアでは利用できない規模でクラウド内で作業を並列化できるため、PyWren が適切な選択肢となる可能性があります。 Tfdeploy Google の TensorFlow フレームワークは機械学習分野で傑出した存在として登場し、現在は完全な 1.0 リリースとなっています。ユーザーはよく、「TensorFlow 自体を使用せずに TensorFlow でモデルをトレーニングするにはどうすればよいか」という質問に直面します。 Tfdeploy はこの問題に対する部分的な答えです。トレーニング済みの TensorFlow モデルを「シンプルな NumPy ベースの呼び出し可能なモデル」としてエクスポートします。つまり、Tfdeploy と NumPy 数学および統計ライブラリのみを依存関係として使用して、Python でモデルを実行できます。 TensorFlow で実行できるほとんどの操作は Tfdeploy でも実行でき、ライブラリの動作は標準の Python メタファー (クラスのオーバーロードなど) を通じて拡張できます。 残念なことに、Tfdeploy は GPU アクセラレーションをサポートしていません。NumPy を使用してこれを克服できれば良いのですが。 Tfdeploy の作成者は、代替案として gNumPy プロジェクトを提案しています。 ルイージ バッチ処理は多くの場合、データ パイルの処理の一部にすぎず、すべてのタスクをワークフローに似たものにまとめる必要があります。 Luigi は Spotify によって作成され、「バッチ プロセスの実行に関連するすべてのパイプラインの問題を解決する」ために位置付けられています。 Luigi を使用すると、開発者は、Hive クエリ、Java の Hadoop ジョブ、Scala の Spark ジョブ、データベースからのテーブルのダンプなど、いくつかの異なる無関係なデータ処理タスクを取得し、それらをエンドツーエンドで実行するワークフローを作成できます。タスクとその依存関係の完全な説明は、XML 構成ファイルやその他のデータ形式ではなく、Python モジュールとして作成されるため、他の Python 中心のプロジェクトに統合できます。 クベリブ Kubernetes を機械学習タスクのオーケストレーション システムとして使用する場合は、多くの問題を生み出すのではなく、Kubernetes を使用してより多くの問題を解決する必要があります。 Kubelib は、当初 Jenkins スクリプトとして記述された、Kubernetes 用の Python インターフェースのセットを提供します。ただし、Jenkins がなくても使用でき、kubectl CLI または Kubernetes API によって公開されるすべての操作を実行できます。 パイトーチ Torch 機械学習フレームワークを実装するツールである、最近発表された Python の注目の新製品を忘れないでください。 PyTorch は Torch を Python に移植するだけでなく、GPU アクセラレーションや共有メモリを使用したマルチプロセス処理を可能にするライブラリ (複数のコア間でジョブを分割するため) など、他の多くの便利な機能も追加します。最も重要なのは、NumPy の一部の非高速関数に対して GPU 高速化による代替を提供できることです。 |
<<: 14,000元の費用でディープラーニングサーバーを自分で構築するにはどうすればいいでしょうか?
>>: ピュー研究所:アルゴリズム時代の7つの主要テーマとその主な影響
コンピュータシミュレーション技術の継続的な発展のおかげで、ますますリアルな現実世界をコンピュータで再...
報告書は、経済の分離と地政学的な二極化が進む時代に、優れたデジタルまたはスマートなパートナーシッ...
Shopee は世界中の複数の市場にサービスを提供する電子商取引プラットフォームであり、消費者に、よ...
[[398923]]この記事はWeChatの公開アカウント「Angela's Blog」か...
海外のゲームプログラミングの達人、SethBling氏が新しいガジェットをリリースした。同氏は以前、...
[[194517]]機械学習に代表される人工知能の分野は、現在、科学技術分野で最もホットな分野の一つ...
Google と他のチームは、遺伝的プログラミングの最新の成果である AutoRobotics-Ze...
近年、顔認識技術は急速に発展し、入場時の顔スキャンや支払い時の顔スキャンに広く使用され、私たちの日常...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をい...
現在、データはデジタル環境に残っており、共有する動機はほとんどありません。これにより、Google、...
[[355495]]人類社会は情報化から知能化へと移行しています。人工知能は知能化を実現するための重...
シナリオの観点から、音声認識はストリーミング音声認識と非ストリーミング音声認識に分けられます。非スト...