NVIDIA の RAPIDS cuDF は、データの読み込み、結合、集約、フィルタリング、その他のデータ処理操作に使用できる Python GPU DataFrame ライブラリです。 cuDF は、Apache Arrow 列ストレージを備えた非常に効率的な C++/CUDA データフレーム ライブラリである libcudf に基づいており、GPU 並列処理と高帯域幅のメモリ速度を最大限に活用するために、低レベルの計算最適化に NVIDIA CUDA を利用する GPU アクセラレーション Pandas API を提供します。下の図の通りです。 同時に、cuDF には、GPU 上で Pandas コードを実行でき、Pandas に似た API をサポートし、必要に応じて CPU 上の Pandas に自動的に切り替えて他の操作を実行できる「コード変更ゼロ」の Pandas アクセラレータ (cudf.pandas) が含まれています。 つまり、cuDF の良い使用例は並列処理を置き換えることです。Pandas の処理が遅い場合は、cuDF に切り替えて、面倒な並列処理を記述する必要がなくなります。 以下は、cuDF を使用して Pandas API データ処理操作を高速化するサンプル コードです。 次に、cuDF の使用方法を説明する例として、Python 3.10 と Nvidia T4 GPU を使用してコード全体を実行します。 環境の準備
設定を確認するまず、NVIDIA GPU を使用していることを確認する必要があります。 cuDFライブラリをインストールする
ライブラリのインポート
データセットをダウンロードする
データ分析には標準のPandasライブラリを使用する
コード ブロックに実行時間の計算を追加します。 cudf.pandas ライブラリを使用したデータ分析次に、cudf.pandas 拡張機能を使用して以前の Pandas コードを再実行します。通常、モジュールをインポートする前に、ノートブックに cudf.pandas 拡張機能を読み込む必要があります。したがって、同様の操作をシミュレートするには、カーネルを再起動することをお勧めします。 コードブロックの実行時間からわかるように、同じ操作の場合、cudf.pandas の計算速度が大幅に高速です。 パフォーマンス分析パフォーマンス分析は、プログラム実行の効率を評価するために使用される方法です。コード実行時間、リソース使用率、パフォーマンスのボトルネックなどの側面を分析することで、開発者がプログラムのパフォーマンスを理解し、最適化するのに役立ちます。 cudf.pandas は、GPU アクセラレーション コンピューティングをより有効に活用できるように、コードのどの部分が GPU で実行され、どの部分が CPU で実行されるかを判断するのに役立つパフォーマンス分析ツールも提供します。 注: Google Colab で実行している場合、パフォーマンス分析ツールを初めて実行すると 10 秒以上かかることがあります。これは、Colab のデバッガーがパフォーマンス分析のために組み込みの Python 関数 sys.settrace と対話する必要があるためです。セルを再度実行すると、この問題を解決できます。 次のコードでは、%%cudf.pandas.profile コマンドを使用してコードを cudf.pandas パフォーマンス分析ツールに送信し、GPU でのコード実行を分析して、パフォーマンスのボトルネックと最適化スペースを特定します。 |
<<: Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソース プロジェクトです。
物理学者協会のウェブサイトが28日に伝えたところによると、カナダのコンピューター科学者と生物学者は、...
ニューラルネットワークの威力を示す証拠文字通り、普遍近似定理はニューラル ネットワークがどのように機...
[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
グラフ ニューラル ネットワークは、現実世界に適用する場合、メモリ制限、ハードウェア制限、信頼性制限...
編集者注:人工知能、ブロックチェーン、ロボットなどの破壊的な新技術が継続的に発展する中、人々はそれら...
編集者注: Tomasz Tunguz 氏は RedPoint のパートナーであり、スタートアップが...
みなさんこんにちは。今日は実践的なチュートリアルを皆さんと共有したいと思います。いつものように、まず...
それほど遠くない過去には、データ サイエンス チームがディープラーニングを効果的に活用するには、いく...
物体検出は、コンピューター ビジョンの分野における基本的なタスクです。適切な Model Zoo な...
IBMは木曜日、メインフレーム開発者向けに最近発表した生成型AIコーディング機能をベースに、古いデー...