機械学習の実践: Spark と Python を組み合わせるには?

Apache Sparkはビッグデータの処理や活用に最も広く使われているフレームワークの一つであり、Pythonはデータ分析や機械学習などの分野で最も広く使われているプログラミング言語の一つです。より強力な機械学習機能を手に入れたいなら、Spark と Python を一緒に使ってみてはいかがでしょうか?

海外では、Apache Spark 開発者の平均年収は 11 万ドルです。この業界で Spark が広く使用されていることは間違いありません。 Python は、豊富なライブラリを備えているため、ほとんどのデータサイエンティストや分析の専門家にも使用されています。両者の統合はそれほど難しくありません。Spark は、Java に非常によく似た言語である Scala で開発されています。 Spark ビッグデータ処理用にプログラムコードを JVM バイトコードにコンパイルします。 Spark と Python を統合するために、Apache Spark コミュニティは PySpark をリリースしました。

Apache Spark は、Apache Software Foundation によって開発された、リアルタイム処理用のオープンソースクラスターコンピューティングフレームワークです。 Spark は、暗黙的なデータ並列性とフォールトトレランスを備えたクラスター全体をプログラミングするためのインターフェイスを提供します。

他のフレームワークに比べて優れている Apache Spark の機能をいくつか紹介します。

速度: 従来の大規模データ処理フレームワークよりも 100 倍高速です。
強力なキャッシュ: シンプルなプログラミングレイヤーにより、強力なキャッシュ機能とディスク永続化機能が提供されます。
デプロイメント: Mesos、Yarn、または Spark 独自のクラスターマネージャーを介してデプロイできます。
リアルタイム: インメモリコンピューティング、リアルタイムコンピューティング、低レイテンシ。
ポリグロット: Scala、Java、Python、R でプログラミングできるため、これはこのフレームワークの最も重要な機能の 1 つです。

Spark は Scala で設計されており、Python よりも 10 倍高速ですが、Scala の速度の利点は、使用されるコアの数が少ない場合にのみ現れます。最近のほとんどの分析と処理には多数のコアが必要なので、Scala のパフォーマンス上の利点はそれほど大きくありません。

プログラマーにとって、Python は豊富な構文と標準ライブラリを備えているため、比較的簡単に学習できます。さらに、RDD は動的型付け言語であるため、複数のタイプのオブジェクトを保持できます。

Scala には SparkMLlib がありますが、機械学習や NLP を実装するためのライブラリやツールが十分にありません。さらに、Scala にはデータの視覚化機能が欠けています。

Python で Spark を設定する (PySpark)

まず、Sparkをダウンロードしてインストールする必要があります。Sparkファイルを抽出し、インストールして.bashrcファイルパスに追加したら、source .bashrcと入力する必要があります。

PySparkシェルを開くには、コマンド./bin/pysparkを入力します。

PySpark SparkContext とデータフロー

Python で Spark に接続するには、RD4s を使用し、ライブラリ Py4j を使用できます。 PySpark Shell は、Python API を Spark Core にリンクし、Spark コンテキストを初期化します。 SparkContext は Spark アプリケーションの中核です。

Spark Context は内部サービスをセットアップし、Spark 実行環境への接続を確立します。
ドライバープログラム内の Spark Context オブジェクトは、すべての分散プロセスを調整し、リソースの割り当てを可能にします。
クラスターマネージャーエグゼキューターは、ロジックを持つ JVM プロセスです。
Spark Context オブジェクトは、アプリケーションをエグゼキューターに送信します。
Spark Context は各エグゼキュータでタスクを実行します。

PySpark KDD ユースケース

ここで、ユースケースを見てみましょう。データソースは KDD'99 Cup (国際知識発見およびデータマイニングツールコンペティション。中国には Zhihu など、同様のコンペティションのオープンデータセットがあります) です。元のデータセットが大きすぎるため、ここではデータセットの一部を取り出します。

RDD を作成する:

これで、このファイルを使用して RDD を作成できます。

フィルター

データセット内の通常の相互作用の数を数えたいとします。次のようにして raw_data RDD をフィルタリングできます。

カウント：

これで、新しい RDD に含まれる要素の数を数えることができます。

出力：

マッピング：

この場合、データファイルを CSV 形式のファイルとして読み取ります。これは、RDD 内の各要素にラムダ関数を適用することで実現できます。以下に示すように、ここでは map() および take() 変換を使用します。

出力：

スプリット：

ここで、RDD 内の各要素をキーと値のペアとして使用します。キーはタグ (通常の値など) で、値は CSV 形式ファイルの行を表す要素のリスト全体です。これは、line.split() と map() を使用して次のように実行できます。

出力：

集める：

collect() アクションを使用して、RDD のすべての要素をメモリに保存します。したがって、大きな RDD を使用する場合は注意が必要です。

出力：

もちろん、これはこれまでのどの操作よりも時間がかかりました。 RDD の一部を持つ各 Spark ワーカーノードは、その部分を取得してすべてをまとめるために調整する必要があります。

これまでのすべてを結び付ける最後の例として、通常のやり取りをすべてキーと値のペアとして収集します。

出力：

<<: 人工知能の進化の限界は肉体にある

>>: 人間の生理学的パラメータのモニタリング分野に焦点を当て、Pulse Geekはウェアラブルでこの分野に参入し、AIを活用して心臓の守護者となる

ブログ

2021年の人工知能の5つのトレンド

ブログ

1 つの記事でポイントクラウドと自動車用 LiDAR の開発を理解しましょう。

ブログ

機械学習の実践: Spark と Python を組み合わせるには?

張楊: カーディナリティ推定アルゴリズムの概要

データセキュリティにおける人工知能と機械学習の応用

ハルビン工業大学人工知能研究所が設立され、4つのレベルと7つの方向でAIの発展をリードしています

北京はインターネット診断と治療の監督を強化し、AIによる処方箋の自動生成を厳しく禁止する

開始から中止まで: ディープラーニングにおけるモデル蒸留技術

NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

2021年の人工知能の5つのトレンド

1 つの記事でポイントクラウドと自動車用 LiDAR の開発を理解しましょう。

推薦する

TensorFlow 2.9が利用可能になりました。CPUパフォーマンスの最適化を実現するためにoneDNNが改良され、WSL2がすぐに利用可能になりました。

マスク氏は5年以内に人間の言語を無意味にするだろうと言っているが、今回は狂気ではないかもしれない

最高データおよび分析責任者は、AI 投資の収益をどのように見ているのでしょうか?

興味深い AI アルゴリズムをいくつかお勧めします。とても面白いです!

2021年の世界人工知能産業の市場規模と投資・資金調達状況を分析人工知能は今後スパイラル状に発展する

Musk xAI初の研究成果公開！創立メンバーのヤン・ゲとヤオクラスの卒業生が共同で創設した

GPT-3とAlphaFold 2は2020年に衝撃を与えました。2021年のAIの最大のハイライトは何でしょうか？

データと人工知能の整合性をどのように確保するか?

アルゴリズムを知的財産として保護する方法

AIやIoT技術を活用した企業が職場復帰する際に考慮すべきこと

iPhoneで初めての機械学習モデルを構築する方法

国内オープンソースモデルのベンチマークが大幅にアップグレードされ、その主要機能はChatGPTに匹敵します。 Shusheng Puyu 2.0 がリリース、無料の商用利用をサポート

機械学習を使用したデータマッピング