機械学習研究開発プラットフォームの選択

機械学習研究開発プラットフォームの選択

機械学習は現在隆盛を極めていますが、機械学習を学習・研究し、実稼働環境で活用したい場合には、プラットフォーム、開発言語、機械学習ライブラリの選択を慎重に検討する必要があります。以下は、機械学習に関する私自身の経験に基づいた、参考のための提案です。

[[188142]]

まず、プラットフォームの選択に関する最初の質問は、それを実稼働環境、つまり特定の製品で使用するのか、それとも研究や学習のためだけに使用するのかということです。

1. 本番環境での機械学習プラットフォームの構築

プラットフォームを本番環境で使用する場合は、製品のために分析する必要があるデータの量を見積もる必要があります。データ量が多い場合は、ビッグデータ プラットフォームを選択する必要があります。それ以外の場合は、スタンドアロン プラットフォームだけが必要です。

1.1 本番環境での機械学習ビッグデータプラットフォームの構築

実稼働環境で最も主流のビッグデータ プラットフォームは Spark プラットフォームであり、これに YARN や Mesos などの補助的な分散データ処理コンテナーが加わります。オンライン データをリアルタイムで収集する必要がある場合は、Kafka を追加します。つまり、一般的なビッグデータ処理プラットフォームは、Spark + YARN(Mesos)+ Kafkaを統合したものです。私が現在取り組んでいる製品プロジェクトはすべてSpark + YARN + Kafkaに基づいています。現時点では、このプラットフォームの選択が基本的に主流の方向です。

もちろん、これほど多くのオープンソースソフトウェアを統合するのは面倒だし、落とし穴も多いはずだという人もいるでしょう。Spark + YARN + Kafka のようなビッグデータプラットフォーム機能を組み込めるユニバーサルプラットフォームはないでしょうか。私の知る限りでは、CDAP (http://cdap.io) が比較的うまくいっています。 Spark、YARN、Kafka、およびいくつかの主流のオープンソースデータ処理ソフトウェアを統合します。開発者は、そこにカプセル化された API レイヤーで二次開発を行うだけで済みます。これは良いアイデアであるはずですが、まだ商業的に成功した事例がないため、アーキテクチャを選択する際に CDAP は考慮しませんでした。

したがって、Spark + YARN + Kafka に基づくビッグデータ プラットフォームは依然として最適です。 Spark MLlib の機械学習アルゴリズムは豊富ではなく、使いやすいものでもありません。そのため、製品に MLlib で利用できないアルゴリズムが必要な場合は、オープンソースの実装を自分で探す必要があります。

1.2 実稼働環境での機械学習のためのスタンドアロンマシンデータプラットフォームの構築

本番環境のデータが大きくない場合、ビッグデータ プラットフォームはやや過剰設計のように思えます。現時点では、選択肢はもっとあります。 ***、これはまだ Spark プラットフォームですが、分散コンテナ YARN と分散データ配信ルーティング Kafka は不要になりました。なぜ Spark か? 拡張性を考慮する必要があるからです。現在のデータ量が少ないからといって、将来的にもデータ量が少なくなるというわけではありません。これは、私が参加したいくつかの小規模なデータ分析プロジェクトに Spark を選んだ理由でもあります。もちろん、もう 1 つの理由は、Spark が Python、Java、Scala、R を同時にサポートしていることだと思います。これにより、多くのプログラマーにとって参加のハードルが下がります。私が参加したSparkプロジェクトでは、開発言語は主にJavaとScalaでした。速度上の理由から Python は選択されず、システムの残りの部分は Java で記述されています。

2 番目のオプションは、numpy、scipy、pandas、MatplotLib などを含む、scikit-learn に基づく一連の Python ツールです。その特徴は豊富なクラスライブラリ、特に機械学習ライブラリの scikit-learn はあらゆる武器を持っているとも言えるでしょう。さらに、プログラムをインタラクティブに記述できるため、プロトタイプを迅速に開発することが容易になります。私は実現可能性分析段階にある 2 つのプロジェクトに関わっており、どちらのプロジェクトでも scikit-learn を使用して顧客向けのプロトタイプとデモを作成しています。

したがって、本番環境のスタンドアロンの機械学習データ プラットフォームの場合、製品開発には Spark が最適な選択肢であり、迅速なプロトタイピングと検証には scikit-learn ファミリーが適しています。

2. 研究環境における機械学習プラットフォームの構築

単に調査をするだけなら選択肢はたくさんあり、主流は 3 つあります。

  • 1 つ目は学習用の Spark MLlib に基づいています。メリットは、学習した内容をシームレスに本番環境に移行できることですが、デメリットも明らかです。Spark には多くの機能があり、単一のマシンで実行するとメモリを大量に消費し、比較的遅くなります。また、MLlib クラス ライブラリは豊富ではなく、多くのアルゴリズムではクラス ライブラリを自分で探す必要があります。同僚からのフィードバックによると、かなり難しいとのことなので、Spark MLlib をベースに機械学習を学ぶのは個人的には良い選択ではないと思います。
  • 2 つ目は、前述の numpy、scipy、pandas、MatplotLib などを含む、scikit-learn に基づく一連の Python ツールを使用して学習することです。クラスライブラリが豊富でAPIが強力であるため、データ分析に集中できるのがメリットです。また、例題も豊富なので、学習も難しくありません。もちろん、欠点もあります。つまり、これらすべての Python ライブラリを使いこなせるようになるには、ある程度の時間がかかります。 個人的にはこの方法をお勧めします。同僚の間では、学習とコミュニケーションに scikit-learn を使用するのも主流です。
  • 3 つ目のタイプは、機械学習に R ベースのプラットフォーム (Spark R を除く) を使用するもので、主なプラットフォームは R studio です。 R は比較的古い言語であるため、データ処理や機械学習用の API が豊富に用意されており、特にデータアナリストだった人には馴染み深いものとなっています。しかし、R は比較的閉鎖的な言語であり、そのコミュニティは Python に比べてはるかに活動的ではありません。さらに、プログラマーにとって、R の構文は使いにくいものです。数年前までは、機械学習においては R が Python よりも優れていると一般的に考えられていましたが、現在では Python は R を大きく引き離しています。したがって、R 言語にすでに精通していない限り、機械学習の学習に R を使用することはお勧めできません。ちなみに、ここで R を差別するつもりはありません。

つまり、機械学習を勉強したいが、特別な R のバックグラウンドがない場合は、scikit-learn が最適な選択肢です。もちろん、機械学習アルゴリズムを自分で少しずつ実装するのが好きで、クラスライブラリを直接呼び出すのは好きではないと言う人もいるでしょう。これは良くないのでしょうか? もちろん、これは間違いなく非常に良いことであり、さまざまなアルゴリズムの理解を深めるのに非常に役立ちます。ただ、これはかなり時間がかかります。私のように時間があまりない場合は、API を直接呼び出してデータを調べる方が簡単です。

<<:  AGVロボットマルチエージェント経路探索の4つの主要な研究方向

>>:  Python 機械学習の実践: クレジットカード詐欺検出

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIは人間よりもチップ設計をよく理解しているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

スマート病院: 将来の医療技術のガイドラインとトレンド

スマート病院とは何ですか?最も伝統的な病院でさえ、人、プロセス、資産の広大なネットワークを持つ複雑な...

AI産業化が深海域に入る中、コンピューティングパワーのボトルネックをどうやって打破するのか?

AI技術の応用は、一部の業界からあらゆる分野へ、一部のシーンからあらゆるシーンへ、ローカルな探索か...

...

報告書:人工知能は5年以内に人間の雇用を著しく脅かすだろう

ある報告書によると、自動化と人工知能は最大5年以内に人間の雇用を脅かすことになるという。このような状...

わずか6秒で、AIはあなたの声を聞くだけであなたの外見を説明できる

信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの...

5分で強力で使いやすいディープラーニング環境を構築

ディープラーニング プロジェクトに適した環境を構築するのは簡単な作業ではありません。処理すべきことは...

ついに、人工知能の3つの重要な機能を説明する人がいた。

これらすべての認知機能を 1 つのマシンに統合し、あらゆる一般的なシナリオを処理できる人工知能を汎用...

2021年の人工知能と機械学習の5つのトレンド

人工知能と機械学習は長い間私たちの世界を変えてきましたが、2020年のコロナウイルスのパンデミックは...

ML プロジェクトを実行するときに、タスクが多数あり、些細な場合はどうすればよいでしょうか?このセルフチェックリストはあなたの心を整理するのに役立ちます

機械学習プロジェクトには、データ処理、モデルの最適化など、多くの要素が関係します。開発者は混乱したり...

市場における自動運転の現在のレベルはどの程度ですか?

車に乗り込み、目的地を入力し、車を始動し、車内で作業または休憩し、快適かつ安全に目的地に到着します。...

自動運転のゴールドラッシュ、このトラックの価値は少なくとも3000億ドル

[[384274]]市場主導型の自動運転プロセスの第2フェーズが始まるにつれ、自動運転の商業化が議題...

ラマ事件じゃないよ!李開復の大型モデルが貝殻論争に巻き込まれ、チームの2度目の反応がここに!

ノアとシャオウが編集制作:51CTO テクノロジースタック(WeChat ID:blog)昨日、テク...

...

...