Pythonがリードを拡大、PyTorchはわずか6.4%

Pythonがリードを拡大、PyTorchはわずか6.4%

最近、有名なデータサイエンスのウェブサイト KDnuggets が、2018 年のデータサイエンスおよび機械学習ツール調査の結果を発表しました。 2,000人以上が、過去12か月間のプロジェクト開発で使用したデータマイニング/機械学習ツールとプログラミング言語に投票しました。この統計では、過去 3 年間のランキングの比較分析も提供されます。

投票結果には予想された要素と予想外の要素の両方が含まれていました。データによれば、機械学習でよく使われるプログラミング言語としてPythonがリードを広げており、R言語の使用率は初めて50%を下回った。ディープラーニング フレームワークに関して言えば、最近人気のディープラーニング フレームワーク PyTorch の使用率はわずか 6.4% で、TensorFlow の 29.9% や Keras の 22.2% を大きく下回っています。

Python は R のユーザー領域を侵食し続け、RapidMiner の人気は高まり、SQL は安定し、TensorFlow と Keras は急速に進歩し、Hadoop は衰退し、データ サイエンス プラットフォームは統合されるなどです。

第 19 回 KDnuggets ソフトウェア調査では 2,300 票以上が集まりましたが、これは 2017 年よりわずかに少ない数です。これはおそらく、KDnuggests 調査に積極的に参加したベンダーが RapidMiner のみだったためと考えられます。平均して、各参加者は使用したツールを 7 つ選択したため、1 つのツールのみに投票すると偏りが生じます。 KDnuggets は、そのような「孤立した」投票 (ほとんどは RapidMiner からの投票) 約 260 件を除外しました。これは、たとえそれらがツールの正当なユーザーを代表していたとしても、その行動が異常であり、結果を歪める可能性があるためです。

以下は、「一心不乱」な有権者を除いた 2,052 人の参加者に基づく初期結果の分析です。より詳細な分析と匿名化されたデータは、約2週間後に公開される予定です。

高度な分析、データサイエンス、機械学習ツール

図 1: KDnuggests アナリティクス/データ サイエンス 2018 ソフトウェア調査: 2018 年のトップ ツールと、2016 ~ 2017 年と比較してランキングがどのように変化したか。 (より妥当な比較のため、KDnuggests は「一途な」有権者を除外し、2016 年と 2017 年の調査結果を再計算しました。)

上のグラフは、それぞれ使用率が 20% 以上の上位 11 個のツールを示しています。

表 1: KDnuggests 2018 ソフトウェア調査のトップ分析/データサイエンス/機械学習ソフトウェア

ここで、「2018 %シェア」の列はツールを使用しているユーザーの割合、「%変化」の列は2017年のソフトウェア調査と比較した変化を示しています。緑と赤のマークは10%以上の変化を示しています。

各投票者が使用するツールの平均数は 7 で、2017 年の調査 (「単独」投票者も除く) の 6.75 よりわずかに高くなっています。

2017 年のソフトウェア調査と比較して、トップ 11 に入った新しいツールは Keras です。 Knime は、今年の投票にユーザーを積極的に動員しなかったためか、11 位から順位を落としました。

ここにいくつかの観察結果があります。

PythonがRのユーザー空間を侵食している

2017年にはPythonの使用率が50%を超え、今年は使用率が66%に上昇しましたが、Rの使用率は急激に低下し、50%を下回りました。

ラピッドマイナー

これまでの調査では、大手データサイエンスプラットフォームであるRapidMinerが急速に普及しており、ユーザー利用率は2017年の33%から今年は52.7%に増加しています。 RapidMinerの創設者兼会長であるIngo Mierswa氏によると、同社はユーザーに調査への参加を促すためにいくつかの措置を講じたという。

KDnuggets の調査について、Ingo Mierswa 氏は次のように語っています。「過去 2 年間、調査を宣伝するためにユーザーにメールを送信してきましたが、今年は 400 人以上のユーザーがメールに返信し、RapidMiner の普及に協力できてうれしいと言ってくれました。また、今年の RapidMiner の月間アクティブ ユーザーの成長率は昨年の 300% を超えたため、KDnuggets の調査に関するメールをより多くのユーザーに送信しました。このようなアクティブなコミュニティを見ることができてとてもうれしく思います。」

SQLは安定している

データ管理システム向けプログラミング言語として、SQL(Spark SQL、SQL to Hadoopツールを含む)は、過去3回の調査結果と同様に、引き続き約40%の使用率を維持しています。したがって、データ サイエンティストを目指すなら、SQL を学んでください。長い間役立つはずです。

傾向

調査対象となった新しいツールの中で、使用率が 2% を超えたのは Spark SQL のみで、使用率は 11.7% でした。次の表は、2018 年に使用量が 20% 以上増加し、使用率が 3% 以上となったツールを示しています。

表 2: 使用量の増加が最も大きい上位の分析/データ サイエンス/機械学習ツール。

統合

2017 年に使用率が 2% 以上だった 56 個のツールのうち、2018 年に使用率が増加したのは 19 個 (わずか 1/3) で、残りの 37 個は使用率が減少しました。これは、最近の買収(Datawatch による Angoss の買収、Minitab による Salford の買収)と合わせて、データ サイエンス プラットフォームの統合が進行中であることを示しています。

下の表に示すように、2017 年に使用率が 3% 以上だったツールは、今年は 25% 以上減少しました。

表 3: 使用量が最も減少した上位の分析/データ サイエンス ツール。

ディープラーニングツール

調査対象となった有権者のうち、ディープラーニングツールを使用する人の割合は、過去2年間安定している。 2018 年には有権者の 33% がディープラーニング ツールを使用しましたが、2017 年には 32%、2016 年には 18% でした。 Google が管理する TensorFlow が依然として主流ですが、急速に進化している Keras は、TensorFlow や MXNet などのフレームワーク上に構築された高レベル API として機能します。

一方、1年以上前にリリースされ、主にFacebookが推進するPyTorchは、研究者やエンジニアの注目を集め、使用率は6.4%で第3位にランクされています。このディープラーニング フレームワークは Caffe2 と統合されているため、将来的には PyTorch がより大きなシェアを占めることは間違いありません。

ただし、KDnuggets はデータ サイエンスに重点を置いており、浅い機械学習アルゴリズムを使用することが多いです。機械学習とディープラーニングのコミュニティがフレームワークに関してどのような選択をしているのかをもっと知りたいと思うかもしれません。そこで、記事の最後で読者が一般的に使用されているディープラーニング フレームワークに投票できるようにします。

ディープラーニングツールのランキング:

  • テンソルフロー、29.9%

  • ケラス、22.2%

  • パイトーチ、6.4%

  • テアノ、4.9%

  • その他のディープラーニングツール、4.9%

  • ディープラーニング4J、3.4%

  • Microsoft Cognitive Toolkit (旧 CNTK)、3.0%

  • Apache MXnet、1.5%

  • カフェ、1.5%

  • カフェ2、1.2%

  • TFLearn、1.1%

  • トーチ、1.0%

  • ラザニア、0.3%

ビッグデータツール: Hadoop の利用が減少

2018 年には、ユーザーの約 33% が Hadoop または Spark のいずれかのビッグデータ ツールを使用し、これは 2017 年と変わりません。しかし、Hadoop の使用量は 30% 以上も大幅に減少しました。

関連する詳細は次のとおりです。

プログラミング言語

Python は R だけでなく、SQL、Java、C/C++ を除く他のほとんどの言語を置き換えつつあるようです。これらの言語は Python とほぼ同レベルです。 KDnuggets がこの調査を開始して以来、R の使用量は大幅に減少しました。他の言語も減少傾向にあります。

主要なプログラミング言語を人気順に挙げると次のようになります。

  • Python、65.6%(2017年は59.0%)、11%増加

  • R、48.5%(56.6%)、14%減少

  • SQL、39.6%(以前は39.2%)、1%増加

  • ジャワ、15.1%(15.5%)、3%減

  • Unix、shell/awk/gawk、9.2%(以前は10.8%)、15%減少

  • その他のプログラミング言語およびデータ言語、6.9%(7.6%)、-9%減少

  • C/C++、6.8%(以前は7.1%)、3%減少

  • スカラ、5.9%(8.3%だった)、29%下落

  • Perl、1.0%(1.9%だった)、46%減少

  • ジュリア、0.7%(1.2%だった)、45%減少

  • Lisp、0.3%(以前は0.4%)、-25%減少

  • Clojure、0.2%(以前は0.3%)、-38%下落

  • F、# 0.1% (以前は0.5%)、-73% 減少

地域参加

この調査における地域別の参加率は次のとおりです。

  • ヨーロッパ、37.5%

  • アメリカ/カナダ、36.6%

  • アジア、11.7%

  • ラテンアメリカ、6.6%

  • アフリカ/中東、4.5%

  • オーストラリア/ニュージーランド、3.1%

2017 年と比較した主な変化は、ヨーロッパでの参加率の増加(35.5% から)と、米国/カナダでの参加率の低下(41.5% から)です。

完全な結果と3年間の傾向

次の表に調査結果の詳細を示します (スペースの制限により、ここでは上位 12 個のツールのみをリストしています)。

<<:  ARにおける人工知能

>>:  機械学習とディープラーニング、この2つの違いは何でしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

...

2457億のパラメータ!世界最大のAIモデル「Source 1.0」がリリース、中国が独自のGPT-3を製作

[[426889]]古代の学者たちは、一杯の酒を飲みながら心の奥底にある感情を表現したり、武宇寺に...

人工知能を始めるときに尋ねるべき10の質問

人工知能 (AI) と機械学習 (ML) のテクノロジーは、世界中のほぼすべての業界に革命をもたらし...

人工知能にはどのような分野が含まれますか?どのように機能しますか?

現代の産業技術の発展により、私たちの生活は大きく改善されました。新しい家具が次々と登場しています。キ...

自然言語処理におけるAIの未来を探る

自然言語処理 (NLP) 機能の向上により、認知機能と人間同士のやり取りが向上し、それが AI の将...

人工知能分野で最も有望な技術トップ10

2018年世界ロボット会議が北京で開催され、ロボット産業の最先端技術が披露されました。世界的なロボ...

...

人工知能はさまざまな業界でどのように応用されているのでしょうか?

「人工知能」という用語は、人間の意思決定を模倣または複製できる機械とは対照的に、複雑でインテリジェ...

IBM Cloud Pack for Data が Wunderman Thompson の再開ガイドの作成を支援

[[338356]]世界中のコミュニティや企業がコロナウイルスの経済的影響を理解し、最終的な回復に備...

膨大な顔情報が収集されている: 315 Galaが顔認識の混乱を暴露

3月15日、毎年恒例のCCTV Finance 3.15 Galaが開催されています。序文から判断す...

再帰アルゴリズムの深い理解、誤解された再帰

[[333118]]再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムで...

1つのモデルが12種類のAI詐欺を打ち破り、あらゆる種類のGANとディープフェイクを打ち破り、オープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

視線追跡は無視できない、視覚制御車はもうすぐ登場する

正直に言ってみましょう。ジョブズが2007年に初めてiPhoneをリリースしたとき、革命的な新時代が...