Pythonがリードを拡大、PyTorchはわずか6.4%

Pythonがリードを拡大、PyTorchはわずか6.4%

最近、有名なデータサイエンスのウェブサイト KDnuggets が、2018 年のデータサイエンスおよび機械学習ツール調査の結果を発表しました。 2,000人以上が、過去12か月間のプロジェクト開発で使用したデータマイニング/機械学習ツールとプログラミング言語に投票しました。この統計では、過去 3 年間のランキングの比較分析も提供されます。

投票結果には予想された要素と予想外の要素の両方が含まれていました。データによれば、機械学習でよく使われるプログラミング言語としてPythonがリードを広げており、R言語の使用率は初めて50%を下回った。ディープラーニング フレームワークに関して言えば、最近人気のディープラーニング フレームワーク PyTorch の使用率はわずか 6.4% で、TensorFlow の 29.9% や Keras の 22.2% を大きく下回っています。

Python は R のユーザー領域を侵食し続け、RapidMiner の人気は高まり、SQL は安定し、TensorFlow と Keras は急速に進歩し、Hadoop は衰退し、データ サイエンス プラットフォームは統合されるなどです。

第 19 回 KDnuggets ソフトウェア調査では 2,300 票以上が集まりましたが、これは 2017 年よりわずかに少ない数です。これはおそらく、KDnuggests 調査に積極的に参加したベンダーが RapidMiner のみだったためと考えられます。平均して、各参加者は使用したツールを 7 つ選択したため、1 つのツールのみに投票すると偏りが生じます。 KDnuggets は、そのような「孤立した」投票 (ほとんどは RapidMiner からの投票) 約 260 件を除外しました。これは、たとえそれらがツールの正当なユーザーを代表していたとしても、その行動が異常であり、結果を歪める可能性があるためです。

以下は、「一心不乱」な有権者を除いた 2,052 人の参加者に基づく初期結果の分析です。より詳細な分析と匿名化されたデータは、約2週間後に公開される予定です。

高度な分析、データサイエンス、機械学習ツール

図 1: KDnuggests アナリティクス/データ サイエンス 2018 ソフトウェア調査: 2018 年のトップ ツールと、2016 ~ 2017 年と比較してランキングがどのように変化したか。 (より妥当な比較のため、KDnuggests は「一途な」有権者を除外し、2016 年と 2017 年の調査結果を再計算しました。)

上のグラフは、それぞれ使用率が 20% 以上の上位 11 個のツールを示しています。

表 1: KDnuggests 2018 ソフトウェア調査のトップ分析/データサイエンス/機械学習ソフトウェア

ここで、「2018 %シェア」の列はツールを使用しているユーザーの割合、「%変化」の列は2017年のソフトウェア調査と比較した変化を示しています。緑と赤のマークは10%以上の変化を示しています。

各投票者が使用するツールの平均数は 7 で、2017 年の調査 (「単独」投票者も除く) の 6.75 よりわずかに高くなっています。

2017 年のソフトウェア調査と比較して、トップ 11 に入った新しいツールは Keras です。 Knime は、今年の投票にユーザーを積極的に動員しなかったためか、11 位から順位を落としました。

ここにいくつかの観察結果があります。

PythonがRのユーザー空間を侵食している

2017年にはPythonの使用率が50%を超え、今年は使用率が66%に上昇しましたが、Rの使用率は急激に低下し、50%を下回りました。

ラピッドマイナー

これまでの調査では、大手データサイエンスプラットフォームであるRapidMinerが急速に普及しており、ユーザー利用率は2017年の33%から今年は52.7%に増加しています。 RapidMinerの創設者兼会長であるIngo Mierswa氏によると、同社はユーザーに調査への参加を促すためにいくつかの措置を講じたという。

KDnuggets の調査について、Ingo Mierswa 氏は次のように語っています。「過去 2 年間、調査を宣伝するためにユーザーにメールを送信してきましたが、今年は 400 人以上のユーザーがメールに返信し、RapidMiner の普及に協力できてうれしいと言ってくれました。また、今年の RapidMiner の月間アクティブ ユーザーの成長率は昨年の 300% を超えたため、KDnuggets の調査に関するメールをより多くのユーザーに送信しました。このようなアクティブなコミュニティを見ることができてとてもうれしく思います。」

SQLは安定している

データ管理システム向けプログラミング言語として、SQL(Spark SQL、SQL to Hadoopツールを含む)は、過去3回の調査結果と同様に、引き続き約40%の使用率を維持しています。したがって、データ サイエンティストを目指すなら、SQL を学んでください。長い間役立つはずです。

傾向

調査対象となった新しいツールの中で、使用率が 2% を超えたのは Spark SQL のみで、使用率は 11.7% でした。次の表は、2018 年に使用量が 20% 以上増加し、使用率が 3% 以上となったツールを示しています。

表 2: 使用量の増加が最も大きい上位の分析/データ サイエンス/機械学習ツール。

統合

2017 年に使用率が 2% 以上だった 56 個のツールのうち、2018 年に使用率が増加したのは 19 個 (わずか 1/3) で、残りの 37 個は使用率が減少しました。これは、最近の買収(Datawatch による Angoss の買収、Minitab による Salford の買収)と合わせて、データ サイエンス プラットフォームの統合が進行中であることを示しています。

下の表に示すように、2017 年に使用率が 3% 以上だったツールは、今年は 25% 以上減少しました。

表 3: 使用量が最も減少した上位の分析/データ サイエンス ツール。

ディープラーニングツール

調査対象となった有権者のうち、ディープラーニングツールを使用する人の割合は、過去2年間安定している。 2018 年には有権者の 33% がディープラーニング ツールを使用しましたが、2017 年には 32%、2016 年には 18% でした。 Google が管理する TensorFlow が依然として主流ですが、急速に進化している Keras は、TensorFlow や MXNet などのフレームワーク上に構築された高レベル API として機能します。

一方、1年以上前にリリースされ、主にFacebookが推進するPyTorchは、研究者やエンジニアの注目を集め、使用率は6.4%で第3位にランクされています。このディープラーニング フレームワークは Caffe2 と統合されているため、将来的には PyTorch がより大きなシェアを占めることは間違いありません。

ただし、KDnuggets はデータ サイエンスに重点を置いており、浅い機械学習アルゴリズムを使用することが多いです。機械学習とディープラーニングのコミュニティがフレームワークに関してどのような選択をしているのかをもっと知りたいと思うかもしれません。そこで、記事の最後で読者が一般的に使用されているディープラーニング フレームワークに投票できるようにします。

ディープラーニングツールのランキング:

  • テンソルフロー、29.9%

  • ケラス、22.2%

  • パイトーチ、6.4%

  • テアノ、4.9%

  • その他のディープラーニングツール、4.9%

  • ディープラーニング4J、3.4%

  • Microsoft Cognitive Toolkit (旧 CNTK)、3.0%

  • Apache MXnet、1.5%

  • カフェ、1.5%

  • カフェ2、1.2%

  • TFLearn、1.1%

  • トーチ、1.0%

  • ラザニア、0.3%

ビッグデータツール: Hadoop の利用が減少

2018 年には、ユーザーの約 33% が Hadoop または Spark のいずれかのビッグデータ ツールを使用し、これは 2017 年と変わりません。しかし、Hadoop の使用量は 30% 以上も大幅に減少しました。

関連する詳細は次のとおりです。

プログラミング言語

Python は R だけでなく、SQL、Java、C/C++ を除く他のほとんどの言語を置き換えつつあるようです。これらの言語は Python とほぼ同レベルです。 KDnuggets がこの調査を開始して以来、R の使用量は大幅に減少しました。他の言語も減少傾向にあります。

主要なプログラミング言語を人気順に挙げると次のようになります。

  • Python、65.6%(2017年は59.0%)、11%増加

  • R、48.5%(56.6%)、14%減少

  • SQL、39.6%(以前は39.2%)、1%増加

  • ジャワ、15.1%(15.5%)、3%減

  • Unix、shell/awk/gawk、9.2%(以前は10.8%)、15%減少

  • その他のプログラミング言語およびデータ言語、6.9%(7.6%)、-9%減少

  • C/C++、6.8%(以前は7.1%)、3%減少

  • スカラ、5.9%(8.3%だった)、29%下落

  • Perl、1.0%(1.9%だった)、46%減少

  • ジュリア、0.7%(1.2%だった)、45%減少

  • Lisp、0.3%(以前は0.4%)、-25%減少

  • Clojure、0.2%(以前は0.3%)、-38%下落

  • F、# 0.1% (以前は0.5%)、-73% 減少

地域参加

この調査における地域別の参加率は次のとおりです。

  • ヨーロッパ、37.5%

  • アメリカ/カナダ、36.6%

  • アジア、11.7%

  • ラテンアメリカ、6.6%

  • アフリカ/中東、4.5%

  • オーストラリア/ニュージーランド、3.1%

2017 年と比較した主な変化は、ヨーロッパでの参加率の増加(35.5% から)と、米国/カナダでの参加率の低下(41.5% から)です。

完全な結果と3年間の傾向

次の表に調査結果の詳細を示します (スペースの制限により、ここでは上位 12 個のツールのみをリストしています)。

<<:  ARにおける人工知能

>>:  機械学習とディープラーニング、この2つの違いは何でしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

コードを入力せずに機械学習を行うことはできますか?アマゾンウェブサービスが今回大きな動きを見せた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2022年、人工知能が未来への新たなパスワードを開く

大型家電や自動車を購入するとき、インテリジェント音声機能が搭載されているかどうかを尋ねますか?はい、...

...

...

ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

触覚は人間が相互作用を調整する主な方法の 1 つです。触覚を通じて知覚される触覚は、人間が物体の大き...

...

周洪義:汎用人工知能は詐欺であり、垂直分野と組み合わせる必要がある

3月23日、360テクノロジー株式会社と華泰聯合証券はIPO上場指導契約を締結した。これは360がI...

住宅地に顔認識システムを設置する前に、5つの主要なセキュリティの質問に答えてください

誰のため?なぜ?コミュニティ顔認識システム導入の需要の源と目的多くの居住コミュニティが顔認識システム...

今日の生活における人工知能(AI)の実際的な意義

人工知能について言えば、ほとんどの人がまだ混乱していると思います。それは何なのか?何に使われるのか?...

OpenAI COO: AIが一夜にしてビジネスに大きな変化をもたらすとは期待しない

12月5日、OpenAIは企業ユーザーの開拓に力を入れているものの、同社の幹部の一部は、この技術がす...

「段階的に考える」だけでは不十分です。モデルを「より多くのステップで考える」ようにすれば、より有用になります。

今日では、大規模言語モデル (LLM) とその高度なヒント戦略の出現により、特に古典的な NLP タ...

数人のアメリカ人作家が共同で書簡を書き、AIが著作権のあるコンテンツを使って作品を生み出す場合、著者に補償を与えるよう求めた。

アクションネットワークによると、7月19日、約8,000人の作家がニューヨーク作家組合宛ての公開書簡...

パスワード危機: ディープラーニングがパスワードクラッキングを加速!

情報セキュリティの専門家は、「生成的敵対ネットワーク」(GAN)がオンラインセキュリティをどのように...