今年、データ サイエンティストはどのようなアルゴリズムを使用しましたか?

今年、データ サイエンティストはどのようなアルゴリズムを使用しましたか?

「データが王様」と言われる今日の世界では、データサイエンスに興味を持つ人が増えています。データ サイエンティストはアルゴリズムを使わずにはいられません。では、データ サイエンティストが最もよく使用するアルゴリズムは何でしょうか?

最近、有名なデータマイニング情報ウェブサイトKDnuggetsがトップ10アルゴリズムの調査を企画しました。この調査では、データサイエンティストがよく使用するアルゴリズムをランク付けし、最も「産業的」かつ「学術的」なアルゴリズムを見つけました。また、過去5年間(2011〜2016年)のこれらのアルゴリズムの変化についても詳しく紹介しました。

調査結果は844人の回答者の投票に基づいています。

KDnuggets は、上位 10 個のアルゴリズムとその投票シェアを次のようにまとめています。


図 1: データ サイエンティストが使用する上位 10 のアルゴリズムと手法。

すべてのアルゴリズムとメソッドの完全なリストについては、記事の最後を参照してください。

調査によると、回答者は平均 8.1 個のアルゴリズムを使用しており、2011 年の同様の調査と比べて大幅に増加している。

2011 年のデータ分析/データマイニングの投票アルゴリズムと比較すると、人気のあるアルゴリズムは依然として回帰アルゴリズム、クラスタリング アルゴリズム、決定木、視覚化であることがわかります。相対的に言えば、最大の成長は次のアルゴリズム (pct2016/pct2011-1) によって測定されます。

  • 2011年の23.5%から2016年には32.8%に増加し、前年比40%の増加となった。
  • テキストマイニングは、2011年の27.7%から2016年には35.9%に増加し、前年比30%の増加となった。
  • 可視化は2011年の38.3%から2016年には48.7%に増加し、前年比27%の増加となった。
  • 時系列分析によると、成長率は2011年の29.6%から2016年の37.0%に増加し、前年比25%の増加となりました。
  • 異常/逸脱検出は、2011年の16.4%から2016年には19.5%に増加し、前年比19%の増加となった。
  • 集計方法では、2011年の28.3%から2016年の33.6%に増加し、前年比19%の増加となった。
  • サポートベクターマシンは、2011年の28.6%から2016年には33.6%に増加し、前年比18%の増加となった。
  • 回帰アルゴリズムは、2011年の57.9%から2016年には67.1%に増加し、前年比16%の増加となった。

2016 年の新しいアルゴリズムは次のとおりです。

  • K近傍法(KNN)、シェア46%
  • 主成分分析(PCA)、43%
  • ランダムフォレスト(RF)、38%
  • 最適化、24%
  • ニューラルネットワーク - ディープラーニング、19%
  • 特異値分解(SVD)、16%

減少のアルゴリズム***は次のとおりです。

  • 関連性ルールは、2011年の28.6%から2016年の15.3%に減少し、前年比47%の減少となった。
  • アップリフトモデルは、2011年の4.8%から2016年の3.1%に増加し、前年比36%の減少となった。
  • 要因分析:2011年の18.6%から2016年の14.2%に減少し、前年比24%の減少となった。
  • 生存分析: 2011年の9.3%から2016年の7.9%に減少し、前年比15%の減少となった。
  • 次の表は、教師あり学習、教師なし学習、メタ分析、その他のアルゴリズム タイプなど、さまざまなアルゴリズム タイプの目的を示しています。 NA (4.5%) およびその他 (3%) のアルゴリズムは除外しました。

表1: 業種別アルゴリズムの使用状況

ほぼすべての人が教師あり学習アルゴリズムを使用していることに気付きました。政府や産業界のデータ サイエンティストは、学生や学術界よりも多様なアルゴリズムを使用しており、産業界のデータ サイエンティストはメタアルゴリズムを使用する可能性が高くなります。

次に、業界タイプ別に上位 10 のディープラーニング アルゴリズムの使用状況を分析します。

表2: 雇用形態別に使用されるディープラーニングアルゴリズム上位10件

表 2: 雇用形態別上位 10 アルゴリズム + ディープラーニングの使用状況

違いをより明確にするために、特定の業界タイプに関連付けられたアルゴリズムの平均使用率を Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All)-1 として計算します。


図2: 業界別のアルゴリズム使用バイアス

業界のデータ サイエンティストは、回帰アルゴリズム、視覚化、統計アルゴリズム、ランダム フォレスト アルゴリズム、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術研究者は主成分分析とディープラーニングを好みます。学生は一般的にアルゴリズムをあまり使用しませんが、テキストマイニングとディープラーニングをより多く使用します。

次に、KDnuggets の訪問者全体を表す地域別の参加状況を見てみましょう。

有権者の地域分布は次のとおりです。

  • 北米、40%
  • ヨーロッパ、32%
  • アジア 8%
  • ラテンアメリカ、5.0%
  • アフリカ/中東、3.4%
  • オーストラリア/ニュージーランド、2.2%

2011 年の調査と同様に、業界/政府を 1 つのグループに、学術研究者/学生を 2 番目のグループにまとめ、業界/政府に対するアルゴリズムの「親近感」を計算しました。

親和性が 0 のアルゴリズムは、産業界/政府機関と学術研究者/学生によって同様に使用されます。 IG 親密性委員会は、アルゴリズムがより「産業的」であることを示す一方、低いほどアルゴリズムがより「学術的」であることを示します。

その中で最も「工業的」なアルゴリズムは次のとおりです。

  • 隆起モデリング、2.01
  • 異常検出、1.61
  • 生存分析、1.39
  • 因子分析、0.83
  • 時系列/シーケンス、0.69
  • 相関ルール、0.5

インクリメンタル モデリングは、今回も最も「産業的」なアルゴリズムですが、驚くほど使用率が低く、今回の調査で最も使用されているアルゴリズムであるにもかかわらず、わずか 3.1% にとどまっています。

最も「学術的な」アルゴリズムは次のとおりです。

  • ニューラルネットワーク - 通常、-0.35
  • ナイーブベイズ、-0.35
  • サポートベクターマシン (SVM)、-0.24
  • ディープラーニング、-0.19
  • ***期待アルゴリズム (EM)、-0.17

次の図は、すべてのアルゴリズムと、業界/学術界におけるその人気を示しています。


図 3: Kdnugets 調査: データ サイエンティストが使用する人気のアルゴリズム: 業界 vs 学術界

以下の表には、アルゴリズムの詳細、2016 年と 2011 年の調査でそれらを使用した回答者の割合、変化 (%2016 / %2011 - 1)、および前述の業界との親和性が記載されています。

表3: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム

次の表に、各アルゴリズムの詳細を示します。

  • N: 使用頻度順
  • アルゴリズム: アルゴリズム名
  • タイプ: タイプ。 S - 教師あり、U - 教師なし、M - メタ、Z - その他、
  • 2016年の使用率: 2016年の調査でこのアルゴリズムを使用した回答者の割合
  • 2011 年の使用率: 2011 年の調査でこのアルゴリズムを使用した回答者の割合 % 変化: 変化 (% 2016 / % 2011 - 1)
  • 業界親和性: 業界親和性(上記参照)

<<:  Spark を使用して行列分解推奨アルゴリズムを学習する

>>:  [乾物] Tencent Cloud FPGA 上のディープラーニング アルゴリズム

ブログ    
ブログ    

推薦する

産業用ロボットの急速な発展は社会にどのような影響を与えるのでしょうか?

インテリジェントインダストリー4.0の急速な発展に伴い、ますます多くの業界でロボットが手作業に代わる...

Splunk は 2018 年の人工知能と機械学習の 3 つのトレンドを予測しています

調査会社ガートナーは、「人工知能(AI)と高度な機械学習技術は、広く注目されている新興技術であり、企...

...

...

GitHub で 2.3k スターを獲得した ML 論文のリストを入手し、自分の仕事に活用しましょう。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

アナリスト:生成AIは過大評価されており、関連業界は2024年に「冷え込む」と予想されている

分析機関CCSインサイトは10日、来年には生成AI分野が現実の試練に直面する可能性があるとの予測を発...

...

新しいインフラの推進により、人工知能の応用は新たな段階に入る

レポート概要新しいインフラストラクチャにより人工知能アプリケーションの実装が加速COVID-19パン...

道に迷う心配はありません。AI マップが目的地までご案内します。

宝の地図を持って砂漠に埋もれた金や宝石を探すというのは、おとぎ話によく登場する筋書きです。今では、携...

自律的で制御可能なAIフレームワークは信頼性が高いが、すべてのAIコンピューティングセンターが同等というわけではない

現在、人工知能の発展レベルは、都市の競争力と将来の発展の可能性を測る新たな指標となっている。その結果...

...

人工知能の主な研究段階と将来の発展方向は何ですか?

人工知能は常にコンピュータ技術の最前線にあり、人工知能研究の理論と発見はコンピュータ技術の発展の方向...