今年、データサイエンティストはどのようなアルゴリズムを使用しましたか?

「データが王様」と言われる今日の世界では、データサイエンスに興味を持つ人が増えています。データサイエンティストはアルゴリズムを使わずにはいられません。では、データサイエンティストが最もよく使用するアルゴリズムは何でしょうか?

最近、有名なデータマイニング情報ウェブサイトKDnuggetsがトップ10アルゴリズムの調査を企画しました。この調査では、データサイエンティストがよく使用するアルゴリズムをランク付けし、最も「産業的」かつ「学術的」なアルゴリズムを見つけました。また、過去5年間（2011〜2016年）のこれらのアルゴリズムの変化についても詳しく紹介しました。

調査結果は844人の回答者の投票に基づいています。

KDnuggets は、上位 10 個のアルゴリズムとその投票シェアを次のようにまとめています。

図 1: データサイエンティストが使用する上位 10 のアルゴリズムと手法。

すべてのアルゴリズムとメソッドの完全なリストについては、記事の最後を参照してください。

調査によると、回答者は平均 8.1 個のアルゴリズムを使用しており、2011 年の同様の調査と比べて大幅に増加している。

2011 年のデータ分析/データマイニングの投票アルゴリズムと比較すると、人気のあるアルゴリズムは依然として回帰アルゴリズム、クラスタリングアルゴリズム、決定木、視覚化であることがわかります。相対的に言えば、最大の成長は次のアルゴリズム (pct2016/pct2011-1) によって測定されます。

2011年の23.5%から2016年には32.8%に増加し、前年比40%の増加となった。
テキストマイニングは、2011年の27.7%から2016年には35.9%に増加し、前年比30%の増加となった。
可視化は2011年の38.3%から2016年には48.7%に増加し、前年比27%の増加となった。
時系列分析によると、成長率は2011年の29.6%から2016年の37.0%に増加し、前年比25%の増加となりました。
異常/逸脱検出は、2011年の16.4%から2016年には19.5%に増加し、前年比19%の増加となった。
集計方法では、2011年の28.3%から2016年の33.6%に増加し、前年比19%の増加となった。
サポートベクターマシンは、2011年の28.6%から2016年には33.6%に増加し、前年比18%の増加となった。
回帰アルゴリズムは、2011年の57.9%から2016年には67.1%に増加し、前年比16%の増加となった。

2016 年の新しいアルゴリズムは次のとおりです。

K近傍法（KNN）、シェア46%
主成分分析（PCA）、43%
ランダムフォレスト（RF）、38%
最適化、24%
ニューラルネットワーク - ディープラーニング、19%
特異値分解（SVD）、16%

減少のアルゴリズム***は次のとおりです。

関連性ルールは、2011年の28.6%から2016年の15.3%に減少し、前年比47%の減少となった。
アップリフトモデルは、2011年の4.8%から2016年の3.1%に増加し、前年比36%の減少となった。
要因分析：2011年の18.6%から2016年の14.2%に減少し、前年比24%の減少となった。
生存分析: 2011年の9.3%から2016年の7.9%に減少し、前年比15%の減少となった。
次の表は、教師あり学習、教師なし学習、メタ分析、その他のアルゴリズムタイプなど、さまざまなアルゴリズムタイプの目的を示しています。 NA (4.5%) およびその他 (3%) のアルゴリズムは除外しました。

表1: 業種別アルゴリズムの使用状況

ほぼすべての人が教師あり学習アルゴリズムを使用していることに気付きました。政府や産業界のデータサイエンティストは、学生や学術界よりも多様なアルゴリズムを使用しており、産業界のデータサイエンティストはメタアルゴリズムを使用する可能性が高くなります。

次に、業界タイプ別に上位 10 のディープラーニングアルゴリズムの使用状況を分析します。

表2: 雇用形態別に使用されるディープラーニングアルゴリズム上位10件

表 2: 雇用形態別上位 10 アルゴリズム + ディープラーニングの使用状況

違いをより明確にするために、特定の業界タイプに関連付けられたアルゴリズムの平均使用率を Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All)-1 として計算します。

図2: 業界別のアルゴリズム使用バイアス

業界のデータサイエンティストは、回帰アルゴリズム、視覚化、統計アルゴリズム、ランダムフォレストアルゴリズム、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術研究者は主成分分析とディープラーニングを好みます。学生は一般的にアルゴリズムをあまり使用しませんが、テキストマイニングとディープラーニングをより多く使用します。

次に、KDnuggets の訪問者全体を表す地域別の参加状況を見てみましょう。

有権者の地域分布は次のとおりです。