今年、データ サイエンティストはどのようなアルゴリズムを使用しましたか?

今年、データ サイエンティストはどのようなアルゴリズムを使用しましたか?

「データが王様」と言われる今日の世界では、データサイエンスに興味を持つ人が増えています。データ サイエンティストはアルゴリズムを使わずにはいられません。では、データ サイエンティストが最もよく使用するアルゴリズムは何でしょうか?

最近、有名なデータマイニング情報ウェブサイトKDnuggetsがトップ10アルゴリズムの調査を企画しました。この調査では、データサイエンティストがよく使用するアルゴリズムをランク付けし、最も「産業的」かつ「学術的」なアルゴリズムを見つけました。また、過去5年間(2011〜2016年)のこれらのアルゴリズムの変化についても詳しく紹介しました。

調査結果は844人の回答者の投票に基づいています。

KDnuggets は、上位 10 個のアルゴリズムとその投票シェアを次のようにまとめています。


図 1: データ サイエンティストが使用する上位 10 のアルゴリズムと手法。

すべてのアルゴリズムとメソッドの完全なリストについては、記事の最後を参照してください。

調査によると、回答者は平均 8.1 個のアルゴリズムを使用しており、2011 年の同様の調査と比べて大幅に増加している。

2011 年のデータ分析/データマイニングの投票アルゴリズムと比較すると、人気のあるアルゴリズムは依然として回帰アルゴリズム、クラスタリング アルゴリズム、決定木、視覚化であることがわかります。相対的に言えば、最大の成長は次のアルゴリズム (pct2016/pct2011-1) によって測定されます。

  • 2011年の23.5%から2016年には32.8%に増加し、前年比40%の増加となった。
  • テキストマイニングは、2011年の27.7%から2016年には35.9%に増加し、前年比30%の増加となった。
  • 可視化は2011年の38.3%から2016年には48.7%に増加し、前年比27%の増加となった。
  • 時系列分析によると、成長率は2011年の29.6%から2016年の37.0%に増加し、前年比25%の増加となりました。
  • 異常/逸脱検出は、2011年の16.4%から2016年には19.5%に増加し、前年比19%の増加となった。
  • 集計方法では、2011年の28.3%から2016年の33.6%に増加し、前年比19%の増加となった。
  • サポートベクターマシンは、2011年の28.6%から2016年には33.6%に増加し、前年比18%の増加となった。
  • 回帰アルゴリズムは、2011年の57.9%から2016年には67.1%に増加し、前年比16%の増加となった。

2016 年の新しいアルゴリズムは次のとおりです。

  • K近傍法(KNN)、シェア46%
  • 主成分分析(PCA)、43%
  • ランダムフォレスト(RF)、38%
  • 最適化、24%
  • ニューラルネットワーク - ディープラーニング、19%
  • 特異値分解(SVD)、16%

減少のアルゴリズム***は次のとおりです。

  • 関連性ルールは、2011年の28.6%から2016年の15.3%に減少し、前年比47%の減少となった。
  • アップリフトモデルは、2011年の4.8%から2016年の3.1%に増加し、前年比36%の減少となった。
  • 要因分析:2011年の18.6%から2016年の14.2%に減少し、前年比24%の減少となった。
  • 生存分析: 2011年の9.3%から2016年の7.9%に減少し、前年比15%の減少となった。
  • 次の表は、教師あり学習、教師なし学習、メタ分析、その他のアルゴリズム タイプなど、さまざまなアルゴリズム タイプの目的を示しています。 NA (4.5%) およびその他 (3%) のアルゴリズムは除外しました。

表1: 業種別アルゴリズムの使用状況

ほぼすべての人が教師あり学習アルゴリズムを使用していることに気付きました。政府や産業界のデータ サイエンティストは、学生や学術界よりも多様なアルゴリズムを使用しており、産業界のデータ サイエンティストはメタアルゴリズムを使用する可能性が高くなります。

次に、業界タイプ別に上位 10 のディープラーニング アルゴリズムの使用状況を分析します。

表2: 雇用形態別に使用されるディープラーニングアルゴリズム上位10件

表 2: 雇用形態別上位 10 アルゴリズム + ディープラーニングの使用状況

違いをより明確にするために、特定の業界タイプに関連付けられたアルゴリズムの平均使用率を Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All)-1 として計算します。


図2: 業界別のアルゴリズム使用バイアス

業界のデータ サイエンティストは、回帰アルゴリズム、視覚化、統計アルゴリズム、ランダム フォレスト アルゴリズム、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術研究者は主成分分析とディープラーニングを好みます。学生は一般的にアルゴリズムをあまり使用しませんが、テキストマイニングとディープラーニングをより多く使用します。

次に、KDnuggets の訪問者全体を表す地域別の参加状況を見てみましょう。

有権者の地域分布は次のとおりです。

  • 北米、40%
  • ヨーロッパ、32%
  • アジア 8%
  • ラテンアメリカ、5.0%
  • アフリカ/中東、3.4%
  • オーストラリア/ニュージーランド、2.2%

2011 年の調査と同様に、業界/政府を 1 つのグループに、学術研究者/学生を 2 番目のグループにまとめ、業界/政府に対するアルゴリズムの「親近感」を計算しました。

親和性が 0 のアルゴリズムは、産業界/政府機関と学術研究者/学生によって同様に使用されます。 IG 親密性委員会は、アルゴリズムがより「産業的」であることを示す一方、低いほどアルゴリズムがより「学術的」であることを示します。

その中で最も「工業的」なアルゴリズムは次のとおりです。

  • 隆起モデリング、2.01
  • 異常検出、1.61
  • 生存分析、1.39
  • 因子分析、0.83
  • 時系列/シーケンス、0.69
  • 相関ルール、0.5

インクリメンタル モデリングは、今回も最も「産業的」なアルゴリズムですが、驚くほど使用率が低く、今回の調査で最も使用されているアルゴリズムであるにもかかわらず、わずか 3.1% にとどまっています。

最も「学術的な」アルゴリズムは次のとおりです。

  • ニューラルネットワーク - 通常、-0.35
  • ナイーブベイズ、-0.35
  • サポートベクターマシン (SVM)、-0.24
  • ディープラーニング、-0.19
  • ***期待アルゴリズム (EM)、-0.17

次の図は、すべてのアルゴリズムと、業界/学術界におけるその人気を示しています。


図 3: Kdnugets 調査: データ サイエンティストが使用する人気のアルゴリズム: 業界 vs 学術界

以下の表には、アルゴリズムの詳細、2016 年と 2011 年の調査でそれらを使用した回答者の割合、変化 (%2016 / %2011 - 1)、および前述の業界との親和性が記載されています。

表3: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム

次の表に、各アルゴリズムの詳細を示します。

  • N: 使用頻度順
  • アルゴリズム: アルゴリズム名
  • タイプ: タイプ。 S - 教師あり、U - 教師なし、M - メタ、Z - その他、
  • 2016年の使用率: 2016年の調査でこのアルゴリズムを使用した回答者の割合
  • 2011 年の使用率: 2011 年の調査でこのアルゴリズムを使用した回答者の割合 % 変化: 変化 (% 2016 / % 2011 - 1)
  • 業界親和性: 業界親和性(上記参照)

<<:  Spark を使用して行列分解推奨アルゴリズムを学習する

>>:  [乾物] Tencent Cloud FPGA 上のディープラーニング アルゴリズム

ブログ    
ブログ    

推薦する

デジタル変革の波の中で、車の購入もアルゴリズムの最適化に頼ることができるのでしょうか?

近年、デジタル変革の波に牽引され、自動車業界は着実な変革、アップグレード、ビジネスの再編を遂げていま...

...

ChatGPTのウェブサイトのトラフィックは3か月連続で減少しており、8月の訪問数は3.2%減の14億3000万回となった。

分析会社シミラーウェブが9月8日に発表した最新データによると、人工知能チャットロボット「ChatGP...

...

...

容量はGPT-2の1.7倍! Google がニューラル会話モデル Meena を開発

Google は、これは「真の」会話型 AI への試みであると述べた。チャットボットは高度に専門化さ...

物理学者が67年前に予測した「悪魔」がネイチャー誌に登場:「偽の」高温超伝導体で偶然発見

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違...

ディープラーニングがインターネットにパーソナライゼーションをもたらす仕組み

[[195601]]ディープラーニングは機械学習のサブセットであり、さまざまな方法を使用して人工知能...

これがあれば、母は私が授業をさぼったり、空想にふけったり、携帯電話で遊んだりすることを心配する必要がなくなります...

最近、中国薬科大学は試験的に教室に顔認識システムを導入しました。学生の出席を自動的に識別するだけでな...

...

ThunderSoft の Sun Li: AI 対応産業の課題と解決策

[51CTO.comからのオリジナル記事] 現在、人工知能はセキュリティ、金融などのサブセクターを強...

OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

IT Homeは1月10日、ChatGPTの開発元であるOpenAIが最近、ChatGPTのようなA...

ディープラーニングの救済: 不十分な注釈付きデータによるディープラーニング手法

概要: ディープラーニングのデータ依存の問題を解決し、データ注釈コストを削減することが、業界の研究の...