KDnuggets 調査 | データ サイエンティストが最もよく使用するアルゴリズム トップ 10

KDnuggets 調査 | データ サイエンティストが最もよく使用するアルゴリズム トップ 10

翻訳 | 江凡百理子杰樹

校正 | ロリン

最新の KDnuggets 調査では、データ サイエンティストの実際の業務で最もよく使用されるアルゴリズムが集計されており、ほとんどの学術界と産業界において驚くべき発見がありました。

KDnuggets の Gregory Piatetsky 氏によると、最新の調査質問は次のとおりです。過去 12 か月間に、実際のデータ サイエンス関連のアプリケーションでどのモデル/アルゴリズムを使用しましたか?

したがって、844 枚の解答用紙に基づく結果は次のとおりです。

上位10のアルゴリズムとその投票者の割合

図1: データサイエンティストが最もよく使用するアルゴリズムのトップ10。すべてのアルゴリズムについては、記事の最後にある表を参照してください。

回答者は平均 8.1 個のアルゴリズムを使用しており、これは 2011 年の同様の調査と比較すると大幅に増加しています。

2011 年のデータ分析アルゴリズムの調査と比較すると、最も一般的に使用されている方法は依然として回帰、クラスタリング、決定木/ルール、視覚化であることがわかりました。最大の増加率は(増加 = %2016/%2011 -1)です。

  • ブースティングアルゴリズムが40%改善されました。 2011年の23.5%から2016年には40%に増加した。
  • テキストマイニングが30%向上しました。 27.7%から35.9%へ
  • 視覚化が 27% 向上しました。 38.3%から48.7%へ
  • 時系列/シーケンス分析: 25% 改善されました。 29.6%から37.0%へ
  • 異常/逸脱検出、16.4%から19.5%に19%改善
  • アンサンブル法、28.3%から33.6%に19%増加
  • サポートベクターマシン(SVM)は28.6%から33.6%に18%向上しました。
  • 後退、57.9%から67.1%に16%改善

2016年最も人気のある新人は

  • K近傍法、46%
  • 主成分分析(PCA)、43%
  • ランダムフォレスト、38%
  • 最適化、24%
  • ニューラルネットワーク - ディープラーニング、19%
  • 特異値分解、16%

最も大きな下落は

  • 関連性ルール、28.6%から15.3%に47%減少
  • アップリフトモデリング、4.8%から3.1%に36%減少(これに関する膨大な文献を考慮すると驚くほど低い)
  • 要因分析、24%減少、18.6%から14.2%へ
  • 生存分析、9.3%から7.9%に15%減少

次の表は、さまざまなアルゴリズム タイプ (教師ありアルゴリズム、教師なしアルゴリズム、メタアルゴリズム、その他のアルゴリズム) が使用される場所を示しています。応募種別不明(NA、4.5%)またはその他の職業種別(3%)は含まれていません。

表1: 職業種別アルゴリズムの使用状況

ほぼ全員が教師あり学習アルゴリズムを使用していることに気付きました。政府や産業界のデータ サイエンティストは、学生や科学者よりも多様なアルゴリズムを使用します。産業データサイエンティストはメタアルゴリズムの使用を好みます。

さまざまな職業で最もよく使われるアルゴリズム + ディープラーニングのトップ 10

次に、さまざまな職業で最もよく使用されるアルゴリズム+ディープラーニングのトップ10を分析しました。

表2: 職業別のトップ10アルゴリズム+ディープラーニング

これらの違いをより明確に示すために、異なる職業タイプのアルゴリズム使用バイアスを計算する式を使用します。

バイアス = 特定の職業タイプのアルゴリズム使用率 / すべての職業タイプのアルゴリズム使用率 - 1

図2: さまざまな会場でのアルゴリズム使用の偏り

産業データ サイエンティストは、回帰、視覚化、統計、ランダム フォレスト、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術界の研究者は主成分分析とディープラーニングをより多く利用しています。学生は一般的にアルゴリズムをあまり使用しませんが、主にテキストマイニングとディープラーニングを使用します。

次に、KDnuggets ユーザー全体を表す特定の地域でのエンゲージメントを見てみましょう。

調査員の地域分布:

  • アメリカ/カナダ、40%
  • ヨーロッパ、32%
  • アジア、18%
  • ラテンアメリカ、5.0%
  • アフリカ/中東、3.4%
  • オーストラリア/ニュージーランド、2.2%

2011 年の調査では、業界と政府からの回答者を 1 つのグループにまとめ、学術研究者と学生を 1 つのグループにまとめ、業界と政府グループのアルゴリズムの使用知識を計算しました。

(産官グループのアルゴリズム利用率 / 学術学生グループのアルゴリズム利用率) / (産官グループの人数 / 学術学生グループの人数) - 1

したがって、親和性が 0 のアルゴリズムは、業界/政府グループと学術学生グループによって同等に使用されていることを示します。 IG 親密度が高くなるほど、アルゴリズムは業界に偏り、結果が小さくなるほど、アルゴリズムは学術に偏ります。

最も「工業的なアルゴリズム」は次のとおりです。

  • モデリングの向上、2.01
  • 異常検出、1.61
  • 生存分析、1.39
  • 因子分析、0.83
  • 時系列/シーケンス分析、0.69
  • 相関ルール、0.5

アップリフト モデリングは今回も最も好まれる「業界アルゴリズム」ですが、驚くほど使用頻度が低く、調査全体で最も低い 3.1% にとどまっています。

最も「学術的なアルゴリズム」は次のとおりです。

  • ニューラルネットワーク、-0.35
  • ナイーブベイズ、-0.35
  • サポートベクターマシン、-0.24
  • ディープラーニング、-0.19
  • 最大期待値、-0.17

下の図は、すべてのアルゴリズムとその業界/学術的親和性を示しています。

図 3: KDnuggets 調査: データ サイエンティストが最もよく使用するアルゴリズム: 業界と学術界の比較

次の表には、2016 年の回答者の使用率、2011 年の使用率、変化 (2016 年の割合 / 2011 年の割合 - 1)、および前述の業界の精通度など、アルゴリズム調査のすべての結果が詳細に記載されています。

表3: KDnuggets 2016 調査: データ サイエンティストが使用するアルゴリズム

以下の表は、すべてのアルゴリズムの調査結果の詳細を示しています。各列は次の内容を表しています。

  • ランキング: 使用率によるランキング
  • アルゴリズム: アルゴリズム名
  • タイプ: S – 教師あり、U – 教師なし、M – メタ、Z – その他の方法、
  • 2016年の調査でアルゴリズムを使用した人の割合
  • 2016年の調査でアルゴリズムを使用した人の割合
  • 変化: (%2016 / %2011 -1)、
  • 業界の親和性については上記で説明しました。

表4: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム

出典: http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

<<:  ディープラーニングの深層: モデリング知識とオープンソースツールのオプション

>>:  最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

ブログ    
ブログ    
ブログ    

推薦する

...

マイクロソフトのハリー・シャムがGitHub、データの信念、そしてコンピューティングの未来について語る

1 月 20 日、マイクロソフトのグローバル エグゼクティブ バイスプレジデントであるハリー シャム...

レビュー能力はGPT-4よりも強く、13B評価モデルAuto-Jはオープンソース化されている

生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観(意図)と一致するようにすることが...

新しいニューラルネットワークモデルが登場:生成的敵対ネットワークよりも優れている

ディープニューラルネットワーク技術の発展に伴い、新しいネットワークアーキテクチャが絶えず登場していま...

RAGからマルチモーダル検索まで、OpenAIの技術進化

著者 | 崔昊レビュー | Chonglouまとめこの記事では、情報検索とテキスト生成の最新の進歩に...

クールなデュオ: AI が金融テクノロジーの進化にどのように役立つかを示す 6 つのケース スタディ

中国では、口座間の送金、銀行ローンの申請、取引の実行にインターネットを利用することが住民にとって日常...

多言語AI分析は、顧客体験の可能性を解き放ち、ビジネスの成長を促す鍵となる

テキスト分析は、顧客が話す言語に関係なく、顧客の意見のあらゆる例を発見して注釈を付けることができる強...

...

2021年、ついにスマートグラスの普及が到来

[[391934]]スマートグラスの技術は長い間、SF作家たちの想像力をかき立ててきました。理論上、...

...

Amazon AIテクノロジーの応用と戦略的なレイアウトの詳細な分析:Alexa

アマゾンは時価総額7,900億ドルでマイクロソフトを上回り、世界で最も価値のある企業となった。ジェフ...

アルゴリズムを拒否することができます

[[419044]] 「ブラックミラー」には、新婚の夫を亡くした女性が、その悲しみを和らげるために企...

人工知能は ICT 専門家にとって味方でしょうか、それとも敵でしょうか?

人工知能 (AI) とそのサブセットである機械学習 (ML) は、今日最も急速に成長しているテクノロ...

AIによりドローンは未知の環境でも高速で自律飛行できる

チューリッヒ大学の研究者らは、複雑で未知の環境でもドローンが高速で自律飛行できるようにする新たな人工...

...