2017 年のトップデータサイエンスと機械学習手法

2017 年のトップデータサイエンスと機械学習手法

[51CTO.com クイック翻訳] 統計によると、回答者が現在選択している最も一般的に使用されている方法は、回帰、クラスタリング、視覚化、決定木/ルール、ランダムフォレストなどです。回答者のわずか20%がディープラーニング手法を使用しています。また、「業界」および「学術」レベルでのさまざまな方法の人気についてもまとめました。

この調査の質問は非常にシンプルです。

過去 12 か月間に、実際に応用するために選択したデータ サイエンス/機械学習の手法とツールは何ですか?

732 名の回答者から提供された結果に基づいて、以下の結論が導き出されました。

2017 年に最も広く使用されたデータ サイエンスと機械学習の手法トップ 10

この調査の回答者は平均 7.7 個のツール/方法を使用しています。

次に、今年の調査で最も多く利用された上位16の手法を昨年の結果と比較しました。下図の通りです。

2017 年と 2016 年のトップ 16 のデータ サイエンス/機械学習手法の比較

ランダム フォレスト、視覚化、ディープ ラーニングの使用が大幅に増加し、K-nn、PCA、ブースティングの使用が減少したことがわかりました。今年は勾配ブースティングマシンがリストに載りました。

この目覚ましい成功にもかかわらず、調査回答者のうち実際にディープラーニング手法を使用しているのはわずか 20% です。

昨年と比較して今年最も大きな成長が見られたツール/方法は次のとおりです。

  • ベイズ法は、2016 年の 11.7% から 2017 年の 17.5% へと 49% 増加しました。
  • ランダムフォレストは、2016 年の 35.1% から 2017 年の 46.2% へと 32% 増加しました。
  • ディープラーニングは、2016 年の 17.2% から 2017 年の 20.6% へと 20% 増加しました。
  • 生存分析では、2016 年の 7.5% から 2017 年の 8.5% に 13.5% 増加しました。
  • 視覚化は、2016 年の 46.7% から 2017 年の 51.0% に 9% 増加しました。

2017 年のリストには、次のような新しい方法論もいくつか取り入れられています。

  • グラディエントブースター、20.4%
  • 畳み込みネットワーク、15.8%
  • リカレントニューラルネットワーク(RNN)、10.5%
  • 隠れマルコフモデル(HMM)、4.6%
  • 強化学習、4.2%
  • マルコフ論理ネットワーク、2.5%
  • 生成的敵対ネットワーク (GAN)、2.3%

最も顕著な使用量の減少は次のとおりです。

  • 異常値分解(SVD)、2016年の15.4%から2017年の8.1%に48%減少
  • グラフィック/リンク/ソーシャルネットワーク分析は、2016年の14.0%から2017年の8.1%へと42%減少しました。
  • 遺伝的アルゴリズム/進化的手法は、2016年の8.3%から2017年の4.8%へと42%減少した。
  • 新興市場は2016年の6.4%から2017年には4.1%へと36%減少した。
  • 最適化は2016年の23.2%から2017年の17.2%に26%減少した。
  • 2016年の30.6%から2017年には24.6%へと20%減少
  • PCAは2016年の40.5%から2017年には34.7%に14%減少した。

業界所属

各業界で使用される方法/ツールは次のとおりです。

  • 業界/個人、63%、平均8.3個のツールを使用
  • 学生の15%が平均5.7個のツールを使用している
  • 研究者/学者、11%、平均7.8個のツールを使用
  • その他、11%、平均7.1個のツールを使用

注: 政府/非営利団体を選択した回答者は 35 名のみでした。サンプル数が少ないため、ここでは「その他」のカテゴリに含めました。

以下は上位 16 の方法とそのバイアス結果です。

具体的な計算方法は、偏差(方法、帰属)=割合(方法、帰属)/割合(方法)-1である。

偏差値が正の場合、その方法は平均よりも頻繁に使用されていることを意味します。負の値の場合は、その方法が平均よりも使用頻度が低いことを意味します。

たとえば、サポート ベクター マシン (SVM) は回答者の 28.7% が使用していますが、研究者の 44.4% が使用しているため、偏差 (SVM、研究者) = 44.4%/28.7% - 1 = 54.9% となります。

上位 16 のデータ サイエンス手法とその関連傾向

次に、さまざまなデータ サイエンス手法の業界および学術界における普及状況を調べます。

次のグラフは、さまざまな業界と学術界(学術界は学生と研究者と定義)におけるさまざまなデータサイエンス手法の魅力度ランキングを示しています。業界の魅力度(手法)=比率(手法、業界)/比率(手法、学術界)- 1

「業界」の使用頻度が最も高い方法は次のとおりです。

インクリメンタルモデリング(2年連続1位)

  • 異常/逸脱検出
  • グラデーションブースター
  • 学術界で最も人気のあるトピックは、ディープラーニングに関連する高度なトピックです。
  • 生成的敵対ネットワーク (GAN)
  • 強化学習
  • リカレントニューラルネットワーク (RNN)
  • 畳み込みネットワーク

データサイエンスの手法とその産業界/学術界への魅力

バーの幅は使用率に対応し、色は業界/学術的訴求力に対応しています。

***、世界各地域の参加率は次のとおりです。

  • ヨーロッパ、39%
  • アメリカ/カナダ、33%
  • アジア、14%
  • 南米、6.0%
  • オーストラリア/ニュージーランド、4.8%
  • アフリカ/中東、3.8%

以下の表は、全体的な使用率順に並べられた、すべての方法の具体的なデータを示しています。

表の列は次のとおりです。

方法: データサイエンスの方法

  • 2017年から2016年までの割合の変化: 2016年と比較した使用量の変化
  • 全体の使用率: この方法を使用している回答者の割合
  • 業界別使用率: この方法を使用している業界別回答者の割合
  • 学生の使用率: この方法を使用した学生の回答者の割合
  • 研究者の使用率: この方法を使用する研究者回答者の割合

表1: データサイエンス手法の使用

AIに関するその他のコンテンツについては、公式アカウント「AI Pusher」をフォローしてください。

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  AAAI2018にはアリババからの11の論文が収録され、6人の著者がメインカンファレンスでプレゼンテーションを行うよう招待されました。

>>:  実践的 | この記事は畳み込みニューラルネットワークを始めるのに十分です

ブログ    
ブログ    

推薦する

人工知能:人種差別との戦いにおける次のフロンティア?

[[350644]]ジョージ・フロイドの悲劇的な殺害が世界に衝撃を与えてから、まだ3か月しか経って...

...

GPT-4 Turboがリリースされたが、人気が高すぎて翌日2時間ダウンした。

11月7日、北米の人工知能企業OpenAIの開発者会議が世界のテクノロジーコミュニティの注目を集め...

...

人工知能がサプライチェーンに及ぼす8つの影響

サプライチェーンに影響を及ぼす人工知能 (AI) について知っておくべき 8 つの方法をご紹介します...

...

...

Python vs R: 機械学習とデータ分析の比較

[[187351]]新しいツールの出現を促すために、機械学習やデータ分析の分野は「オープンソース」の...

...

独自の顔ぼかしツールを構築する方法

OpenCVを使用して顔認識をカスタマイズする方法[[412851]]匿名化とは、データを匿名化する...

Facebookは27億人にサービスを提供するAIハードウェアシステムをオープンソース化した。

コミュニティは常に Facebook のハードウェア研究に細心の注意を払ってきました。本日の Ope...

...

データセンターは大量の電力を消費します。しかしAIはエネルギーを大量に消費する必要はない

世界経済フォーラム(AI が地球を救う 8 つの方法)を含む多くの予測では、人工知能 (AI) が「...

張北院士:人工知能の一般理論が形成されつつあり、AI革命の発展は止められない

7月6日に開催されたAscend人工知能産業サミットフォーラム2023において、中国科学院院士、清華...

我が国の自動販売機の現状と展望はどうなっているのでしょうか? Pinshi Intelligentは新たな戦略を持っています

セルフサービス自動販売機自体は目新しいものではないが、販売品目が普通のボトル入り飲料から絞りたてジュ...