機械学習の人気のトレンドの概要

機械学習の人気のトレンドの概要

Google トレンドを使ったことがありますか? かなり便利です。キーワードをいくつか入力すると、Google でどのようなトレンドになっているかがわかります。たまたま、arxiv-sanity 論文データベースには過去 5 年間の機械学習関連の論文が 28,303 件登録されているので、同じようなことをして、過去 5 年間の機械学習研究がどのように進歩したかを調べてみようと思いました。結果は非常に興味深いので、投稿して共有しようと思いました。

(機械学習は広大な分野です。この記事では、私が最も精通しているサブフィールドであるディープラーニングに焦点を当てます。)

arxiv 特異点

まず、arxiv-sanity (cs.AI、cs.LG、cs.CV、cs.CL、cs.NE、stat.ML) に投稿された論文の総数を見てみましょう。下の図を参照してください。

はい、2017 年 3 月にはこれらの分野で約 2,000 件の論文が提出されました。急増は、会議 (NIPS/ICML など) の締め切りに関連している可能性があります。ただし、これは分野自体の論文数を反映したものではないことに注意してください。すべての人が論文を arxiv に投稿するわけではなく、一部の論文に対する研究者の分類は時間の経過とともに変化する可能性があるためです。しかし、これらの分野には多数の論文があることを指摘しておく価値はある。

論文の総数を分母として使用します。ここで、論文のこの部分に私たちが興味を持つ具体的なキーワードがどれに含まれているかを確認します。

ディープラーニングフレームワーク

まずは、使用されているディープラーニング フレームワークを見てみましょう。この値を計算する際には、論文内のどこかにあるディープラーニング フレームワークの言及(書誌の書籍タイトルなどを含む)も含まれます。 2017 年 3 月にアップロードされた論文については、次の結果が得られました。

  1. 論文フレームワークが(数か月)存在ている割合
  2.   
  3. ------------------------------------------------------------  
  4. 9.1 テンソルフロー 16
  5. 7.1 カフェ 37
  6. 4.6 テアノ 54
  7. 3.3 トーチ 37
  8. 2.5 ケラス 19
  9. 1.7 マットコンブネット 26
  10. 1.2 ラザニア 23
  11. 0.5 チェイナー 16
  12. 0.3 MXネット 17
  13. 0.3 カウント 13
  14. 0.2 パイトーチ 1
  15. 0.1 ディープラーニング4j 14

つまり、2017 年 3 月に提出された論文の 10% で TensorFlow が言及されていました。もちろん、すべての論文が使用するフレームワークを宣言しているわけではありませんが、フレームワークを宣言している論文ではフレームワークを使用する確率が比較的一定であると仮定すると、現在コミュニティの約 40% が TensorFlow を使用していることになります (TF バックエンドの Keras を含めるとさらに多くなります)。次の図は、いくつかの人気のあるフレームワークが時間の経過とともにどのように進化してきたかを示しています。

Theano はしばらく前から存在していますが、その成長はほぼ停滞していることがわかります。 Caffe は 2014 年に急速に成長しましたが、ここ数か月で TensorFlow に追い抜かれました。 Torch (および最近では PyTorch) もゆっくりではあるが着実に上昇しています。今後数か月でこれがどのように発展していくかを見るのは興味深いでしょう。私の推測では、Caffe/Theano は引き続き緩やかな衰退を続け、TF の成長は PyTorch の出現により少し鈍化するでしょう。

ConvNet モデル

楽しみのために、一般的な ConvNet モデルを見てみましょう。ここでは、ResNet の大幅な増加がはっきりとわかります。2017 年 3 月の論文の 9% に ResNet が登場しています。

また、InceptionNet 以前にインセプションについて議論していたのは誰ですか? これについても興味があります。

最適化アルゴリズム

最適化アルゴリズムに関しては、Adam が再び勝利を収めているようです。2017 年 3 月の論文の 23% に登場しています。実際の使用率は推定が難しく、最適化アルゴリズムを明記していない論文や、ニューラル ネットワークをまったく最適化していない論文も多数あるため、おそらく 23% よりも高いと考えられます。 Adam は 2014 年 12 月に出版されたばかりで、論文の著者と名前が競合している可能性があるため、約 5% になる可能性があります。

研究者

ディープラーニング分野の重要人物の言及も気になったので、以下のグラフを作ってみました(論文引用数に少し似ていますが、①論文の「0/1」カウントよりも安定しており、②全体の範囲で正規化されています。

注目すべき点がいくつかあります。提出された論文の 35% に「bengio」と記載されていますが、ここには Samy Bengio と Yoshua Bengio という 2 人の Bengio がいますが、合併しました。ジェフ・ヒントンはリストの 30% 以上に掲載されています。これは高いようですね。

ホットキーワードまたは非ホットキーワード

最後に、キーワードを手動で分類するのではなく、ホットキーワードと非ホットキーワードを調べます。

人気のキーワード

これにはさまざまな定義がありますが、今回はすべての論文のすべてのユニグラム(単一の単語)またはバイグラム(二重の単語)を調べ、前年と比較した最大使用率の比率を記録しました。この比率より高い場合、昨年の潜在的可能性は高かったが、今年の相対的な頻度が高かったことを意味します。ホットキーワードのランキング結果は次のとおりです。

  1. 8.17394726486 レスネット
  2. 6.76767676768 テンソルフロー
  3. 5.21818181818 ガン
  4. 5.0098386462 残余ネットワーク
  5. 4.34787878788 アダム
  6. 2.95181818182 バッチ正規化
  7. 2.61663993305 fcn
  8. 2.47812783318 vgg16
  9. 2.03636363636 スタイル転送
  10. 1.99958217686 ゲート
  11. 1.99057177616 深い強化
  12. 1.98428686543 秒
  13. 1.93700787402 ナノメートル
  14. 1.90606060606 開始
  15. 1.8962962963 シャム
  16. 1.88976377953 文字レベル
  17. 1.87533998187 地域提案
  18. 1.81670721817 蒸留
  19. 1.81400378481 ツリーサーチ
  20. 1.78578069795 トーチ
  21. 1.77685950413 ポリシー勾配
  22. 1.77370153867 エンコーダデコーダ
  23. 1.74685427385 グル
  24. 1.72430399325 ワード2ベクトル
  25. 1.71884293052 再活性化
  26. 1.71459655485 ビジュアル質問
  27. 1.70471560525 画像生成

たとえば、ResNet の比率が 8.17 なのは、1 年前 (2016 年 3 月 - 最も使用率の高い月) には提出された論文全体の 1.044% に登場したのに対し、先月 (2017 年 3 月) は 8.53% だったためで、8.53 / 1.044 ~= 8.17 となります。

上の図から、過去 1 年間で人気を博した中核的なイノベーションは、1) ResNet、2) GAN、3) Adam、4) BatchNorm であることがわかります。 これらのモデルは研究でよく使用されます。

研究の関心分野としては、1) スタイル転送、2)​​ 深層強化学習、3) ニューラル機械翻訳 (「nmt」)、4) 画像生成が挙げられます。

アーキテクチャの面では、Hotspot は 1) 完全畳み込みネットワーク (FCN)、2) LSTM/GRU、3) シャム ネットワーク、および 4) エンコーダー/デコーダー ネットワークを使用します。

ホットでない言葉

逆の場合はどうでしょうか? 過去 1 年間の提出数は少なかったものの、歴史的には多かった用語にはどのようなものがありますか。以下にいくつか例を挙げます。

  1. 0.0462375339982 フラクタル
  2. 0.112222705524 学習ベイジアン
  3. 0.123531424661 bp
  4. 0.138351983723 テクスチャ分析
  5. 0.152810895084 ベイジアンネットワーク
  6. 0.170535340862 微分進化
  7. 0.227932960894 ウェーブレット変換
  8. 0.24482875551 ディリクレ過程

「フラクタル」が何を指しているのかはよく分かりませんが、一般的にはベイズ非パラメトリックが攻撃を受けているように見えます。

結論は

今回提出する論文のテーマは、Adam で最適化されたスタイル転送への Fully Convolutional Encoder Decoder BatchNorm ResNet GAN の適用に関するものです。これはそれほど突飛な話ではないようです。

<<:  Caffeでのディープラーニングトレーニングの全プロセス

>>:  まずは機械学習から始めましょう

ブログ    
ブログ    
ブログ    

推薦する

新しいアルゴリズムと産業チェーン市場が立ち上げられ、ArcSoft Open Platformは「技術の開放+産業のエコロジー」の新たな段階を切り開きます。

現在、業界のビジュアル AI に対する焦点は最先端技術から産業エコロジーへと移行しており、これはビ...

米軍はドローンに対処するための新たな方法を考案した。ドローンの群れを破壊するマイクロ波兵器を開発するのだ。

【環球時報記者 徐陸明】6月17日、「国防ニュース」ウェブサイトの報道によると、最新の軍事予算文書...

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

サンフランシスコは前例のない措置として、政府による顔認識技術の使用を禁止する規則を発布した。悪者を捕...

...

...

AIは古い建物のエネルギー効率を変えるでしょうか?

スマート ビルディングの観点から見ると、AI は多くの居住者向けテクノロジーに統合され、建物やキャン...

ディープラーニングの3つの主なステップ!

[[418456]]この記事は、Lee Hongyi によるチーム スタディ ブック「LeeML-...

国家人工知能実験区の数は 8 つに増えました。なぜこの 5 つの都市が選ばれたのでしょうか?

丑年の最初の仕事週に、国家人工知能イノベーションおよび応用パイロットゾーンの数が増加しました。工業情...

2023 年までにデータセンターで注目される AI と ML の 10 大アプリケーション

人工知能 (AI) と機械学習 (ML) は、データセンター分野の重要なテクノロジーとなっています。...

Cloudsimを使用して多次元QoSに基づくリソーススケジューリングアルゴリズムを実装する

Cloudsim は、グリッドコンピューティングシミュレーションソフトウェア Gridsim のプロ...

AIが独自に病気を診断できる場合、人間の医師は責任を回避できるのでしょうか?

健康診断のために病院に行くところを想像してください。診察室に入るとすぐに、看護師があなたの写真を撮り...

新たな突破口!商用ドローン配送がさらに一歩前進

ドローンはすでに、医療製品の配送、インフラの検査、監視、メンテナンス、人間の労働力へのリスクの軽減、...

Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

新しいプロジェクトは、Python で記述された機械学習アプリケーションをサポートするために使用でき...

1行のコードで顔認識を実装する方法を教えます

概要: 顔認識を実現するための 1 行のコード、1. まず、システムに認識させたいすべての人の写真が...

JavaScript: ソートアルゴリズムとコード実装のトップ 10

この記事の内容には、(双方向) バブル ソート、選択ソート、挿入ソート、クイック ソート (穴埋めと...