機械学習の人気のトレンドの概要

機械学習の人気のトレンドの概要

Google トレンドを使ったことがありますか? かなり便利です。キーワードをいくつか入力すると、Google でどのようなトレンドになっているかがわかります。たまたま、arxiv-sanity 論文データベースには過去 5 年間の機械学習関連の論文が 28,303 件登録されているので、同じようなことをして、過去 5 年間の機械学習研究がどのように進歩したかを調べてみようと思いました。結果は非常に興味深いので、投稿して共有しようと思いました。

(機械学習は広大な分野です。この記事では、私が最も精通しているサブフィールドであるディープラーニングに焦点を当てます。)

arxiv 特異点

まず、arxiv-sanity (cs.AI、cs.LG、cs.CV、cs.CL、cs.NE、stat.ML) に投稿された論文の総数を見てみましょう。下の図を参照してください。

はい、2017 年 3 月にはこれらの分野で約 2,000 件の論文が提出されました。急増は、会議 (NIPS/ICML など) の締め切りに関連している可能性があります。ただし、これは分野自体の論文数を反映したものではないことに注意してください。すべての人が論文を arxiv に投稿するわけではなく、一部の論文に対する研究者の分類は時間の経過とともに変化する可能性があるためです。しかし、これらの分野には多数の論文があることを指摘しておく価値はある。

論文の総数を分母として使用します。ここで、論文のこの部分に私たちが興味を持つ具体的なキーワードがどれに含まれているかを確認します。

ディープラーニングフレームワーク

まずは、使用されているディープラーニング フレームワークを見てみましょう。この値を計算する際には、論文内のどこかにあるディープラーニング フレームワークの言及(書誌の書籍タイトルなどを含む)も含まれます。 2017 年 3 月にアップロードされた論文については、次の結果が得られました。

  1. 論文フレームワークが(数か月)存在ている割合
  2.   
  3. ------------------------------------------------------------  
  4. 9.1 テンソルフロー 16
  5. 7.1 カフェ 37
  6. 4.6 テアノ 54
  7. 3.3 トーチ 37
  8. 2.5 ケラス 19
  9. 1.7 マットコンブネット 26
  10. 1.2 ラザニア 23
  11. 0.5 チェイナー 16
  12. 0.3 MXネット 17
  13. 0.3 カウント 13
  14. 0.2 パイトーチ 1
  15. 0.1 ディープラーニング4j 14

つまり、2017 年 3 月に提出された論文の 10% で TensorFlow が言及されていました。もちろん、すべての論文が使用するフレームワークを宣言しているわけではありませんが、フレームワークを宣言している論文ではフレームワークを使用する確率が比較的一定であると仮定すると、現在コミュニティの約 40% が TensorFlow を使用していることになります (TF バックエンドの Keras を含めるとさらに多くなります)。次の図は、いくつかの人気のあるフレームワークが時間の経過とともにどのように進化してきたかを示しています。

Theano はしばらく前から存在していますが、その成長はほぼ停滞していることがわかります。 Caffe は 2014 年に急速に成長しましたが、ここ数か月で TensorFlow に追い抜かれました。 Torch (および最近では PyTorch) もゆっくりではあるが着実に上昇しています。今後数か月でこれがどのように発展していくかを見るのは興味深いでしょう。私の推測では、Caffe/Theano は引き続き緩やかな衰退を続け、TF の成長は PyTorch の出現により少し鈍化するでしょう。

ConvNet モデル

楽しみのために、一般的な ConvNet モデルを見てみましょう。ここでは、ResNet の大幅な増加がはっきりとわかります。2017 年 3 月の論文の 9% に ResNet が登場しています。

また、InceptionNet 以前にインセプションについて議論していたのは誰ですか? これについても興味があります。

最適化アルゴリズム

最適化アルゴリズムに関しては、Adam が再び勝利を収めているようです。2017 年 3 月の論文の 23% に登場しています。実際の使用率は推定が難しく、最適化アルゴリズムを明記していない論文や、ニューラル ネットワークをまったく最適化していない論文も多数あるため、おそらく 23% よりも高いと考えられます。 Adam は 2014 年 12 月に出版されたばかりで、論文の著者と名前が競合している可能性があるため、約 5% になる可能性があります。

研究者

ディープラーニング分野の重要人物の言及も気になったので、以下のグラフを作ってみました(論文引用数に少し似ていますが、①論文の「0/1」カウントよりも安定しており、②全体の範囲で正規化されています。

注目すべき点がいくつかあります。提出された論文の 35% に「bengio」と記載されていますが、ここには Samy Bengio と Yoshua Bengio という 2 人の Bengio がいますが、合併しました。ジェフ・ヒントンはリストの 30% 以上に掲載されています。これは高いようですね。

ホットキーワードまたは非ホットキーワード

最後に、キーワードを手動で分類するのではなく、ホットキーワードと非ホットキーワードを調べます。

人気のキーワード

これにはさまざまな定義がありますが、今回はすべての論文のすべてのユニグラム(単一の単語)またはバイグラム(二重の単語)を調べ、前年と比較した最大使用率の比率を記録しました。この比率より高い場合、昨年の潜在的可能性は高かったが、今年の相対的な頻度が高かったことを意味します。ホットキーワードのランキング結果は次のとおりです。

  1. 8.17394726486 レスネット
  2. 6.76767676768 テンソルフロー
  3. 5.21818181818 ガン
  4. 5.0098386462 残余ネットワーク
  5. 4.34787878788 アダム
  6. 2.95181818182 バッチ正規化
  7. 2.61663993305 fcn
  8. 2.47812783318 vgg16
  9. 2.03636363636 スタイル転送
  10. 1.99958217686 ゲート
  11. 1.99057177616 深い強化
  12. 1.98428686543 秒
  13. 1.93700787402 ナノメートル
  14. 1.90606060606 開始
  15. 1.8962962963 シャム
  16. 1.88976377953 文字レベル
  17. 1.87533998187 地域提案
  18. 1.81670721817 蒸留
  19. 1.81400378481 ツリーサーチ
  20. 1.78578069795 トーチ
  21. 1.77685950413 ポリシー勾配
  22. 1.77370153867 エンコーダデコーダ
  23. 1.74685427385 グル
  24. 1.72430399325 ワード2ベクトル
  25. 1.71884293052 再活性化
  26. 1.71459655485 ビジュアル質問
  27. 1.70471560525 画像生成

たとえば、ResNet の比率が 8.17 なのは、1 年前 (2016 年 3 月 - 最も使用率の高い月) には提出された論文全体の 1.044% に登場したのに対し、先月 (2017 年 3 月) は 8.53% だったためで、8.53 / 1.044 ~= 8.17 となります。

上の図から、過去 1 年間で人気を博した中核的なイノベーションは、1) ResNet、2) GAN、3) Adam、4) BatchNorm であることがわかります。 これらのモデルは研究でよく使用されます。

研究の関心分野としては、1) スタイル転送、2)​​ 深層強化学習、3) ニューラル機械翻訳 (「nmt」)、4) 画像生成が挙げられます。

アーキテクチャの面では、Hotspot は 1) 完全畳み込みネットワーク (FCN)、2) LSTM/GRU、3) シャム ネットワーク、および 4) エンコーダー/デコーダー ネットワークを使用します。

ホットでない言葉

逆の場合はどうでしょうか? 過去 1 年間の提出数は少なかったものの、歴史的には多かった用語にはどのようなものがありますか。以下にいくつか例を挙げます。

  1. 0.0462375339982 フラクタル
  2. 0.112222705524 学習ベイジアン
  3. 0.123531424661 bp
  4. 0.138351983723 テクスチャ分析
  5. 0.152810895084 ベイジアンネットワーク
  6. 0.170535340862 微分進化
  7. 0.227932960894 ウェーブレット変換
  8. 0.24482875551 ディリクレ過程

「フラクタル」が何を指しているのかはよく分かりませんが、一般的にはベイズ非パラメトリックが攻撃を受けているように見えます。

結論は

今回提出する論文のテーマは、Adam で最適化されたスタイル転送への Fully Convolutional Encoder Decoder BatchNorm ResNet GAN の適用に関するものです。これはそれほど突飛な話ではないようです。

<<:  Caffeでのディープラーニングトレーニングの全プロセス

>>:  まずは機械学習から始めましょう

ブログ    
ブログ    
ブログ    

推薦する

...

中国語で最も強力なオープンソース モデルがここにあります! 130億のパラメータ、商用利用の閾値0、Kunlun Wanweiより

最も徹底したオープンソース モデルがここにあります - 130 億のパラメーター、申請なしで商用利用...

...

...

人工知能が動物を理解するにはどれくらいの時間がかかるのでしょうか?

[[405241]]ビッグデータダイジェスト制作出典: engadget現在、オーストラリアに生息...

GenAIの有効性に影響を与える主な問題

企業は GenAI をビジネスに適用しようとすると、多くの抵抗と予想外の変更管理の問題に直面します。...

ファイアウォールではできないことを人工知能で実現できるでしょうか?

[[183545]]ハッカーが徐々に人工知能システムに適応するにつれて、プログラマーも積極的に新し...

Megvii Technology: 人工知能が携帯電話の「視覚」革命をリード

[51CTO.comより引用] 現在、AIの幕が開き、人類世界は蒸気時代、電気時代、情報化時代に続く...

マイクロソフトは、Bingチャットのベテラン向けにエキスパートモードの導入を検討中:より複雑なUIとより豊富な機能

7月26日、マイクロソフト広告およびウェブサービスのCEOであるミハイル・パラキン氏は、ネットユーザ...

2022 年のビジネス インテリジェンスの 7 つのトレンド

ビジネス インテリジェンスは AI に置き換えられることはありません。BI は今でも存在し、役立って...

2019年最新プログラマー収入ランキング:あなたは取り残されていますか?

Indeed Recruitment Network が 2019 年の給与リストを発表したところ...

...

機械学習プロジェクトにおける特徴エンジニアリングの 5 つのベスト プラクティス

私たちは長年にわたり、機械学習プロジェクトで何が機能し、何が機能しないかを特定するために、さまざまな...

人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

[[386945]]私はかつて「ウォーリーと一緒に星を見上げる」というタイトルの記事を書き、ビッグ...

機械学習を理解するには、「3つの魔法の武器」を理解するだけで十分です

クイズ番組「ジェパディ」の優勝者や囲碁の名人から、広告に関連した不名誉な人種プロファイリングまで、私...