arXiv.org は、物理学、数学、コンピューターサイエンス、生物学の論文のプレプリントを収集することに特化した Web サイトです。データによれば、2014 年末までに arXiv には 100 万件を超える論文が収集され、毎月 8,000 件のペースで増加し続けています。これは世界最大の論文データベースの 1 つです。 最近、スタンフォード大学コンピューターサイエンス学部の博士課程修了者で、OpenAIのシニアサイエンティストでもあるAndrej Karpathy氏は、arXivの機械学習論文のビッグデータセットに基づいて、論文数、オープンソースフレームワーク、数学モデル、最適化アルゴリズムなど、過去5年間の機械学習のトレンドの変化について詳細な分析を行い、その分析結果を自身の個人ブログで公開しました。 Google トレンドや Baidu Index などのツールについて聞いたことがあるはずです。キーワードを入力するだけで、過去数か月、あるいは数年間のその単語のトレンドの変化をすぐに確認できます。これに触発されて、たまたま手元にあった arXiv 論文データセットには、過去 5 年間の機械学習に関連する 28,303 件の論文が収集されていました。では、Google トレンドと同様に、これらの論文から機械学習の分野における科学研究の傾向がわかるのでしょうか? 詳細なデータ分析を実施したところ、非常に興味深い結果が得られたので、ここで共有します。 論文総数 まず、論文の数を見てみましょう。次の図は、過去 5 年間に arXiv が収集した機械学習論文の数の推移を示しています。 上図からわかるように、2017年3月は論文総数が急増しています。タイミングから判断すると、NIPSやICMLなどの大規模な会議の論文提出期限が3月であることによるものと考えられます。説明する必要があることの 1 つは、arXiv 論文データセットは包括的ではあるものの、機械学習業界全体の変化する傾向を完全には表すことができないということです。結局のところ、すべての人が arXiv Web サイトに論文を投稿することに慣れているわけではないからです。しかし、上の図からは明らかな上昇傾向が見られ、機械学習の人気が確かに高まり続けていることがわかります。 以下では、これらの論文を研究資料として使用し、どのような変化の傾向が含まれているかを確認します。 ディープラーニングフレームワーク まず、ディープラーニングのフレームワークを見てみましょう。ここでは、2017 年 3 月にアップロードされたすべての論文で言及されている機械学習フレームワークを記録しました (参考文献と論文の内容を含む)。 ご覧のとおり、2017 年 3 月に提出されたすべての論文の約 10% で TensorFlow が言及されています。もちろん、すべての論文がフレームワークの使用を宣言しているわけではありませんが、論文が固定の確率分布を持つフレームワークを宣言し、この確率がフレームワーク自体とは無関係であると仮定すると、コミュニティの最大 40% が TensorFlow を使用していることになります (Keras バックエンドとして TensorFlow を使用する論文も含めると、この割合はさらに高くなります)。これらのフレームワークは時間の経過とともに次のように変化してきました。 ご覧のとおり、Theano はしばらくの間急速に成長してきましたが、最近はその成長率が鈍化しています。 Caffe は 2014 年頃から人気が爆発的に高まり始めましたが、ここ数か月で強力な TensorFlow に追い抜かれました。 Torch (および最近では PyTorch) も、遅いながらも着実に増加しています。私の推測では、Caffe と Theano は今後徐々に衰退し、PyTorch の台頭により TensorFlow の成長率は鈍化する可能性があるため、数か月後にこの結果を見るとさらに興味深いものになると思います。 畳み込みニューラル ネットワーク モデル (CNN) 畳み込みニューラルネットワークの状況を見てみましょう。下のグラフから、CNN分野の重要なマイルストーンであるResNet(ディープ残差ネットワーク)が2016年末に急増したことがはっきりとわかります。2017年3月には、提出された論文の約9%がResNetに言及していました。 さらに、Google InceptionNet 以前にも、インセプションの概念について言及した論文が実際に存在していたことがわかります。 最適化アルゴリズム 最適化アルゴリズムに関しては、Adam アルゴリズムが最も広く使用されており、論文の約 23% で言及されています。ここで注目すべきは、実際の使用においては、最適化アルゴリズムを明示的に述べていない論文が多く、ニューラル ネットワークの最適化に関する内容さえ説明していない論文もあるため、Adam アルゴリズムの採用率が高くなる可能性があるということです。また、グラフからわかるのは、2014年12月にAdam最適化アルゴリズムが正式に提案される前には、実際に「Adam」というキーワードに言及した論文がいくつかあり、その確率は5%程度にとどまっていたということです。これは、Adamという名前の著者が多いからなのかもしれません。 研究者 ここで、ディープラーニング分野の著名人の論文における名前の変化についても調べてみたいと思いました。結果は下の図に示されています。なお、キーワードのみでカウントする方法は非常に大まかであり、正規化操作もいくつか行いました。 グラフからわかるように、提出された論文の約 35% で Bengio について言及されていますが、実際には Samy と Yoshua の 2 人がここにおり、この図では 2 人を合わせた結果を示しています。また、すべての新しい論文の 30% 以上が Geoff Hinton に言及していることも指摘する価値があり、これは非常に強力です。 キーワード ***その一部はキーワードです。ここではまず、論文中のすべてのユニグラムとバイグラムのキーワードの出現回数を数え、これらの単語の現在と 1 年前の最高採用率を比較しました。ここでベンチマークとして使用する論文は、過去 2 年間で最も引用された論文の一部です。上位にランクされているキーワードの一部を以下に示します。 ResNet を例にとると、2016 年 3 月の全論文における採用率は 1.044% であったのに対し、今年 3 月には採用率が 8.53% に増加したため、相対的な人気は 8.17 となります。2 つのパーセンテージを割ると、8.17 になります。 上記のグラフからわかるように、過去 1 年間で最も注目された機械学習のイノベーションには、ResNet、GAN、Adam、BatchNorm などがあります。研究の方向性に関するホットワードには、スタイル転送、深層強化学習 (ディープ RL)、ニューラル ネットワーク変換、画像生成などがあります。 ***、モデルに関しては、完全畳み込みネットワーク (FCN)、LSTM/GRU、Siamese ネット、エンコーダー デコーダー ネットなどのホットワードが見られます。 逆に、過去 1 年間で減少し、最も人気のないキーワードとなったキーワードはどれでしょうか。次のようなランキングをまとめました。 フラクタルとベイジアン関連のコンテンツの人気は過去 1 年間で大幅に低下したことがわかります。 要約する ちなみに、分析結果をすべて読んだ後、Adam アルゴリズムによって最適化され、スタイル転送に適用された完全畳み込みニューラル ネットワーク、BatchNorm、ResNet、GAN テクノロジに基づく論文をすぐに書いてみませんか? |
>>: 機械学習のケーススタディ: クレジットカード詐欺検出
倫理的配慮無人運転車の問題は、自動運転車の倫理性の問題として要約できます。この問題の典型的なバージョ...
人工知能は、運輸業界が直面している多くの複雑な課題を解決するための最適なテクノロジーとなっています。...
セキュリティ オペレーション センター (SOC) のアナリストは推論と意思決定に優れていますが、2...
現在、ディープラーニングサービスを提供する事業者は数多く存在します。これらのサービスを利用する際には...
[[220537]]リアム・ヘーネル編纂者:趙怡雲、江宝尚、銭天培新年を前に、温翁氏は音声認識から...
[[253100]]映画「ターミネーター」を見たことがある人は多いでしょう。実は、ターミネーターに似...
[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...
[[391934]]スマートグラスの技術は長い間、SF作家たちの想像力をかき立ててきました。理論上、...
人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...
「アレックス・コントロヴィッチと私が率いる新しいリーン形式化プロジェクトが正式に発表されました。この...
Appleの携帯電話に搭載されているインテリジェントなパーソナル音声アシスタントSiriから、Alp...
[[332234]] AI若手科学者連盟の主導のもと、国内の大学教授15名とビジネス界のAIリーダ...
[[200819]]本稿では、分散システムの観点から現在の機械学習プラットフォームのいくつかを研究...