PyTorch がトップカンファレンスを席巻: CVPR 論文は TensorFlow の 4 倍を占める

オープンソースフレームワークの分野では、PyTorch と TensorFlow の間で常に議論が続いており、研究者も論文を書く際にさまざまな好みを持っています。しかし、近年では、PyTorch 自体のいくつかの利点のおかげで、PyTorch を選択する学者が増えており、TensorFlow の使用割合は徐々に減少しています。

2009 年にディープラーニングが再び注目されて以来、多くの機械学習フレームワークが研究者や業界の開発者の間で新たな人気を博しています。 Caffe や Theano などの初期の学術フレームワークから、Pytorch や TensorFlow などの今日のますます大規模になる開発フレームワークまで。

2020年までに、Baidu PaddlePaddle、Huawei MindSpore、中国のMegvii Tianyuanなど、国内外のテクノロジー大手や新興企業が独自のディープラーニングフレームワークを開発し、使用していることがわかります。

しかし、最も人気のあるオープンソースフレームワークは、依然として Google の TensorFlow と Facebook の PyTorch であると言わざるを得ません。両者の競争もコミュニティ内で話題となっている。

Syncedの以前の記事では、2018年にはTensorFlowが依然としてPyTorchを圧倒していたものの、2019年以降は特に学術界でPyTorchの開発が本格化し、トレンドをリードしているのはほぼPyTorchだけであると報告しました。

この傾向は、過去 2 年間、自然言語処理 (NLP) とコンピュータービジョン (CV) に関するさまざまなトップクラスの国際学術会議で採択された論文で使用されている PyTorch と TensorFlow の割合からわかります。

最近、ICLR 2020とCVPR 2020カンファレンスの閉幕に伴い、機械学習分野のディープラーニングフレームワークの開発動向の研究に尽力してきた元PyTorchインターンで学者のHorace He氏が、ICLR 2020とCVPR 2020に採択された論文におけるPyTorchとTensorFlowの使用状況と割合を更新しました。その結果、ICLR 2020とCVPR 2020カンファレンスでは、PyTorchを使用した論文数がTensorFlowをはるかに上回り、研究者のPyTorchへの好みがさらに深まったことがわかりました。

PyTorchは学術界を席巻し続けている

最新のチャートデータでは、Horace He 氏は依然として、ICLR 2020 および CVPR 2020 に採択された論文における TensorFlow/PyTorch の使用総数に占める PyTorch の使用割合、および PyTorch/TensorFlow の使用の具体的な数と採択された論文総数に占める割合を評価指標として使用しています。

チャートのインタラクティブバージョンは、http://horace.io/pytorch-vs-tensorflow/ でご覧いただけます。

ICLR 2020 論文における PyTorch/TensorFlow の使用状況の分析

まず、ICLR 2020 で採択された論文で使用された TensorFlow/PyTorch の総数における PyTorch の使用率を見てみましょう。50% を超える割合は、このトップカンファレンスで採択された論文では TensorFlow よりも PyTorch が多く使用されていることを意味します。

下の図からわかるように、ICLR 2020に採択された論文では、PyTorchの割合が69.80%に達しており、ICLR 2018では28.05%、ICLR 2019では55.91%でした。これは、ICLR 2020に採択された論文で使用されているPyTorchの数がTensorFlowをはるかに上回っていることを示しています。

下の図は、ICLR 2020 に採択された論文における PyTorch と TensorFlow の具体的な使用方法をより直感的に示しています。ご覧の通り、PyTorch は 141 回使用されていますが、TensorFlow は 61 回使用されています。PyTorch の使用回数は TensorFlow の 2 倍以上です。また、2019年にはPyTorchがTensorFlowよりも多く使用される状況が発生しましたが、それ以前はTensorFlowのユーザー数がPyTorchを上回っていました。

受理された論文総数に占める PyTorch と TensorFlow の使用割合を下図に示します。 PyTorch が 20.52% を占めており、ICLR 2018 の 6.82%、ICLR 2019 の 14.14% と比較して増加し続けていることがわかります。

一方、TensorFlow はわずか 8.88% を占め、ICLR 2018 の 17.51%、ICLR 2019 の 11.16% と比較して継続的に減少しています。これは、PyTorch と TensorFlow の使用方法が 2019 年以降根本的に変化したことを示しています。

CVPR 2020 論文における PyTorch と TensorFlow の使用状況の分析

まず、下図の通り、CVPR 2020に採択された論文では、TensorFlow/PyTorchの利用数全体のうち、PyTorchの利用数が79.88%を占めています。割合の推移はICLR 2020カンファレンスと同様で、ともに増加傾向を示しています。

CVPR 2020カンファレンスで採択された論文におけるPyTorchとTensorFlowの具体的な使用回数を下図に示します。PyTorchは405回、TensorFlowは102回使用されていることがわかります。PyTorchの使用回数はTensorFlowの4倍近くとなっています。また、それ以前はPyTorchのユーザー数がTensorFlowより少なかったのに対し、2019年にはPyTorchがTensorFlowより多く使われるという状況も発生しました。

下の図は、CVPR 2020で採択された論文総数に占めるPyTorchとTensorFlowの使用割合を示したものです。PyTorchが27.61%、TensorFlowが6.95%を占めていることがわかります。両者の割合の変化は具体的な使用数の推移と同じで、どちらも2019年に転換点を迎えました。

ICLR カンファレンスと CVPR カンファレンスでは、2019 年に PyTorch と TensorFlow の使用状況と割合が根本的に変化したことがわかります。それ以降、PyTorch の使用状況は TensorFlow を上回り、その割合は増加し続けています。

研究者が PyTorch を好むのはなぜでしょうか?

今年 4 月には、C++ フロントエンドの大幅な更新と新しい高度な自動勾配 API の導入を伴う PyTorch 1.5 のリリースが発表され、ユーザーは jacobian、hessian、jvp、vjp などの関数をより簡単に実行できるようになりました。

Google が 2019 年 10 月に TensorFlow 2.0 の正式版をリリースして以来、ユーザーからは使い方が難しすぎるという苦情が寄せられています。これは、公式ガイドや詳細なドキュメント、公式開発チームからの質問への回答が不足していることだけでなく、Keras との統合など、それ自体に問題があることにも反映されています。これらすべてにより、一部のユーザーは PyTorch に傾倒せざるを得なくなりました。

では、フレームワーク自体について言えば、なぜますます多くの研究者が論文で PyTorch を使用することを選択するのでしょうか?その理由は次の3つにまとめられます。

単純。 numpy と同様に、PyTorch は Python エコシステムと簡単に統合できます。たとえば、PyTorch モデル内の任意の場所に pdb ブレークポイントを配置すると正常に動作します。 TensorFlow では、モデルをデバッグするにはアクティブなセッションが必要であり、これは非常に難しい作業になります。

優れたAPI。 TensorFlow と比較して、ほとんどの研究者は PyTorch の API を好みます。これは、PyTorch の方が設計が優れているためであり、また TensorFlow が API を何度も変換したためにすでに苦しんでいるためでもあります。

パフォーマンス。 PyTorch の動的グラフでは最適化の余地がほとんどありませんが、PyTorch は TensorFlow と同じくらい高速であるという逸話的な報告があります。これが真実かどうかは明らかではありませんが、少なくとも、TensorFlow はこの点で決定的な優位性を獲得していません。

PyTorch のこれらの利点は、ますます多くの学者がそれを選択する理由かもしれません。

<<: 任澤平：「新インフラ」は時代の痕跡を刻む

>>: データ構造とアルゴリズム、グラフをトラバースする2つの方法を理解する