ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える

過去 10 年間で、機械学習 (特にディープラーニング) の分野では多数のアルゴリズムとアプリケーションが登場しました。これらのディープラーニングアルゴリズムとアプリケーションの出現の背後には、さまざまなディープラーニングツールとフレームワークがあります。これらは機械学習革命の足場です。TensorFlow や PyTorch などのディープラーニングフレームワークが広く使用されるようになったことで、多くの ML 実践者が適切なドメイン固有のプログラミング言語と豊富なビルディングブロックを使用して、より簡単にモデルを組み立てられるようになりました。

ディープラーニングフレームワークの進化を振り返ると、ディープラーニングフレームワークとディープラーニングアルゴリズムの間に密接な結合関係があることがはっきりとわかります。この相互依存の好循環により、ディープラーニングのフレームワークとツールが急速に発展しました。

[[357968]]

Nationalmuseet 提供、CC BY-SA 3.0、https://commons.wikimedia.org/w/index.php?curid=90400464

石器時代（21世紀初頭）

ニューラルネットワークの概念は、かなり以前から存在しています。 21 世紀初頭以前には、ニューラルネットワークを記述および開発するためのツールがいくつかありました。これらのツールには、MATLAB、OpenNN、Torch などが含まれますが、これらはニューラルネットワークモデル開発用に特別にカスタマイズされていないか、ユーザー API が複雑で GPU サポートが不足しています。この間、ML 実践者は、これらの原始的なディープラーニングフレームワークを使用する際に、多大な労力を費やす必要がありました。

[[357969]]

Nationalmuseet 提供、CC BY-SA 3.0、https://commons.wikimedia.org/w/index.php?curid=90400464

青銅器時代（～2012年）

2012年、トロント大学のアレックス・クリジェフスキーらは、後にAlexNet[1]と呼ばれるディープニューラルネットワークアーキテクチャを提案し、ImageNetデータセットでSOTA精度を達成し、2位の競合を大きく上回りました。この素晴らしい結果により、ディープニューラルネットワークの人気が高まり、それ以来、さまざまなディープニューラルネットワークモデルが ImageNet データセットの精度において新たな記録を樹立し続けています。

この頃、Caffe、Chainer、Theano などの初期のディープラーニングフレームワークが登場しました。これらのフレームワークを使用すると、ユーザーは CNN、RNN、LSTM などの複雑なディープニューラルネットワークモデルを簡単に構築できます。さらに、これらのフレームワークはマルチ GPU トレーニングをサポートしているため、これらのモデルのトレーニング時間が大幅に短縮され、以前は単一の GPU のメモリに収まらなかった大規模なモデルのトレーニングが可能になります。これらのフレームワークのうち、Caffe と Theano は宣言型プログラミングスタイルを使用し、Chainer は命令型プログラミングスタイルを採用しています。これら 2 つの異なるプログラミングスタイルは、今後のディープラーニングフレームワークに対して 2 つの異なる開発パスも設定します。

[[357970]]

北欧の家族 — 北欧の家族 (1910)、第 13 巻、芸術まで。Järnåldern。https://commons.wikimedia.org/w/index.php?curid=109777

鉄器時代（2015年～2016年）

AlexNet の成功はコンピュータービジョンの分野で大きな注目を集め、ニューラルネットワークへの期待を再燃させ、大手テクノロジー企業がディープラーニングフレームワークの開発に加わりました。その中で、Google は有名な TensorFlow フレームワークをオープンソース化しました。これは現在でも ML 分野で最も人気のあるディープラーニングフレームワークです。 Caffe の発明者は Facebook に加わり、Caffe2 をリリースしました。同時に、Facebook AI Research (FAIR) チームも、Torch フレームワークをベースにしながらも、より人気の高い Python API を使用する、別の人気フレームワークである PyTorch をリリースしました。 Microsoft Research は CNTK フレームワークを開発しました。 Amazon は、ワシントン大学、カーネギーメロン大学、その他の機関による共同学術プロジェクトである MXNet を採用しました。 TensorFlow と CNTK は Theano から宣言型プログラミングスタイルを借用していますが、PyTorch は Torch から直感的でユーザーフレンドリーな命令型プログラミングスタイルを継承しています。命令型プログラミングスタイルはより柔軟性があり (While ループの定義など)、追跡が容易ですが、宣言型プログラミングスタイルでは通常、計算グラフに基づいてメモリとランタイムの最適化のための余地が大きくなります。一方、“mix”-net として知られる MXNet は、シンボリック (宣言型) API のセットと命令型 API のセットの両方をサポートし、ハイブリッド化と呼ばれる手法によって命令型 API を使用して記述されたモデルのパフォーマンスを最適化し、両方のメリットを享受します。

2015年にHe KaimingらはResNet[2]を提案し、再び画像分類の限界を打ち破り、ImageNetの精度において新たな記録を樹立しました。業界と学界は、ディープラーニングが次なる大きな技術トレンドとなり、これまで不可能と考えられていたさまざまな分野の課題を解決するだろうという点で合意に達しています。この期間中、すべてのディープラーニングフレームワークは、マルチ GPU トレーニングと分散トレーニングを最適化し、よりユーザーにとって直感的な API を提供し、コンピュータービジョンや自然言語処理などの特定のタスク専用のモデルズーとツールキットを派生させました。また、Francois Chollet 氏がほぼ独力で Keras フレームワークを開発したことも注目に値します。Keras フレームワークは、TensorFlow や MXNet などの既存のフレームワークの上に、ニューラルネットワークとビルディングブロックのより直感的な高レベルの抽象化を提供します。本日より、この抽象化は TensorFlow における事実上のモデルレベル API になります。

[[357971]]

sv.wikipedia のユーザー Lamré より https://commons.wikimedia.org/w/index.php?curid=801434

ローマ時代（2019年～2020年）

人類の歴史の発展と同様に、ディープラーニングフレームワークは、激しい競争を経て、最終的に 2 つの「帝国」、つまり TensorFlow と PyTorch の複占を形成しました。この 2 つの「帝国」は、ディープラーニングフレームワークの研究開発と製造における使用事例の 95% 以上を占めています。 2019 年に Chainer チームは開発作業を PyTorch に移行しました。同様に、Microsoft は CNTK フレームワークの積極的な開発を停止し、一部のチームメンバーは Windows 上の PyTorch と ONNX ランタイムのサポートに切り替えました。 Keras は TensorFlow に組み込まれ、TensorFlow 2.0 バージョンでは高レベル API の 1 つになりました。ディープラーニングフレームワークの分野では、MXNet は依然として 3 位にランクされています。

この期間中、ディープラーニングフレームワークの分野では 2 つの傾向がありました。 1つ目は大規模モデルのトレーニングです。 BERT[3]とその近縁種であるGPT-3[4]の登場により、大規模モデルをトレーニングする能力はディープラーニングフレームワークの望ましい機能となりました。これには、数百、あるいは数千のデバイスにわたって大規模かつ効率的にトレーニングできるディープラーニングフレームワークが必要です。 2番目のトレンドは使いやすさです。この時期のディープラーニングフレームワークはすべて、柔軟なセマンティクスと簡単なデバッグを備えた命令型プログラミングスタイルを採用していました。同時に、これらのフレームワークは、JIT (Just-in-Time) コンパイラテクノロジを通じて高パフォーマンスを実現するためのユーザーレベルのデコレータまたは API も提供します。

[[357972]]

Tharunbr77 による — 自身の作品、CC BY-SA 4.0、https://commons.wikimedia.org/w/index.php?curid=86866550

産業時代（2021年以降）

ディープラーニングは、自動運転、パーソナライズされた推奨、自然言語理解、ヘルスケアなど、幅広い分野で大きな成功を収め、これまでにない数のユーザー、開発者、投資家の波をもたらしました。これは、今後 10 年間のディープラーニングツールとフレームワークの開発にとっても絶好の時期です。ディープラーニングフレームワークは当初から大きな進歩を遂げてきましたが、ディープラーニングにおけるその地位は、インターネットアプリケーションにおけるプログラミング言語 JAVA/C++ に比べるとはるかに成熟していません。探索し、実行すべき刺激的な機会や仕事がまだたくさんあります。

今後、次世代のディープラーニングフレームワークで主流になると予想される技術トレンドがいくつかあります。

コンパイラベースの演算子の最適化。現在、多くのオペレータカーネルは手動で実装されているか、特定のハードウェアプラットフォームを対象とする BLAS、CuDNN、OneDNN などのサードパーティライブラリを通じて実装されています。これにより、モデルが異なるハードウェアプラットフォームでトレーニングまたはデプロイされる場合、大きなオーバーヘッドが発生する可能性があります。さらに、新しいディープラーニングアルゴリズムの成長率は、これらのライブラリの反復率よりもはるかに速い傾向があるため、これらのライブラリは新しい演算子をサポートできないことがよくあります。 Apache TVM、MLIR、Facebook Glow などのディープラーニングコンパイラは、あらゆるハードウェアバックエンドで計算を最適化して効率的に実行することを提案しています。これらは、ディープラーニングフレームワークのバックエンド全体として機能することができます。

統一された API 標準。多くのディープラーニングフレームワークは、類似しているもののわずかに異なるユーザー API を共有しています。これにより、あるフレームワークから別のフレームワークに切り替えるユーザーにとって、困難と不必要な学習曲線が生じます。ほとんどの機械学習実践者やデータサイエンティストは NumPy ライブラリに精通していますが、NumPy API が新しいディープラーニングフレームワークのテナー操作 API の標準になるのは当然のことです。 NumPy と完全に互換性のある API を備えたフレームワーク JAX の採用が急速に増加しています。

第一級市民としてのデータ処理。マルチノードまたはマルチデバイスのトレーニングは、ディープニューラルネットワークのトレーニングの標準になりつつあります。 OneFlow などの最近開発されたディープラーニングフレームワークは、最初からこの観点を念頭に置いて設計されており、データ通信をモデルトレーニングの全体的な計算グラフの一部として考慮しています。これにより、パフォーマンスの最適化の機会が広がり、以前のディープラーニングフレームワークのように複数のトレーニング戦略 (単一デバイスと分散トレーニング) を維持する必要がないため、パフォーマンスが向上するだけでなく、よりシンプルなユーザーインターフェイスも提供できます。

要約する

私たちは人工知能革命の幕開けを迎えています。人工知能の分野における新たな研究と応用が、かつてない速さで登場しています。 8年前のAlexNetネットワークには6000万個のパラメータが含まれていましたが、最新のGPT-3ネットワークには1750億個のパラメータが含まれています。ネットワークサイズは8年で3000倍に増加しました。一方、人間の脳には約100兆個のパラメータ（つまりシナプス）が含まれています。これは、ニューラルネットワークが人間の知能レベルに到達するには、たとえそれが可能だとしても、まだ長い道のりがあることを示唆しています。

この許容できないネットワークサイズは、モデルのトレーニングと推論のハードウェアとソフトウェアの計算効率に大きな課題をもたらします。将来のディープラーニングフレームワークは、アルゴリズム、高性能コンピューティング、ハードウェアアクセラレータ、分散システムの学際的な成果となる可能性があります。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: AIがトランプ氏をダンサーに変身させ、蔡旭坤とともに「チキン、ユー・アー・ソー・ビューティフル」を踊った

>>: フロントエンドアルゴリズムシステム演習：リンクリストの章が完了

ChatGPT「ピクチャートーク」が大変身しました！舞台裏で新型GPT-4Vモデルが公開

ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える

ChatGPT「ピクチャートーク」が大変身しました！舞台裏で新型GPT-4Vモデルが公開

EasyDLコンピューティング機能：10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

2020年東京五輪の秘密兵器が暴露される：AIは計時を担当するだけでなく、審判員の職を失わせる

FMCW レーダー位置認識をエレガントに実装する方法 (IROS2023)

AIとMLでドキュメントを自動化する方法

伝説のゲーム開発者カーマック氏：汎用人工知能は2030年に誕生する

自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない

C# データ構造とアルゴリズムにおける線形テーブルの簡単な分析

推薦する

ChatGPT の残念な欠点 10 選: チャットボットの限界を探る

初心者のためのディープラーニングの10,000語レビュー

今後 3 ～ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?

21 人の専門家が語る: 2017 年の人工知能の展望

人工知能によって作られた、素晴らしい美しさと能力を持つ美しいロボット

人民日報：教室規律における顔認識は目的ではなく手段

パフォーマンス最適化技術: アルゴリズム

口を使ってiPhoneで10秒写真編集！ UCSB Appleの中国人チームがマルチモーダルMGIEをリリース、オープンソースで誰でもプレイできることを公式発表

AI は「彼ら」による盗聴を防ぐことができますか?

初心者向けのオープンソース機械学習フレームワーク、Scikit-learnについて

もしエイリアンが本当に存在するなら、AIは最終的に彼らを見つけるだろう

OpenAI がリーダーを変更、アルトマン氏は退任！以前にも言いましたが、私は意思決定でよく間違いを犯します。