Pytorch Lightning の 6 つのヒントを使用して、ディープラーニングパイプラインを 10 倍高速化します。

[[427508]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

数十億の画像データがある場合、迅速に実験を行うにはどのような方法を使用すればよいでしょうか?

機械学習の研究をしていると、このような問題に遭遇することがよくあります。

最近、ある外国人の男性からこんな提案がありました。

Pytorch Lightning をベースに、ディープラーニングパイプラインの速度が10 倍に向上しました。

彼自身の言葉を借りれば、「階段を登っているときにエレベーターをくれるようなもの」です。

どうすればこのような「酸っぱくて爽やか」な感じを実現できるのでしょうか？

機械学習パイプラインの最適化は非常に重要

学術界であろうと産業界であろうと、時間やリソースなどのさまざまな要因が実験の足かせになることがよくあります。

特に、データセットと機械学習モデルのサイズが大きくなり複雑になるにつれて、実験には時間がかかり、労力もかかります。

スピードアップが重要になります。

たとえば、2012 年には、AlexNet のトレーニングに 5 ～ 6 日かかりました。

現在では、大規模なデータセットで大規模な画像モデルをトレーニングするのに、わずか数分しかかかりません。

青年は、ある観点から見れば、これはさまざまな「兵器」の出現によるものだと信じている。

たとえば、 Pytorch Lingtningもその 1 つです。

そこで彼はパイプラインに熱心に取り組み、実験サイクルを「電光石火で加速」する 6 つの方法をまとめました。

並列データ読み込み

データの読み込みと拡張は、トレーニングパイプラインのボトルネックの 1 つと見なされることがよくあります。

一般的なデータパイプラインは次の手順で構成されます。

ディスクからデータをロードする
実行中にランダムな拡張を作成する
各サンプルをバッチに整理する

このプロセスでは、複数の CPU プロセスを使用してデータを並列にロードすることで最適化が可能です。

ただし同時に、次の操作を行うことでプロセスを高速化することもできます。

1. DataLoader の num_workers パラメータを CPU の数に設定します。

2. GPU を使用する場合は、DataLoader の pin_memory パラメータを True に設定します。これにより、データがページロックされたメモリに割り当てられ、GPU へのデータ転送が高速化されます。

分散データ並列処理を使用したマルチGPUトレーニング

CPU と比較して、GPU はトレーニングと推論の時間を大幅に短縮します。

しかし、GPU よりも良い方法はあるのでしょうか?おそらく答えは次のようになります:

複数の GPU!

PyTorch には、複数の GPU を使用してモデルをトレーニングするためのパラダイムがいくつかあります。

一般的なパラダイムは、「DataParallel」と「DistributedDataParallel」の 2 つです。

彼は後者のアプローチを採用しました。後者のアプローチの方がよりスケーラブルなアプローチであると信じたからです。

しかし、PyTorch (および他のプラットフォーム) のトレーニングパイプラインを変更するのは簡単ではありません。

分散方式でのデータのロードや、重み、勾配、メトリックの同期などの問題を考慮する必要があります。

ただし、PyTorch Lightning を使用すると、コードをほとんど変更せずに、複数の GPU で PyTorch モデルをトレーニングすることが非常に簡単になります。

混合精度

デフォルトでは、入力テンソルとモデルの重みは単精度 (float32) で定義されます。

ただし、特定の数学演算は半精度 (float16) で実行できます。

これにより、モデルのパフォーマンスを犠牲にすることなく、モデルの速度を大幅に向上させ、メモリ帯域幅を削減できます。

PyTorch Lightning で混合精度フラグを設定すると、可能な場合は自動的に半精度が使用され、それ以外の場合は単精度が保持されます。

最小限のコード変更で、モデルのトレーニングを 1.5 ～ 2 倍高速化できます。

早期終了

ディープラーニングニューラルネットワークをトレーニングする場合、通常は最高の一般化パフォーマンスを達成することが期待されます。

ただし、完全に接続された多層パーセプトロンなどの標準的なディープラーニングニューラルネットワーク構造はすべて、過剰適合する傾向があります。

トレーニングセットでのネットワークのパフォーマンスがどんどん向上し、エラー率がどんどん低下すると、ある時点で、テストセットでのパフォーマンスが実際に悪化し始めます。

そのため、トレーニングプロセス中に早期停止が追加されました。

具体的には、検証損失が事前に設定された評価数 (この例では 10 回の評価) に達すると、トレーニングが停止します。

この方法では、過剰適合現象を防ぐことができるだけでなく、数十エポック内で最適なモデルを見つけることもできます。

シャードトレーニング

Sharded Training は、Microsoft の ZeRO 研究と DeepSpeed ライブラリに基づいています。

その重要な効果は、大規模なモデルのトレーニングをスケーラブルかつ簡単に行えるようになることです。

それ以外の場合、これらのモデルは単一の GPU での使用には適していません。

Pytorch Lightning バージョン 1.2 では、Shared Training のサポートが追加されました。

私の実験では、トレーニング時間やメモリ使用量に改善は見られませんでした。

しかし彼は、このアプローチが他の実験、特に単一の GPU に収まらない大規模なモデルにも役立つ可能性があると考えています。

モデル評価と推論の最適化

モデルの評価と推論中、モデルのフォワードパスに勾配を使用する必要はありません。

したがって、評価コードを torch.no_grad コンテキストマネージャーでラップすることが可能です。

これにより、フォワードパス中に勾配が保存されなくなり、メモリ使用量が削減されます。

これにより、より大きなバッチをモデルに取り込むことができ、評価と推論が高速化されます。

パフォーマンスはどうですか?

ここまで紹介してきたので、上記の方法には具体的にどのような効果があるのか知りたいと思うはずです。

この目的のために、彼はこの方法の加速効果を詳細に説明した表を作成しました。

では、これらの方法は機械学習の実験を行う上で役立ちますか?

今すぐ試してみて〜

<<: AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

>>: AIと機械学習がセキュリティの未来をどう変えるのか

ブログ

7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

ブログ

量子コンピューティングは人工知能をどう変えるのか

ブログ

大規模モデルのRLHFは必ずしも人間に依存するものではなく、Google：AIフィードバックも同様に効果的

ブログ

機械学習はどのような種類のタスクを解決できますか?

ブログ

2019年のAI業界の再編：疑似AI企業は淘汰される

ブログ

例を見ればそれが分かります! MAXHUBはCOFCOとGuoqiaoyuanの小売業変革を支援します

ブログ

百度の女性デーのポスターはスマートライフの姿を描いている：人工知能は女性をより自由にする

ブログ

遺伝的アルゴリズムの動作原理を 1 つの記事で理解する (Python 実装付き)

ブログ

Pytorch Lightning の 6 つのヒントを使用して、ディープラーニングパイプラインを 10 倍高速化します。

機械学習パイプラインの最適化は非常に重要

並列データ読み込み

分散データ並列処理を使用したマルチGPUトレーニング

混合精度

早期終了

シャードトレーニング

モデル評価と推論の最適化

パフォーマンスはどうですか?

7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

量子コンピューティングは人工知能をどう変えるのか

大規模モデルのRLHFは必ずしも人間に依存するものではなく、Google：AIフィードバックも同様に効果的

機械学習はどのような種類のタスクを解決できますか?

2019年のAI業界の再編：疑似AI企業は淘汰される

例を見ればそれが分かります! MAXHUBはCOFCOとGuoqiaoyuanの小売業変革を支援します

百度の女性デーのポスターはスマートライフの姿を描いている：人工知能は女性をより自由にする

遺伝的アルゴリズムの動作原理を 1 つの記事で理解する (Python 実装付き)

推薦する

AIがビジネスにどのように役立つか

オープンソースの Gemma モデル: Google の言語の奇跡。命令チューニング、低ランク適応、Switch Transformer を使用して小さなモデルで遊ぶことができます。

会話型AIを導入する際に考慮すべき6つの質問

漫画は爆発的な効果でAIに変身し、サーバーが何度も圧倒された

5000億の大台を突破？多くの国で人工知能が急速に進歩している

機械は人間に似ているほど良いのでしょうか?科学サブ出版物：ヒューマノイドマシンに常に監視されていると愚かになる

2.5 ～ 4 倍の深さで、より少ないパラメータと計算量で、DeLighT はどうやってそれを実現したのでしょうか?

Alibaba DAMO Academyが2019年のトップ10テクノロジートレンドを発表：AI、ブロックチェーンなど

写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

20年後にはロボットが手術を行えるようになる

思考連鎖CoTは思考マップGoTへと進化し、思考ツリーよりも優れたヒントエンジニアリング技術が誕生した

ガートナー：AIと自動化は次世代SASEの重要な機能となる

あなたのプライベートな写真が「合法的に」閲覧される可能性があります。顔認識を使用するときは必ず服を着用してください。