ByteDanceがCowClipをオープンソース化：推奨モデルのシングルカードトレーニングを最大72倍高速化可能

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

速さが足りません!速さが足りない？

NLP および CV タスクでは、ニューラルネットワークのトレーニングを加速するために、32K のバッチサイズと 8 つの GPU を使用することで、ImageNet トレーニングの完了には 14 分、Bert トレーニングの完了には 76 分しかかかりません。より速いトレーニングを求める研究者たちの願いは、決して止まることはない。

では、GPU を 1 つだけ使用すれば十分でしょうか?レコメンデーションシステムでは、それが可能であるだけでなく、バッチサイズをさらに増やすこともできます！

最近、ByteDance AML (応用機械学習チーム) とシンガポール国立大学の研究者が、CowClip という新しい最適化手法を提案しました。これは、公開されているクリックスルー率予測データセット Criteo で最大 128K のバッチサイズをサポートします。DeepFM を単一の GPU でトレーニングすると、トレーニング時間が 12 時間から 10 分に短縮され、パフォーマンスは低下するのではなく向上します。

論文アドレス: https://arxiv.org/abs/2204.06240 オープンソースアドレス: https://github.com/bytedance/LargeBatchCTR

このような大規模なバッチサイズのトレーニングをサポートし、モデルのトレーニング精度を維持するために、本論文では、パラメータ変換式を通じて大規模なバッチサイズでのパラメータを決定し、埋め込み層で適応勾配クリッピングを実行するという、新しい一連の最適化トレーニング方法を提案します。

CowClip 最適化手法を使用したさまざまな推奨モデル (この記事では DeepFM を含む 4 つのモデルがテストされました) が 2 つの公開データセットで理論的かつ実験的に検証され、手法の合理性と有効性が確認されました。

著者は、この最適化方法を使用すると、誰でも数分で小規模または中規模の推奨モデルを簡単にトレーニングできると述べています。

CowClip加速の理論的基礎

ユーザーインタラクションは推奨システムの新しいトレーニングデータとなり、モデルは繰り返しの再トレーニングを通じて最新の知識を学習します。現在の推奨システムは、何億人ものユーザーと何千億ものトレーニングデータに対応しており、完全なトレーニングプロセスには多くの時間と計算コストがかかります。

推奨システムのトレーニングを高速化するために、推奨システムは現在、高速トレーニングに GPU を使用しています。しかし、GPU のコンピューティング能力とビデオメモリが継続的に増加しているため、これまでの推奨システムのトレーニングプロセスでは、現在の GPU のパフォーマンスを十分に活用できていませんでした。たとえば、Criteo データセットでは、バッチサイズが 1K から 8K に増加しても、V100 を使用したトレーニングの各反復に必要な時間はわずかに増加するだけです。これは、現在の高性能 GPU では、過去に使用されていた小さなバッチサイズでは、GPU の並列機能を十分に活用するには不十分であることを示しています。

より大きなバッチサイズを使用すると、GPU のパフォーマンスを最大限に活用できるため、GPU が真に価値のあるものになります。大きなバッチサイズでトレーニングしてもモデルの精度が低下しない限り、GPU メモリがいっぱいになるまでモデルのバッチサイズを増やし続けることができます。

しかし、モデルの精度の低下を防ぐのは簡単なことではありません。一方では、バッチサイズが大きくなると、ネットワークのトレーニングが不安定になり、ネットワークの一般化能力が弱まる可能性があります。一方、バッチサイズが大きい場合にハイパーパラメータの選択をガイドするルールがない場合、パラメータ調整によって多くのリソースが浪費されます。

この論文で提案された CowClip は、上記の問題を解決することを目的としています。埋め込み層で列ごとに動的勾配クリッピングを行うことでバッチサイズを 128 倍に増やすことを可能にし、さまざまなバッチサイズでハイパーパラメータ値を設定するためのシンプルで効果的な一連の方法を提供します。

CowClip メソッド

大規模なバッチサイズでネットワークトレーニングをより安定させるために、研究者はネットワーク最適化プロセスを安定させる適応型列方向勾配ノルムクリッピング戦略（Adaptive Column-wise Gradient Norm Clipping、CowClip）を提案しました。勾配クリッピングは、ノルム値が特定のしきい値より大きい勾配をノルム内にクリッピングすることで更新プロセスを最適化する方法です。固定しきい値 clip_t が与えられた場合、勾配クリッピングプロセスは次のようになります。

ただし、この方法を埋め込み層の勾配に直接適用するとうまく機能しません。その理由は、有効な閾値を決定するのが難しいだけでなく、トレーニングプロセス中に、各特徴値（ID特徴）に対応するエンコードベクトル（埋め込み層内の埋め込み行列の列に対応）の勾配値がトレーニングプロセス中に異なるためです（図4を参照）。勾配クリッピングのグローバルアプリケーションでは、異なる勾配値間の差は無視されます。

そこで研究者らは、各特徴値に対応するエンコードベクトルにクリッピングしきい値を個別に適用し、しきい値を適応的に設定する提案を行った。勾配サイズがパラメータサイズ自体を超えるとトレーニングプロセスが不安定になることを考慮して、研究者らは、特徴値に対応するエンコードベクトルのノルム値を使用してしきい値を決定することを提案しました。クリッピングしきい値が小さくなりすぎないようにするために、パラメータ ζ によってクリッピング値が特定の値よりも低くならないようにします。

上記の式では、特徴 ID の合計頻度が異なるため、各バッチ内での出現回数も異なることにも留意する必要があります。異なる発生頻度のバランスをとるために、最終的なクリッピング値に、バッチ内で対応する頻度が発生する回数を掛ける必要があります。

上記の分析に基づいて、研究者が提案した CowClip アルゴリズムは次のとおりです。

大規模バッチサイズでのパラメータ変換

CV および NLP タスクでは、バッチサイズを増やすときに学習率と L2 正則化パラメータを調整する一連の方法がすでに存在します。一般的に使用される方法には、バッチサイズが s 倍に増加した場合に学習率を s 倍にスケーリングする線形スケーリングと、バッチサイズが s 倍に増加した場合に学習率と正規化パラメータを s の平方根にスケーリングする平方根スケーリングがあります。

研究者らはまず、これらの調整を適用することで、大規模なバッチサイズでもパフォーマンスを効果的に維持できるかどうかを調査しました。表 1 の左側の実験は、バッチサイズが大きくなると、これらの方法のパフォーマンスがある程度低下することを示しています。

論文では、従来の方法が失敗した理由は、入力特徴 ID の頻度が異なるためであり、これは CV モデルと NLP モデルの入力にはない特徴であると指摘しています。たとえば、ホットリストにある動画は再生回数が多く、データセット内での出現頻度が高いため、動画 ID 機能における動画 ID の出現頻度は、人気のない動画の出現頻度よりもはるかに高くなります。

上記の考えを検証するために、研究者らは高頻度特徴のみを含むデータセットを変換しました。予想通り、これまでのパラメータ調整方法では現時点で良好な結果が得られています（表1右側）。この実験は、一貫性のない頻度分布が以前のパラメータ調整方法を妨げることを示しています。

この論文では、この現象に関するさらなる理論的分析も行っています。簡単に言えば、線形調整法を再考すると、バッチサイズが大きくなると更新の反復回数が減るので、学習率を上げる必要があるという考え方です。ただし、非常にまれにしか発生しない機能の場合、バッチサイズを大きくしても更新の反復回数は減りません。

クリックスルー率予測データセットのデータの大半はこのような低頻度の特徴IDであるため、CowClip法と組み合わせることで、モデルの埋め込み層の学習率を調整する必要がなくなり、同時にL2パラメータが線形に増加します。

最終的な実験結果では、CowClip を使用してトレーニングされたモデルは他の方法よりも正確であるだけでなく、トレーニング速度も大幅に速いことが示されました。

<<: AIデータのラベル付けは大量にアウトソーシングされており、南アフリカ、ベネズエラなどの国の人々はデジタル搾取の運命から逃れられない

>>: ガートナー：AIと自動化は次世代SASEの重要な機能となる

ボーダーライン上の質問：テクノロジー企業はAIアルゴリズムを使って従業員の採用と解雇を行っている

ByteDanceがCowClipをオープンソース化：推奨モデルのシングルカードトレーニングを最大72倍高速化可能

速さが足りません!速さが足りない？

CowClip加速の理論的基礎

CowClip メソッド

大規模バッチサイズでのパラメータ変換

ボーダーライン上の質問：テクノロジー企業はAIアルゴリズムを使って従業員の採用と解雇を行っている

GPT-4 は上司とプログラマーに取って代わります。この GitHub プロジェクトは最も検索されています。著者: AI に反復処理を学習させる

AIは旅行業界の困難を軽減できるか？

CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

AIが仕事や生活を奪ったら、人類の未来はどうなるのでしょうか？

RPAが企業にもたらすメリットトップ10

テンセント AI ラボが初の自動モデル圧縮フレームワークのソースを公開: ディープラーニングをポケットに

無人店舗の新たなパートナー、蘇寧スポーツビウ

アンドリュー・ン：AIはビッグデータから「スモールデータ」に移行する時が来た

推薦する

2大音声アシスタントであるAlexaとCortanaの融合の目的は何でしょうか?

2030 年までにどの AI アプリケーションが普及するでしょうか?

自動化の将来はどうなるのでしょうか?

人工知能チップの過去、現在、そして未来

高校の授業に人工知能が進出。全国40校がこの教材を導入

AlphaFold 2 の最強のライバルが自らを弱体化させます!メタ、12人チームを即刻解散

Agent4Recが登場！大規模なモデルエージェントは、実際のユーザーインタラクション動作をシミュレートする推奨システムシミュレーターを構成します。

世界の自動運転事故を比較し、そのデータと真実を明らかにした

ガートナーは未来を変える5つのテクノロジーを特定