この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 いやいや、状況は変わったんだ。 大規模モデルのハイパーパラメータを単一の GPU で調整することは完全に可能です。 なんと言えばいいでしょうか? パラメータを調整する新しい方法を発見した人がいることが判明しました。モデルの規模がどう変化しても、得られる最適なハイパーパラメータは安定したパフォーマンスを維持できます。 これにより、最初にモデルの小さなバージョンをトレーニングし、その上でハイパーパラメータを間接的に調整し、ゼロショット方式でそれらをフルサイズのモデルに直接コピーして、非常に優れたパフォーマンスを実現できます。 これは、十分な GPU リソースがない人にとって最適です。 現在、関連投稿はRedditでも白熱した議論を巻き起こし、300件以上の「いいね!」を獲得している。 単一の GPU 上で大規模な GPT-3 モデルをチューニングするこの方法はmuPと呼ばれています (最大更新パラメータ化)、著者はそれぞれMicrosoft と OpenAIに所属しています。 アイデアはシンプルで、以前の研究で発見された µP と呼ばれる特殊なパラメータ化を使用します。
具体的な原理については、論文「無限幅ニューラル ネットワークにおける特徴学習」を参照してください。 共有できるハイパーパラメータには、学習率、学習率スケジュール、初期化、パラメータ乗数などが含まれ、パラメータテンソルごとに個別に共有することもできます。 著者は、最大 4096 の幅を持つTransformer と ResNetでこの結論を検証しました。 したがって、リソースが乏しい錬金術師は、単一の GPU 上で GPT-3 モデルの小さなバージョンに対してハイパーパラメータの調整を実行できます。 この小さなモデルで得られたパラメータが最適に近い場合、大きなモデルでも同じ結果が得られます。 ps. このパラメータ調整方法は「 µTransfer 」とも呼ばれます。 具体的な効果は何ですか?著者は、わずか4,000 万のパラメータを持つ小さな GPT-3 をトレーニングしました。これは、GPU 上で直接実行できるほど小さいものです。 その後、そのハイパーパラメータは67 億のパラメータを持つ大規模な GPT-3 に「µ 転送」され、元の GPT-3 のパラメータ スケールが 2 倍であったにもかかわらず、そのパフォーマンスは元の GPT-3 と完全に匹敵することがわかりました。 そして、この調整コストは、事前トレーニング全体のコストのわずか 7% を占めます。 モデルのサイズが大きくなっても、小さなモデルを直接調整するコストはほぼ同じままです。この方法を使用して GPT-3 の 175 億個のパラメータを調整する場合、コストは最大で事前トレーニングの総コストの 0.3% になる可能性があります。 さて、ここで疑問に思うかもしれません。「モデルの幅を狭めればいいのでしょうか?」 著者は、「幅のないもの」については理論的な保証はないと述べています。 しかし、良いニュースは、深度、バッチ サイズ、シーケンス長、およびタイム ステップの移行効果を、preLN Transformer の妥当な範囲内でテストしたことです。 その中で、BERT-base と BERT-large の幅と深さを同じサイズに縮小し、同時にハイパーパラメータを調整したところ、次のことがわかりました。 すでに調整済みの megatron BERT ベースラインと比較すると、両方のパフォーマンスが向上しており、特にBERT-large のパフォーマンスが向上しています。 これによって次のような結論も導かれます。
そこで著者は、GPT-3 を 175 億の規模でテストしたわけではないが、その結果は「よだれが出るほど」になることを保証すると冗談を言った。 ここまで述べてきましたが、どうすればそれを達成できるのでしょうか? 次の表は、ファンインまたはファンアウトによってモデルの初期化と学習率を調整する方法をまとめたものです。 ピンク色のテキストは µP で、括弧内の灰色のテキストは pytorch のデフォルトです。 もちろん、手動でやりたくない場合は、著者がオープンソース化した Pytorch 実装も公開しており、pip install mup でモデルに適用できます。 著者について第一著者は、マイクロソフトの上級研究員である Greg Yang 氏です。 責任著者は、Microsoft Research の Deep Learning Technology Center のパートナー研究マネージャーであり、IEEE フェローでもある Jianfeng Gao です。 著者は中国人の 2 名、劉暁東 (北京郵電大学卒業生) とマイクロソフトの陳偉珠です。 (マイクロソフトに16年間勤務)。 彼らの研究結果はNeurIPS 2021に採択されました。 GitHub リンク: 論文の宛先: 公式ブログリンク: Reddit の議論: |
<<: テンセントの古い写真修復アルゴリズムはオープンソースで、髪の毛まで詳細に再現されており、3つの事前トレーニング済みモデルがダウンロード可能
>>: TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ
これからの学びは、従来の学校中心の島型ではなく、新しいタイプの島型になります。家庭、インターネット、...
[[441194]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
昨日、北京冬季オリンピックはブラックテクノロジーでいっぱいだとネットユーザーが言っているのを見ました...
「グーグルには現在、先見の明のあるリーダーはいない。経営陣から上級副社長、副社長に至るまで、彼らは皆...
「会話型 AI」という用語には確かに重みがありますが、最終的にはそれがビジネスに実際にどのような影...
編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog) Chat...
シーメンスとマイクロソフトは、AI の業界横断的な応用を推進するために協力しました。両社は CES ...
最近、工業情報化部は通信事業者4社に5G商用ライセンスを発行し、5G商用時代の到来を告げた。 AIと...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
Google 検索に AI による要約、定義、コーディングの改善が追加Google は、約 3 か月...
著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...