OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

モデルを推論する際には、収束が遅いために計算能力を無駄にしないようにすることが重要です。

孫子の兵法にある「計画を多く立てれば勝利につながり、計画を少なく立てれば敗北につながる」という言葉は、この原則を完璧に表しています。

チンチラとは一体何でしょうか?

モデルが小さいほど乗算が少なくなるため、実行速度が速くなり、トレーニングも速くなります。

しかし、小さなモデルは最終的に知識能力の限界に達し、学習が遅くなると想定されることがよくあります。

サイズの大きいモデルは、サイズの小さいモデルよりもパフォーマンスが優れており、与えられたトレーニング時間内でより優れたパフォーマンスを実現します。

OpenAI と DeepMind はどちらも、トレーニング中にモデルが最適なパフォーマンスを達成する方法を評価するときにパレート限界を描こうとしますが、その理論を使用しているとは明示的に述べていません。

しかし、OpenAI からの最近の引用は、この仮定を示唆しています。

大きいモデルは常に小さいモデルよりもパフォーマンスが優れていると予想されます。 […] 固定サイズのモデルは GPU の容量によって制限されます。

この仮定は、OpenAI によるパレート最適解の計算の基礎となります。

ここでは、まず、2022 年に DeepMind のメンバーが取り組んだ Chinchilla モデルを紹介します。その技術的原理は他の同様のモデル (GPT-3 など) と同じですが、違いはトレーニング パラメーターとデータ量にあります。

DeepMind は、「計算最適化トレーニングでは、モデル サイズとトレーニング データセット サイズは均等にスケーリングする必要があります。つまり、モデル サイズが 2 倍になるたびに、トレーニング データセット サイズも 2 倍になる必要があります」と主張しています。

写真

Chinchilla AI は、Gopher と同じ計算予算を使用しながら 700 億のパラメーターと 4 倍のデータを使用して、より計算的に最適化されたモデル Chinchilla をトレーニングすることで、この仮説をテストします。

検証結果によると、Chinchilla は、多数の下流評価タスクにおいて、Gopher、GPT-3、Jurassic-1、Megatron-Turing NLG を大幅に上回っています。

Chinchilla は MMLU ベンチマークで平均 67.5% の精度を達成しており、これは Gopher よりも 7% 以上高い数値です。

写真

Chinchilla の研究では、さまざまなサイズのモデルの多数のトレーニング実行のトレーニング損失がグラフに表示されます。

一見すると、これらの曲線は理論に従っています。つまり、小さいモデルでは最初は損失が低くなりますが、最終的には速度が低下し、大きいモデルの曲線に追い抜かれます。

写真

グラフでは、小さいモデルのパフォーマンスが大きいモデルよりも劣っている場合は、灰色の点でマークされます。灰色の線、つまりパレート限界は、スケーリング則を計算する方法です。

この仮定の問題点は、小さいモデルの方がパフォーマンスが優れていたらトレーニングを停止してしまうため、小さいモデルを長くトレーニングさせた場合に何が起こるかわからないことです。

LLaMAを見てみましょう。

チンチラはラマの曲線を再現できるでしょうか?

今年初め、Meta はサイズの異なる 4 つのモデルをトレーニングしました。他のモデルとは異なり、研究者たちは、小さなモデルであっても、各モデルを徹底的に訓練しました。

彼らはまた、トレーニング実行曲線も公開しました。

写真

1. 各曲線はまずべき乗則に従って真っ直ぐに下がる

2. その後、損失が減少するほぼ直線的なプロセスに入るようです(知識獲得のかなり一定の速度に対応)。

3. 曲線の最後では、すべてがわずかに平坦になる

まず、曲線の平坦化に関して人々が抱いている微妙な誤解についてお話ししたいと思います。

これらはすべて、可変学習率による勾配降下法を使用してトレーニングされます (学習率は、勾配の方向にどれだけ移動するかを決定するハイパーパラメータです)。

適切にトレーニングするには、ソース マテリアル内のより小さなパターンを検出できるように、学習率を継続的に下げる必要があります。

彼らが使用する減速式は、最も広く使用されているコサインスケジュールです。

写真

グラフからわかるように、トレーニングの終わり近くで、コサイン スケジュールは、ほぼ線形のトレーニング損失曲線を生成する速度で学習率の低下を停止します。

これは学習の遅れの結果です。モデルは依然として同じほぼ線形の速度で学習できる可能性があります。

実際、テキストをさらに入力すると、コサインスケジュールが延長され、学習率が同じ速度で低下し続けるようになります。

モデルの適合性は、トレーニングに提供できるデータの量に依存しません。したがって、学習率の低下の変化は正当化されません。

しかし、これはこの記事の焦点では​​ありません。

トレーニング損失曲線は別の意味で私たちを誤解させる可能性があります。

確かに、それらはすべて同じデータでトレーニングされていますが、そのデータを同じ速度で処理するわけではありません。

私たちが知りたいのは、モデルのサンプル効率がどの程度かということではありません (この点では、モデルが大きいほど、得られるデータからより多くのことを学ぶのは明らかです)。

レースを想像してみましょう。すべてのモデルが同時にスタートし、どのモデルが最初にゴールラインを通過するかを知りたいとします。

言い換えれば、一定量の計算がトレーニングに費やされた場合、その間に最も多く学習するのは誰でしょうか?

ありがたいことに、損失曲線を Meta が提供する別のデータ、つまり各モデルのトレーニングにかかった時間と組み合わせて使用​​できます。

写真

写真

最初に注目すべき点は、私たちが目にするチンチラのグラフィック全体が、このグラフィックの左側の小さな領域のみをカバーしているということです。

この狭い領域では、チンチラで記録されたものと同じ行動が見られます。

7B を例に挙げると、最初は損失が大型モデルよりもはるかに速く低下しますが、その後低下が遅くなり、13B モデルがそれを上回り、最初に 1.9 に達します。

しかし、その後、予想外の展開が起こりました。

7Bはほぼ直線状態に入り、急激な下降傾向を示し、再び13Bを超えつつあるようですね?このグラフからは、7B がもっと長くトレーニングしていたらどうなっていたかは分かりません。

しかし、13B と 33B の間でも同じ動作が見られるようです。ここでは、初期のチンチラの減​​速もほぼ直線的ですが、13B は急速に減少します。

33B に関しては、計算時間が 13B の 2 倍なので、13B を上回るのは当然です。

33B と 65B の間でも同様の減速とその後の加速の状況が発生したため、実際には 33B が 65B に追い抜かれることはありませんでした。

このグラフは、OpenAI と Chinchilla の想定を覆す状況を示しています。つまり、より大きなモデルが (まだ) 勝っていないということです。彼らが検出した速度低下は、実際には何らかの容量制限に達したことによるものではなかったのです。

しかし、7B カーブはまだ少し物足りないです。 Meta がもっと長く訓練していればよかったのですが... そして今、彼らはそれを実現しました! Meta は今週 LLaMA 2 をリリースしました!

「疑い」を確認する

写真

同様に、Llama 2 もモデルのトレーニング時間を公開しています。

写真

写真

一見すると、モデルはまったく同じであるにもかかわらず、トレーニング曲線が LLaMA 1 と一致していないことがわかります。

LLaMA 2 は 2 倍のコンテキスト サイズとより長いコサイン時間でトレーニングされたことが判明しましたが、残念ながら、これはすべてのサイズのモデルに悪影響を及ぼしました。

ただし、小型モデルは大型モデルよりも大きな影響を受けます。

したがって、LLaMA 1 では、34B モデルはどのトレーニング時間でも一貫して 65B モデルを上回り、現在は 70B モデルをわずかに上回っており、その後 70B モデルを上回っています。

写真

さらに重要なのは、トレーニング速度の比較により、LLaMA 1 に関する私たちの推測が強く裏付けられることです。

1. まず、大型モデルよりも高速です。

2. その後、速度が落ち、より大きなモデルに追い抜かれます(チンチラによると)

3. しかし、その後、それらは再びほぼ線形の状態に入り、そこでは、より小さなモデルがより急激な速度で減少し、優れた知識を獲得して、再びより大きなモデルを上回ります。

興味深い結果の 1 つは、トレーニングを開始するときに正しい選択を行うことに関連しています。一般的な考えとは反対に、モデルが大きいほど結果が悪くなります。

パラメータのサイズとデータセットを選択する必要がある場合は、7B モデルを選択し、数兆のトークンで 7 エポックにわたってトレーニングすることをお勧めします。

7B のほぼ線形なメカニズムを見て、70B モデルの停止時間を推測します。70B の計算を 7B モデルで使用すると、より低い困惑度が達成される可能性があります。

LLaMA 2 から気づいたもう 1 つの点は、LLaMA 1 曲線の終わりでの学習の減速が、実際にはコサイン スケジュールによる結果であるということです。

LLaMA 2 のトレーニングでは、1 兆個のトークンを読み取る際に、対応する時点でそのような速度低下はまったく発生しませんでした。

実際、同じように、LLaMA 2 7B モデルは LLaMA 17B モデルよりも品質が劣ります。これはおそらく、コサイン タイムテーブルが引き伸ばされているためです。

この点を証明するために、Chinchilla の論文に戻りましょう。付録 A の図 A1 では、さまざまなコサイン スケジュール パラメータのアブレーション スタディ (学習率曲線を伸ばすさまざまな方法) を示しています。

写真

彼らは、曲線が引き伸ばされていないときに損失が最も低かったことを指摘した。グラフはこれを裏付けていますが、著者は何かがおかしいことにも気づいています。

600 万トークンを読み取った後、トップモデルのトレーニング損失は 2.8 未満です。一方、同じマークでは、下のモデルのトレーニング損失は 2.8 を超えています。

ただし、モデル間の唯一の違いはコサイン時刻表です。

基礎となるモデルをトレーニングするにはより多くのデータが必要なため、「伸張されていない」コサインはより多くのステップで計算され、実質的に伸張されます。

学習率が、より少ないトレーニング ステップに割り当てられたスケジュールに従う場合、同じトレーニング時間で損失はより少なくなります。

より一般的には、次の疑問が生じます。コサインスケジュールが最適でない場合、曲線の末尾の形状はどうなるでしょうか。

参考: https://espadrine.github.io/blog/posts/chinchilla-s-death.html#Can_Chinchillas_picture_a_Llama_s_sights

<<:  200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

>>:  顔の照明を自由に編集:ジェネレーティブモデルに基づく3Dリライティングシステムがリリース

ブログ    
ブログ    

推薦する

...

...

カスタムデータセットにOpenAI CLIPを実装する

2021年1月、OpenAIはDALL-EとCLIPという2つの新しいモデルを発表しました。どちらも...

...

人工知能とVRを融合し、多様な体験を実現

人工知能サービス - Microsoft Cognitive Services には当初、視覚、音声...

転移学習により、ディープラーニングは難しくなくなりました...

それほど遠くない過去には、データ サイエンス チームがディープラーニングを効果的に活用するには、いく...

...

PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるよう...

クアルコム:米国は自動運転技術の標準化で中国に遅れをとる可能性

[[272354]]画像: この Uber の自動運転車は、米国サンフランシスコでテスト中に信号待ち...

データサイエンスの分野で働くにはどのようなスキルが必要ですか?

本記事では、海外KDnuggetsフォーラムにおけるSimplilearnの統計結果と、国内有名求人...

まだ人工知能を理解していないのですね?チューリングに「直接」説明してもらってはいかがでしょうか?

[[335755]]タイムトラベルの超能力を与えられたら、どの歴史上の人物と話をして過去に戻りたい...

ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで...

ビル・ゲイツ:この伝染病は[諸刃の剣]であり、人工知能はエイズとCOVID-19を治すと期待されています!

序文:科学技術界の頂点に立つビル・ゲイツ氏は、2015年にTEDで「今後数十年のうちに、核戦争よりも...

組み込み物流ロボットの用途は何ですか?

ネットワーク技術やグリッドコンピューティングの発展により、組み込み型モバイル機器を中核とした「ユビキ...