1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

[[439859]]

近年、モデルの規模はどんどん大きくなっています。例えば、2018年に登場したGPTのパラメータ数は1億1,700万でした。1年後の2019年には、GPT-2のパラメータ数が15億に達しました。2020年には、1,750億のパラメータを持つGPT-3に拡張されました。 OpenAIが構築したスーパーコンピューターには285,000個のCPUコアと10,000個のGPUがあり、OpenAIはそこですべてのAIモデルをトレーニングしていると理解されている。

大規模言語モデルのトレーニングにはコストがかかりますが、読解や質問への回答など、さまざまなタスクで小規模な学習を実行できるなど、重要な側面もあります。ただし、これらのモデルでは、より多くのパラメータを使用するだけで、より優れたパフォーマンスを実現できます。しかし、これらのモデルをより効率的にトレーニングして使用する方法はあるのでしょうか?

この疑問に答えるために、Google は数兆の重みを持つ Generalist Language Model (GLaM) を発表しました。このモデルの主な特徴はスパース性であり、これにより効率的なトレーニングとサービス提供 (コンピューティングとリソースの使用の観点から) が可能になり、複数の小さなサンプルの学習タスクで競争力のあるパフォーマンスを実現します。

GLaM モデルの詳細を見てみましょう。

データセット

Google はまず、1.6 兆個のトークンを含む高品質のデータセットを構築しました。その大部分は、プロの執筆から低品質のレビューやフォーラム ページに至るまで、さまざまな Web ページから取得されています。さらに、Google は、Wikipedia と書籍のテキスト データセットでトレーニングされたテキスト品質フィルターを開発しました。フィルターのトレーニングに使用されるデータセットの品質は非常に高いため、Google はそれを使用して Web ページ コンテンツの品質をフィルタリングします。最後に、Google はこのフィルターを適用して Web ページの最終的なサブセットを生成し、それを書籍や Wikipedia のデータと組み合わせて最終的なトレーニング データセットを作成します。

GLaM モデルアーキテクチャ

GLaM は、異なる入力にそれぞれ特化した異なるサブモデル (またはエキスパート) を持つと考えられる、エキスパート混合 (MoE) モデルです。各レイヤーのエキスパートは、入力データに基づいてエキスパートをアクティブ化するゲーティング ネットワークによって制御されます。各トークン (通常は単語または単語の一部) ごとに、ゲーティング ネットワークはデータを処理するために最も適切な 2 人の専門家を選択します。完全な GLaM には合計 1.2T のパラメーターがあり、各 MoE には 64 人のエキスパートと合計 32 の MoE レイヤーが含まれますが、推論中、モデルは 97B のパラメーターのみをアクティブ化し、これは合計パラメーターの 8% を占めます。

GLaM のアーキテクチャでは、各入力トークンは予測のために 64 のエキスパート ネットワークから選択された 2 つのエキスパート ネットワークに動的にルーティングされます。

GShard MoE Transformer と同様に、Google は他のトランスフォーマー レイヤーの単一のフィードフォワード ネットワーク (上図の青いボックス内の Feedforward または FFN など、人工ニューラル ネットワークの最も単純なレイヤー) を MoE レイヤーに置き換えました。 MoE レイヤーには複数のエキスパートがあり、各エキスパートは同じアーキテクチャを持ちながら重みパラメータが異なるフィードフォワード ネットワークです。

MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して 2 つのエキスパートのみが使用され、計算を制限しながらモデルの容量を増やすという利点があります。トレーニング中、各 MoE レイヤー ゲーティング ネットワークは、入力を使用して各トークンの最適な 2 人のエキスパートをアクティブ化するようにトレーニングされ、その後推論に使用されます。 MoE レイヤーの E エキスパートにとって、これは本質的に、従来の Transformer の 1 つの組み合わせではなく、E×(E-1) の異なるフィードフォワード ネットワークの組み合わせのコレクションを提供し、計算の柔軟性が向上します。

最終的に学習されたトークン表現は、2 人のエキスパートからの出力の加重組み合わせであり、これにより、異なるエキスパートが異なるタイプの入力をアクティブ化できるようになります。より大きなモデルへのスケーラビリティを実現するために、GLaM アーキテクチャの各エキスパートは複数のコンピューティング デバイスにまたがることができます。 Google は、GSPMD コンパイラ バックエンドを使用してエキスパートのスケーリングの課題に対処し、スパース アクティベーション言語モデルがどのようにスケーリングされるかを理解するために、複数のバリアント (エキスパートのサイズとエキスパートの数に基づく) をトレーニングします。

評価セットアップ

Google はゼロショット設定とワンショット設定の両方を使用しており、トレーニング中に目に見えないタスクが使用されます。評価基準は次のとおりです。

  • 穴埋め問題と補完問題。
  • オープンドメインの質問応答。
  • ウィノグラードスタイルのタスク。
  • 常識的な推論;
  • 文脈的読解力
  • SuperGLUE タスク。
  • 自然言語推論。

Google は、生成されたフレーズが真の値の目標に基づいて評価される合計 8 つの自然言語生成 (NLG) タスクと、条件付き対数尤度を使用して複数のオプションの中から予測が選択される 21 の自然言語理解 (NLU) タスクを使用しました。

実験結果

MoE レイヤーごとにエキスパートが 1 人だけの場合、GLaM は基本的な Transformer ベースの高密度モデル アーキテクチャに縮小されます。すべての実験において、Google は「ベース高密度モデルのサイズ / MoE レイヤーごとのエキスパート数」を使用して GLaM モデルを記述します。たとえば、1B/64E は、1B パラメータを持つ高密度モデル アーキテクチャを表し、1 つおきのレイヤーが 64 個のエキスパート MoE レイヤーに置き換えられます。

Google は、同じデータセットでトレーニングされたベースライン高密度モデルを含む GLaM のパフォーマンスとスケーリング特性をテストしました。 Microsoft と NVIDIA が最近発表した Megatron-Turing と比較すると、GLaM は 7 つの異なるタスクで 5% のマージンで同等のパフォーマンスを達成し、推論中に使用される計算能力を 4/5 削減します。

さらに、1.2T パラメータのスパース活性化モデル (GLaM) は、推論時の計算量を抑えながら、1.75B パラメータの高密度 GPT-3 モデルよりも多くのタスクで優れた平均結果を実現します。

NLG (左) および NLU (右) タスクにおける GLaM および GPT-3 の平均スコア (高いほど良い)。

Googleは、29のベンチマークにおけるGLaMとGPT-3のパフォーマンス比較結果をまとめました。結果は、GLaM がゼロショット タスクの約 80%、ワンショット タスクの約 90% で GPT-3 のパフォーマンスを上回るか同等であることを示しています。

さらに、GLaM のフル バージョンには合計 1.2T のパラメータがありますが、推論中に各トークンがアクティブにするサブネットワークは 97B のパラメータ (1.2T の 8%) のみです。

拡張機能

GLaM は、次の 2 つの方法で拡張されます。1) レイヤーごとのエキスパートの数を拡張する方法 (各エキスパートは単一のコンピューティング デバイスでホストされます)。2) 各エキスパートのサイズを単一のデバイスの制限を超えて拡張する方法。スケーリング特性を評価するために、推論時のトークンあたりの FLOPS が同様の対応する密なモデルを比較します。

各エキスパートのサイズを大きくした場合のゼロショットとワンショットの平均パフォーマンス。エキスパートのサイズが大きくなるにつれて、推論時のトークン予測あたりの FLOPS も増加します。

上の図に示すように、タスク全体のパフォーマンスはエキスパートの規模に比例します。生成タスクの推論中、GLaM スパース活性化モデルは、同様の FLOP を持つ密なモデルよりも優れたパフォーマンスを発揮します。理解タスクについては、小規模では同様のパフォーマンスを示しましたが、大規模ではスパース活性化モデルの方がパフォーマンスが優れていることがわかりました。

データ効率

大規模な言語モデルのトレーニングには計算負荷がかかるため、効率を向上させることでエネルギー消費を削減できます。この研究では、GLaM のフルバージョンの計算コストを実証します。

モデル推論 (左) とトレーニング (右) の計算コスト (GFLOPS)。

これらの計算コストは​​、GLaM がより多くのトークンでトレーニングするためトレーニング中に多くの計算を使用するが、推論中ははるかに少ない計算を使用することを示しています。下の図は、異なる数のトークンを使用したトレーニングの比較結果を示し、モデルの学習曲線を評価しています。

トレーニング中に処理されるトークンが増えるにつれて、8 世代タスクにおけるスパース アクティベーション モデルと密なモデルのゼロ ショットおよびワン ショットの平均パフォーマンスが向上します。

トレーニング中に処理されるトークンが増えるにつれて、21 の理解タスクにおけるスパース アクティベーション モデルと密なモデルのゼロ ショットおよびワン ショットの平均パフォーマンスが向上します。

結果は、スパース活性化モデルが、トレーニングに使用するデータ量を大幅に減らしながら、密なモデルと同様のゼロショットおよびワンショットのパフォーマンスを達成することを示しています。さらに、同じ量のデータの場合、スパース モデルのパフォーマンスは大幅に向上します。

最後に、Google は GLam のエネルギー効率を評価しました。

トレーニング中の GLaM と GPT-3 のエネルギー消費量の比較。

GLaM はトレーニング中に多くの計算能力を使用しますが、GSPMD (Google が 5 月にリリースした一般的な機械学習計算グラフ用のコンパイラベースの自動並列システム) によって実現されるより効率的なソフトウェア実装と TPUv4 の利点により、トレーニング中の他のモデルよりも消費エネルギーが少なくなります。

<<:  組織のインテリジェントな進化に焦点を当てた百度Ruliuインテリジェントワークプラットフォーム2.0がリリース

>>:  データ構造とアルゴリズム: 単調に増加する数値

ブログ    
ブログ    

推薦する

...

...

人工知能(AI)について知っておくべきことすべて

人工知能の進歩は前例のない機会をもたらすと同時に、経済的、政治的、社会的混乱ももたらします。専門家は...

...

CIO が AI を活用して地位を向上させる 3 つの方法

組織内の利害関係者の視点から IT の役割を理解することは、IT がどのように変革する必要があるかを...

人工知能の専門家:ディープラーニングは行き止まりではない

ディープラーニングは機械学習手法の一種であり、人工知能を実現するための重要な基盤です。最近、一部の学...

...

2020 年の人工知能とディープラーニングの 5 つの将来トレンド

近年、人工知能は頻繁に話題になっていますが、まだ真の実現には程遠い状況です。 [[314350]]人...

ガートナーのJi Xinsu氏:AI大手モデルメーカーは今後集中化され、企業が独自に構築するのは経済的ではない

10月11日ニュース(南山)ガートナーは今年7月、「中国ICTハイプサイクル2023」レポートを発表...

ChatGPTが使用する機械学習技術

著者 |ブライト・リャオ「プログラマーから見たChatGPT」の記事では、開発者のChatGPTに対...

...

毎日のアルゴリズム: 回文部分文字列

[[434467]]文字列が与えられた場合、その文字列に含まれる回文の部分文字列の数を数えることがタ...

データセンターにおけるAIの役割の拡大

世界がデータの津波と格闘する中、データセンターは急速に進化しています。スマート接続デバイスの数の急速...

極端なケースによって引き起こされた議論: アルゴリズムがあなたが死にたいと考えた時...

悲しい話です。2017年、14歳のイギリスの少女モリー・ラッセルが予期せず自殺を選択しました。このよ...