5300億!巨大言語モデルのパラメータは毎年10倍に増加。新たな「ムーアの法則」が到来か?

5300億!巨大言語モデルのパラメータは毎年10倍に増加。新たな「ムーアの法則」が到来か?

[[431562]]

つい最近、Microsoft と NVIDIA は 5,300 億のパラメータを持つ MT-NLG 言語モデルを発表しました。これはトランスフォーマー ベースのモデルであり、「世界最強かつ最大の言語生成モデル」として称賛されています。

しかし、これは本当に興奮するべきことなのでしょうか?

脳のディープラーニング 研究者は、平均的な人間の脳には 860 億個のニューロンと 100 兆個のシナプスが含まれていると推定しています。しかし、それらすべてが言語として使用されるわけではありません。興味深いことに、GPT-4 には約 100 兆個のパラメータがあると予想されています。

[[431563]]

2つの「100兆」。

これは偶然でしょうか?人間の脳とほぼ同じ大きさの言語モデルを構築することが、長期的に見て実行可能なアプローチなのだろうかと疑問に思わざるを得ません。

もちろん、私たちの脳は何百万年にも及ぶ進化を経て、非常に素晴らしい装置になりましたが、ディープラーニング モデルが登場したのはほんの数十年前のことです。確かに、計算では測れないものがあることは私たちの直感で分かります。

それはディープラーニングか「ディープウォレット」か?巨大なテキスト データセットで 5,300 億のパラメータ モデルをトレーニングするには、間違いなく巨大なインフラストラクチャが必要です。

実際、Microsoft と Nvidia は数百台の DGX-A100 GPU サーバーを使用しており、1 台あたりのコストは最大 199,000 ドルです。これにネットワーク機器やホストなどのコストを加えると、この実験を繰り返したい人は約 1 億ドルを費やす必要があります。

真剣に、ディープラーニング インフラストラクチャに 1 億ドルを費やすことを正当化するビジネス ケースを持っている企業はどこでしょうか?それとも1000万ドル?もしそうなら、これらのモデルは誰向けに設計されているのでしょうか?

GPU クラスター: 放熱と環境保護の両方が問題です。実際、GPU 上でディープラーニング モデルをトレーニングするのは非常に面倒な作業です。

NVIDIA のサーバー パラメータ テーブルによると、各 NVIDIA DGX A100 サーバーの最大消費電力は 6.5 キロワットです。もちろん、データセンター (またはサーバー) には少なくとも同程度の冷却装置が必要です。

あなたがスターク家でウィンターフェルを救う必要があるのでなければ、冷却は問題になるでしょう。

また、気候や社会的責任の問題に対する一般の認識が高まるにつれて、企業も二酸化炭素排出量を考慮する必要があります。

マサチューセッツ大学の 2019 年の研究では、「GPU で BERT をトレーニングすると、米国を横断する飛行とほぼ同等の二酸化炭素排出量が発生する」ことが判明しました。

BERT-Large のパラメータ数は 3 億 4000 万にもなります。これをトレーニングする際の二酸化炭素排出量はどれくらいでしょうか?考えただけでも怖いですね。

では、MT-NLG モデルの 5,300 億のパラメータに本当に興奮すべきなのでしょうか?非常に多くのパラメータと計算能力を交換することで得られるベンチマーク パフォーマンスの向上は、コスト、複雑さ、および二酸化炭素排出量に見合う価値があるのでしょうか?

これらの巨大モデルの推進は、企業や個人が機械学習を理解し、受け入れるのに本当に役立つのでしょうか?

より多くの運用テクノロジーに重点を置けば、それらを使用して高品質の機械学習ソリューションを構築できます。たとえば、次のテクノロジ:

ほとんどの場合、事前トレーニング済みモデルを使用する場合、カスタム モデル アーキテクチャは必要ありません。

良い出発点は、問題を解決するためにすでに事前トレーニングされているモデルを探すことです (例: 英語のテキストを要約する)。

次に、いくつかのモデルをすぐに試して、データを予測します。パラメータが特定のパラメータが良好であることを示している場合は、それで問題ありません。

より正確なパラメータが必要な場合は、モデルを微調整してみてください (詳細は以下で説明します)。

小さなモデルを使用する

モデルを評価するときは、必要な精度を提供する最小のモデルを選択するようにしてください。これにより、予測が高速化され、トレーニングと推論に必要なハードウェア リソースが少なくなります。

計算能力は高価なので、可能な限り節約してください。

実際、機械学習モデルがどんどん小さくなっているのは目新しいことではありません。コンピューター ビジョンに詳しい人なら、2017 年の SqueezeNet の登場を覚えているでしょう。AlexNet と比較すると、SqueezeNet はサイズが 98% 小さく、精度パフォーマンスは AlexNet と同等です。

[[431564]]

コンピューター ビジョンの分野に加えて、NLP コミュニティも、知識蒸留などの転移学習技術を広範に活用してモデルのサイズを縮小するために懸命に取り組んでいます。これらの中で最も有名なのは、おそらく Google の BERT モデルを改良した DistilBERT でしょう。

オリジナルの BERT モデルと比較すると、DistilBERT は言語理解能力の 97% を維持しながら、サイズが 40% 小さくなり、速度が 60% 向上しています。同じアプローチは、Facebook の BART などの他のモデルにも適用されています。

「ビッグサイエンス」プロジェクトの最新モデルも印象的です。下の図に示すように、これらのプロジェクトの T0 モデルは多くのタスクで GPT-3 よりも優れていますが、モデル サイズは GPT-3 の 1/16 にすぎません。

モデルの微調整

高度に専門化されたドメインでモデルを使用する必要がある場合、モデルを最初からトレーニングする必要はありません。代わりに、モデルを微調整する必要があります。つまり、独自のデータセットで数エポックだけトレーニングする必要があります。

実際、モデルの微調整も転移学習の一種であり、その目的はリソースを節約し、可能な限り節約することです。

転移学習を使用すると、次のような多くの利点があります。

  • 収集、保存、整理、注釈付けするデータが少なくなる
  • より高速な実験とデータの反復
  • 成果を達成するために必要なリソースが少なくなる

言い換えれば、時間を節約し、お金を節約し、資源を節約するのです!

クラウドインフラストラクチャの使用

[[431565]]

クラウド コンピューティング企業は、効率的なインフラストラクチャを構築する方法を知っています。調査によると、クラウドベースのインフラストラクチャは他のインフラストラクチャよりもエネルギー効率が高く、二酸化炭素排出量が少ない傾向があります。 Earth.org は、クラウド インフラストラクチャは現時点では完璧ではないものの、他のインフラストラクチャよりもエネルギー効率が高く、環境に有益なサービスを促進し、経済成長を促進できると述べています。 ”

確かに、クラウドには、使いやすさ、柔軟性、従量課金制の点で多くの利点があります。独自の GPU を購入する余裕がない場合は、AWS のマネージド機械学習サービスである Amazon SageMaker でモデルを微調整してみてはいかがでしょうか。

最適化モデル コンパイラから仮想マシンまで、ソフトウェア エンジニアは長い間、ハードウェア向けにコードを自動的に最適化するツールを使用してきました。

しかし、ソフトウェア業界と比較して、機械学習コミュニティが依然としてこの問題に苦労しているのには理由があります。つまり、機械学習モデルの最適化は、次の技術と条件を伴う非常に複雑なタスクです。

[[431566]]
  • ハードウェア: トレーニング タスク (Graphcore、Habana) と推論タスク (Google TPU、AWS Inferentia) を高速化するための多数の専用ハードウェア。
  • プルーニング: 予測結果にほとんど影響を与えない、またはまったく影響を与えないモデル パラメータを削除します。
  • Fusion: モデル レイヤー (畳み込みやアクティベーションなど) をマージします。
  • 量子化: モデルパラメータをより小さな値で保存する(例: 32 ビットストレージの代わりに 8 ビットストレージを使用する)

幸いなことに、Optimum オープンソース ライブラリや、レイテンシが 1 ミリ秒と低く、Transformer に匹敵する精度を備えたコンテナ化されたソリューションである Infinity などの自動化ツールが利用できるようになっています。

新たな「ムーアの法則」が到来するのか?

過去数年間、大規模言語モデルのサイズは年間 10 倍に増加しました。新たな「ムーアの法則」が誕生しそうだ。

オリジナルのムーアの法則の現在の運命はどうなるのでしょうか? 「ムーアの法則の終焉」という話題は数年前から非常に人気がありました。

しかし、一つ確かなことは、機械学習が「モデル拡大」の道を進み続けると、その道はますます狭くなる可能性があるということです。収益の減少、コストの増加、複雑さの増大は、機械学習業界を近い将来に行き詰まらせる可能性のある予見可能な問題です。

これが人工知能の未来の姿なのでしょうか?

そうならないことを祈ります。何兆ものパラメータを持つ巨大なモデルを追いかけるのではなく、現実世界の問題に対する実用的で効率的なソリューションの構築に重点を置く方が良いのではないでしょうか。

<<:  一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

>>:  2021年10月のドローン業界の最新動向を3分で振り返る

ブログ    
ブログ    

推薦する

AI がどのようにして人々に結婚や勉強をするように説得できるかを見てみましょう。

[[361065]]いたずら好きな老人の周伯同は、黄耀師によって桃花島に十数年閉じ込められていまし...

11 の基本的なニューラル ネットワーク アーキテクチャの視覚的な説明

標準、再帰、畳み込み、オートエンコーダネットワークディープラーニングの急速な発展により、多種多様なタ...

ICLR 2020 におけるナレッジグラフ研究の包括的な概要

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

エンタープライズレベルの AI を実装するにはどうすればよいでしょうか? Watson なら問題ありません!

[51CTO.com からのオリジナル記事] 人工知能は間違いなく、今日最も注目されている技術の ...

AIビデオ監視の普及における3つの大きな課題

近年、セキュリティビデオ監視はソフトウェアとハ​​ードウェアの両方で大きな技術的進歩を遂げており、さ...

ビッグスリー:ディープラーニングの未来

【51CTO.com 速訳】ディープラーニングの課題過去数年間で、ディープラーニング モデルの主要構...

Nvidia、AIを使った仮想世界のリアルタイムレンダリングを実演

[[251560]] Nvidia は、従来のモデリングやグラフィック レンダリング エンジンではな...

注目メカニズムに基づく人工知能アルゴリズム単一画像超解像法は、質感と滑らかさを区別します

人工知能アルゴリズムによる注目ベースの単一画像超解像法は、テクスチャと滑らかさを区別します。概要: ...

スマートテクノロジーが現代のビジネス運営を強化する7つの方法

スマート テクノロジーは、あらゆる業界の企業に無限のチャンスをもたらします。小さな変更でも、企業を完...

...

...

人工知能に関する国家3カ年戦略が発表されました。この8種類の製品が流行るでしょう!

工業情報化部が突然、人工知能に関するもう一つの重要な文書を発行しました!文書では、2018年から2...

CV退化!心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

世界中の人々は笑ったり悲しんだりするときに同じ表情をしますか? [[402741]]人々の表情が一貫...