Cerebras が 1 台のマシンで 200 億のパラメータ モデルをトレーニングするという新記録を樹立

Cerebras が 1 台のマシンで 200 億のパラメータ モデルをトレーニングするという新記録を樹立

今週、チップスタートアップのCerebrasは、100億を超えるパラメータを持つNLP(自然言語処理)人工知能モデルを単一のコンピューティングデバイスでトレーニングするという新たなマイルストーンを発表しました。

Cerebras によってトレーニングされた AI モデルは、複数のアクセラレータにわたってワークロードをスケーリングすることなく、前例のない 200 億のパラメータに到達しました。この作業は、現在インターネット上で最も人気のあるテキストから画像への AI 生成モデルである OpenAI の 120 億パラメータ モデル DALL-E のニーズを満たすのに十分です。

Cerebras の新しい取り組みの最も重要な側面は、インフラストラクチャとソフトウェアの複雑さに対する要件が軽減されたことです。同社が提供するチップ「Wafer Scale Engine-2(WSE2)」は、その名の通り、TSMC 7nmプロセスウエハ1枚にエッチングされており、通常であれば数百個の主流チップを収容できるほどの広さの領域で、驚異的な2.6兆個のトランジスタ、85万個のAIコンピューティングコア、40GBの統合キャッシュを備え、パッケージング後の消費電力は15kWにも達します。

Wafer Scale Engine-2 は、ほぼウエハーと同じ大きさですが、その面積は iPad よりも大きいです。

Cerebras のマシン単体のサイズはすでにスーパーコンピュータと同等ですが、最大 200 億のパラメータを持つ NLP モデルを 1 つのチップに保持することで、数千の GPU のトレーニング コストと関連するハードウェアおよびスケーリング要件が大幅に削減され、モデルを GPU 間で分割する際の技術的な困難も解消されます。セレブラス氏は、後者は「NLP ワークロードの最も面倒な側面の 1 つ」であり、「完了するまでに数か月かかる」こともあると述べています。

これは、処理される各ニューラル ネットワークだけでなく、各 GPU の仕様やそれらを結び付けるネットワークにも固有のカスタマイズの問題です。これらの要素は、最初のトレーニングが開始される前に事前に設定しておく必要があり、システム間で移植できません。

Cerebras の CS-2 は、Wafer Scale Engine-2 チップと、関連するすべての電源、メモリ、ストレージ サブシステムを含むスタンドアロンのスーパーコンピューティング クラスターです。

200億のパラメータはおおよそどのくらいのレベルですか?人工知能の分野では、大規模な事前学習済みモデルは、最近さまざまなテクノロジー企業や機関が開発に力を入れている方向です。OpenAI の GPT-3 は、人間の読者を騙すのに十分な記事全体を書いたり、数学的な計算や翻訳を行ったりできる NLP モデルです。そのパラメータは驚異の 1,750 億個に上ります。昨年末に発売されたディープマインドのGopherは、パラメータ数の記録を2800億に引き上げた。

最近、Google Brain は、1兆を超えるパラメータを使用して Switch Transformer と呼ばれるモデルをトレーニングしたことを発表しました。

「NLP 分野では、モデルが大きいほどパフォーマンスが向上することがわかっています。しかし、従来、これらの大規模なモデルを分解し、数百または数千のグラフィックス処理ユニットに分散するという大変な作業を行うためのリソースと専門知識を備えた企業はほとんどありませんでした」と、Cerebras の CEO 兼共同創設者である Andrew Feldman 氏は述べています。 「その結果、大規模な NLP モデルをトレーニングできるのはごく少数の企業に限られています。コストが高すぎるし、時間がかかりすぎるため、業界の他の企業には手が届きません。」

現在、Cerebras のアプローチにより、GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B、GPT-NeoX 20B モデルの参入障壁が下がり、AI エコシステム全体が数分で大規模なモデルを構築し、単一の CS-2 システムでトレーニングできるようになりました。


ただし、フラッグシップ CPU のクロック速度と同様に、パラメータの数は、大規模モデルのパフォーマンスを示す 1 つの指標にすぎません。最近では、パラメータを減らしながらより良い結果を達成した研究もいくつかあります。例えば、今年4月にDeepMindが提案したChinchillaは、わずか700億のパラメータで、通常の状況下でGPT-3やGopherを上回りました。

この種の研究の目標は、もちろん、より一生懸命働くことではなく、より賢く働くことです。そのため、セレブラスの成果は、一見した以上に重要な意味を持つ。この研究により、既存のチップ製造プロセスがますます複雑化するモデルに対応できるという確信が得られ、同社によれば、特殊なチップをベースにしたシステムは「数千億、あるいは数兆ものパラメータ」を持つモデルをサポートする能力があるという。

単一チップ上でトレーニング可能なパラメータの数が爆発的に増加するには、Cerebras の Weight Streaming テクノロジが必要です。このテクノロジーはコンピューティングとメモリの使用を切り離し、AI ワークロードの急速に増加するパラメータ数に基づいてメモリを任意の順序で拡張できるようにします。これにより、セットアップ時間が数か月から数分に短縮され、GPT-J や GPT-Neo などのモデル間の切り替えが可能になります。研究者らはこう述べている。「数回のキー操作だけで済みます。」

「Cerebras は、大規模言語モデルを低コストかつ簡単に実行できるようにすることで、AI のエキサイティングな新時代を切り開きます。大規模モデルの競争に参加するために数千万ドルを費やすことができない組織に、簡単で安価な方法を提供します」と Intersect360 Research の最高研究責任者である Dan Olds 氏は述べています。 「CS-2 のお客様が、大規模なデータセットで GPT-3 および GPT-J レベルのモデルをトレーニングする際に、新たなアプリケーションや発見が生まれることを非常に楽しみにしています。」

<<:  自動運転の未来 - 4Dミリ波レーダー

>>:  フェイフェイ・リーのチームはロボットにViTを使用し、計画と推論を512倍高速化し、またヘ・カイミンのMAEをキューイングした。

ブログ    
ブログ    
ブログ    

推薦する

水中ロボットが極地でその能力を披露

水中ロボットが極地でその能力を披露[[439571]]科学研究員らが甲板上で展​​開準備を進めている...

ヘルスケアにおける人工知能:現在と未来

IDCが発表した最新データによると、ソフトウェア、ハードウェア、サービスを含む世界の人工知能の収益は...

スマートヘルスケアは急速に普及しつつあり、さまざまなスマートテクノロジーが好まれている

人々の生活の重要な分野として、医療産業の発展は大きな注目を集めています。現在、医師の診察の難しさや高...

アイデアこそが王様!メンサ国際元会長が2021年の人工知能の応用を総括

[[443263]]人工知能の将来の発展の方向性を真に理解するには、まだ長い道のりが残っています。 ...

Siriは中国で禁止されるのでしょうか?国内AI企業がアップルを特許侵害で訴え、高等法院は中国の特許を有効と認定

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

2020年のIEEEフェローリストが発表:約30%が中国人で、葉潔平、張同、周博文、熊慧などのAI専門家が選出

本日、IEEE 2020フェローのリストが発表されました。統計によると、280人以上が選出され、その...

認知マップの科学的インベントリ: グローバルな第3世代AIの「大きな」機会

近年、人工知能 (AI) は、ディープラーニング、コンピューター ビジョン、自然言語処理などの技術革...

...

強力なオープンソース SDXL 1.0 がリリースされました!高品質、超シンプルなプロンプトワンクリック生成

ちょうど今、Stability AI は次世代のテキスト グラフ モデルである SDXL 1.0 を...

タオバオのメイン検索リコールシナリオにおけるマルチモーダル技術の探究

検索リコールは検索システムの基礎として、効果向上の上限を決定します。私たちが直面している主な課題は、...

新しいモデルは99%の精度で、ChatGPTによって生成されたテキストコンテンツを認識できます。

IT Homeは11月8日、sciencedirectに掲載された最新の論文によると、科学者は20...

パンデミック後、AI教育はどのように存在していくのでしょうか?

現在の教育における人工知能の応用は、依然として「弱い人工知能」になりがちですが、教育の効率性を向上さ...

ポピュラーサイエンス記事: GPT の背後にあるトランスフォーマー モデル

前回の記事「AIビッグモデルの解釈、トークンの理解から始める」では、最も基本的な概念である「トークン...

我が国の人工知能市場の規模は2022年に3705億元に達すると推定されている。

人工知能は、機械を通じて人間の思考と意思決定をシミュレートすることに重点を置いたコンピューターサイエ...