ジェネレーティブ AI 時代のデータ センターの再構築

ジェネレーティブ AI 時代のデータ センターの再構築

最近の人工知能に関する議論には、OpenAI の大規模言語モデル (LLM) の GPT ファミリー上に構築されたユビキタス チャットボットである ChatGPT の台頭が必ず関係してきます。しかし、この生成 AI テクノロジの要求はデータ センターでどのように満たすことができるのでしょうか?

このチャットボットは昨年末にリリースされ、そのコンテンツ生成機能で話題を呼んだ。人々は ChatGPT や他のベンダーの競合ボットを使用して、複雑な質問に答えたり、ソフトウェア コードの作成やマーケティング コピーの作成などのタスクを自動化したりしています。

しかし、この生成 AI 技術にはさまざまな可能性が秘められているため、基礎となるモデルの潜在能力を最大限に活用することは困難でした。ほとんどのモデルは公開されているデータに基づいてトレーニングされるため、機密性の高い社内文書のクエリなど、特定のエンタープライズ アプリケーションには適していません。

企業は、これらのモデルが社内の企業データを処理できるようにしたいと考えています。しかし、これは企業が全力を尽くしてゼロから構築しなければならないことを意味するのでしょうか? 詳しく見てみましょう。

大規模言語モデルの構築: データセンターの高額なビジネス

GPT-3 や GPT-4 などの LLM を構築する多段階のタスクは、数週間から数か月間、データセンターのサーバーにクラスター化された数百または数千の高価な GPU を必要とする計算集約型のトレーニング実行から始まります。

モデルのサイズが大きくなるにつれて、トレーニングと再トレーニングに必要な GPU の数も増加します。たとえば、Google は 5,400 億のパラメータを持つ PaLM モデルをトレーニングするために 6,144 個のチップを挿入する必要がありました。このプロセスには、Microsoft DeepSpeed や Nvidia MegaTron-LM などの高度なトレーニング手法とツールに関する専門知識も必要ですが、これらは組織内ですぐに利用できるとは限りません。

トレーニングが完了すると、これらのチップはモデルに対して推論を継続的に実行する必要があり、コストがさらに増加し​​ます。これを概観すると、1 台あたり 199,000 ドルの Nvidia DGX A100 マルチ GPU サーバー (通常は LLM トレーニングと推論に使用) を 500 台使用するだけでも、プロジェクトのコストは約 1 億ドルになるということになります。それに加え、サーバーによって発生する追加の電力消費と熱出力により、総所有コストが増加します。

これは、特に AI 専門の組織ではなく、LLM で特定のビジネス ユース ケースを加速することのみを望んでいる企業にとって、データ センター インフラストラクチャへの重要な投資となります。

AI時代のデータセンターの理想的なアプローチ

企業が、確固たる競争優位性を備えたモデルを作成できる独自の高品質のデータセットを持っていない限り、投資する価値はありません。それ以外の場合、最善のアプローチは、既存のオープンソース LLM を組織独自のデータ (企業文書、顧客メールなど) の特定のユースケースに合わせて微調整することです。

良い反例としては、BloombergGPT モデルがあります。これは、ブルームバーグがゼロからトレーニングした 500 億のパラメータ [モデル] です。同じ量の独自の高品質データを持っていると自信を持って主張できる組織はいくつあるでしょうか? それほど多くはありません。

一方、微調整ははるかに軽量なプロセスであり、必要な時間、予算、労力はほんのわずかです。

企業が LLM をゼロから構築することに価値を見出す場合、オンサイト展開用に高価な GPU をすぐに購入するのではなく、マネージド クラウド インフラストラクチャと機械学習 (ML) サービスを使用して小規模に開始する必要があります。

クラウドでは、Nvidia GPU だけでなく、AMD や Intel の GPU、Google TPU や AWS Trainium などの顧客アクセラレータなど、より多くのトレーニング オプションも選択できます。

一方、現地の法律や規制によりクラウドから離れることを余儀なくされる場合は、GPU などのアクセラレーション ハードウェアをオンサイトで展開することがデフォルトの選択肢になります。

計画が鍵となる

技術意思決定者は、ドメイン固有の LLM とそれに基づいて構築されるアプリケーション用の GPU、スキル、またはクラウド パートナーへの投資を急ぐ前に、企業内の他のリーダーや主題の専門家と協力して明確な戦略を策定する必要があります。決定のビジネスケースに焦点を当てるには、そのようなワークロードの現在の要件と将来の要件を大まかに理解しておくと役立ちます。

このような計画を通じて、企業は LLM のトレーニングにいつどのように投資するかについて、十分な情報に基づいた決定を下すことができます。これには、どのようなハードウェアを選択するか、他者が開発した既存のモデルをどこで使用できるか、AI の取り組みにおいて適切なパートナーは誰かなどの側面が含まれます。

AI/ML は驚くべきペースで進歩しています。従来の将来を見据えた考え方でこれらの新しいテクノロジーに取り組むと、ソリューションは比較的早く時代遅れになる可能性があります。関連するテクノロジーとハードウェアの特殊性を考えると、最初にソリューション ランドスケープを開発し、それに応じてデータ センターをアップグレードする方がよい選択肢となる可能性があります。

根拠もなく新しいテクノロジーを採用するという誇大宣伝やトレンドを信じてしまうのは簡単ですが、これは間違いなく失望につながり、企業が将来恩恵を受ける可能性のある実際の使用例を否定する可能性があります。より良いアプローチは、冷静さを保ち、関連するテクノロジーの理解に時間を費やし、関係者と協力して統合から得られるメリットを評価することです。

<<:  OpenAIがカスタムコマンド機能を開始、会話ごとに好みや情報を繰り返す必要がなくなる

>>: 

ブログ    
ブログ    
ブログ    

推薦する

国境を越えた大企業よ、安易に「自社開発チップ」を主張しないでほしい

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Githubの包括的なレビュー! 2021 年の最も素晴らしい AI 論文 38 件

[[443053]] 2021年は人工知能が飛躍的に進歩し続ける年です。最近、Github で誰かが...

人工知能: ナノスケールでの細胞構造の発見

11月25日(劉亜竹)人が病気になる原因は、外部の病原性因子が細胞に作用することです。病原性因子が一...

人工知能がその地位を占める中、あなたは仕事を続けることができるでしょうか?

産業革命の重機からデジタルコンピュータ時代、さらに最近では人工知能の急速な発展に至るまで、技術の進歩...

上海は質の高い農業の発展を推進:科学技術設備の改善と無人農場の建設

農業の発展は人々の生存と社会の安定に関係しています。近年、農業需要の継続的な解放、農業労働力の継続的...

Keras よりも優れた機械学習「モデル パッケージ」: コード 0 個でモデルの作成を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

現実世界の複雑な課題を解決するための LLM+模倣学習: AI2 が SwiftSage を提案

GPT-4 などの大規模言語モデル (LLM) は多くの推論タスクで優れたパフォーマンスを発揮します...

未来はここにある: データが大規模 AI モデルにおける競争をどう促進するか

人工知能の急速な発展に伴い、高品質なデータの重要性がますます明らかになっています。大規模言語モデルを...

AIを活用してモノのインターネットを次のレベルに引き上げる方法

世界中の企業が人工知能を広く導入しています。モノのインターネットもすぐ後に続きます。実際、モノのイン...

AIは医者と同等でしょうか?

2016年3月以来、AlphaGoと呼ばれるロボットが、有名な囲碁プレイヤーであるイ・セドルと柯潔...

AI、IoT、VR、AR、ブロックチェーン、クラウドコンピューティングで建設業界を変革

AI、IoT、ブロックチェーン、AR、VR、クラウドコンピューティング技術が建設業界に新たな形をもた...

IDC: 人工知能への世界的支出は4年で倍増すると予想

IDC グローバル人工知能支出ガイドによると、世界の人工知能 (AI) 関連の支出は、今後 4 年間...

Java で実装されたいくつかの一般的なソートアルゴリズムの詳細な解釈

ソートアルゴリズムはさまざまな場所で使用されています。最近、そのアルゴリズムを読み直し、自分で簡単に...

...

ChatGPT に複数のバージョンのコンテンツを入力して一度に選択できるようにする方法

人工知能が進歩するにつれて、AI ツールに対する需要も高まっています。特に GPT のような高度なツ...