ジェネレーティブ AI 時代のデータ センターの再構築

ジェネレーティブ AI 時代のデータ センターの再構築

最近の人工知能に関する議論には、OpenAI の大規模言語モデル (LLM) の GPT ファミリー上に構築されたユビキタス チャットボットである ChatGPT の台頭が必ず関係してきます。しかし、この生成 AI テクノロジの要求はデータ センターでどのように満たすことができるのでしょうか?

このチャットボットは昨年末にリリースされ、そのコンテンツ生成機能で話題を呼んだ。人々は ChatGPT や他のベンダーの競合ボットを使用して、複雑な質問に答えたり、ソフトウェア コードの作成やマーケティング コピーの作成などのタスクを自動化したりしています。

しかし、この生成 AI 技術にはさまざまな可能性が秘められているため、基礎となるモデルの潜在能力を最大限に活用することは困難でした。ほとんどのモデルは公開されているデータに基づいてトレーニングされるため、機密性の高い社内文書のクエリなど、特定のエンタープライズ アプリケーションには適していません。

企業は、これらのモデルが社内の企業データを処理できるようにしたいと考えています。しかし、これは企業が全力を尽くしてゼロから構築しなければならないことを意味するのでしょうか? 詳しく見てみましょう。

大規模言語モデルの構築: データセンターの高額なビジネス

GPT-3 や GPT-4 などの LLM を構築する多段階のタスクは、数週間から数か月間、データセンターのサーバーにクラスター化された数百または数千の高価な GPU を必要とする計算集約型のトレーニング実行から始まります。

モデルのサイズが大きくなるにつれて、トレーニングと再トレーニングに必要な GPU の数も増加します。たとえば、Google は 5,400 億のパラメータを持つ PaLM モデルをトレーニングするために 6,144 個のチップを挿入する必要がありました。このプロセスには、Microsoft DeepSpeed や Nvidia MegaTron-LM などの高度なトレーニング手法とツールに関する専門知識も必要ですが、これらは組織内ですぐに利用できるとは限りません。

トレーニングが完了すると、これらのチップはモデルに対して推論を継続的に実行する必要があり、コストがさらに増加し​​ます。これを概観すると、1 台あたり 199,000 ドルの Nvidia DGX A100 マルチ GPU サーバー (通常は LLM トレーニングと推論に使用) を 500 台使用するだけでも、プロジェクトのコストは約 1 億ドルになるということになります。それに加え、サーバーによって発生する追加の電力消費と熱出力により、総所有コストが増加します。

これは、特に AI 専門の組織ではなく、LLM で特定のビジネス ユース ケースを加速することのみを望んでいる企業にとって、データ センター インフラストラクチャへの重要な投資となります。

AI時代のデータセンターの理想的なアプローチ

企業が、確固たる競争優位性を備えたモデルを作成できる独自の高品質のデータセットを持っていない限り、投資する価値はありません。それ以外の場合、最善のアプローチは、既存のオープンソース LLM を組織独自のデータ (企業文書、顧客メールなど) の特定のユースケースに合わせて微調整することです。

良い反例としては、BloombergGPT モデルがあります。これは、ブルームバーグがゼロからトレーニングした 500 億のパラメータ [モデル] です。同じ量の独自の高品質データを持っていると自信を持って主張できる組織はいくつあるでしょうか? それほど多くはありません。

一方、微調整ははるかに軽量なプロセスであり、必要な時間、予算、労力はほんのわずかです。

企業が LLM をゼロから構築することに価値を見出す場合、オンサイト展開用に高価な GPU をすぐに購入するのではなく、マネージド クラウド インフラストラクチャと機械学習 (ML) サービスを使用して小規模に開始する必要があります。

クラウドでは、Nvidia GPU だけでなく、AMD や Intel の GPU、Google TPU や AWS Trainium などの顧客アクセラレータなど、より多くのトレーニング オプションも選択できます。

一方、現地の法律や規制によりクラウドから離れることを余儀なくされる場合は、GPU などのアクセラレーション ハードウェアをオンサイトで展開することがデフォルトの選択肢になります。

計画が鍵となる

技術意思決定者は、ドメイン固有の LLM とそれに基づいて構築されるアプリケーション用の GPU、スキル、またはクラウド パートナーへの投資を急ぐ前に、企業内の他のリーダーや主題の専門家と協力して明確な戦略を策定する必要があります。決定のビジネスケースに焦点を当てるには、そのようなワークロードの現在の要件と将来の要件を大まかに理解しておくと役立ちます。

このような計画を通じて、企業は LLM のトレーニングにいつどのように投資するかについて、十分な情報に基づいた決定を下すことができます。これには、どのようなハードウェアを選択するか、他者が開発した既存のモデルをどこで使用できるか、AI の取り組みにおいて適切なパートナーは誰かなどの側面が含まれます。

AI/ML は驚くべきペースで進歩しています。従来の将来を見据えた考え方でこれらの新しいテクノロジーに取り組むと、ソリューションは比較的早く時代遅れになる可能性があります。関連するテクノロジーとハードウェアの特殊性を考えると、最初にソリューション ランドスケープを開発し、それに応じてデータ センターをアップグレードする方がよい選択肢となる可能性があります。

根拠もなく新しいテクノロジーを採用するという誇大宣伝やトレンドを信じてしまうのは簡単ですが、これは間違いなく失望につながり、企業が将来恩恵を受ける可能性のある実際の使用例を否定する可能性があります。より良いアプローチは、冷静さを保ち、関連するテクノロジーの理解に時間を費やし、関係者と協力して統合から得られるメリットを評価することです。

<<:  OpenAIがカスタムコマンド機能を開始、会話ごとに好みや情報を繰り返す必要がなくなる

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

言語学からディープラーニングNLPまで、自然言語処理の概要

この記事は、2 つの論文から始まり、自然言語処理の基本的な分類と基本概念を簡単に紹介し、次にディープ...

...

今日は秋分の日で収穫の季節。ドローンがショーの中心です。

9月22日は秋分の日であり、私の国では3回目の「農民の収穫祭」でもあります。収穫の季節と重なる黄金...

中国は人工知能(AI)で世界をリードしており、多くの技術が世界をリードしている。

[[217124]] [[217125]] [[217126]]ディープラーニングは最も急速に成長...

人工知能が教室に導入されると、教育プロセスにどのような変化が起こるでしょうか?

人工知能技術の応用により、コースの内容、教授法、教師と生徒の関係が変化しています。人工知能の利用によ...

...

弁護士の仕事もAIによって奪われるのでしょうか?ユーザー: 他に何ができますか?

モバイルインターネット時代の到来により、AIは前例のない成果を達成し、人々の生活のあらゆる側面に入り...

NYU のポスドクが、arXiv に 30 分遅れて論文を提出したというだけで ACL に拒否されたのですか?学者たちは憤慨し、ACLに二度と投票しないと誓う

ACL は国民を怒らせた!今朝、この投稿のせいで AI コミュニティ全体が騒然となった——ニューヨー...

機械学習の変革: 多分野にわたる問題に立ち向かい、新しい機械学習エコシステムを構築する

機械学習の手法は、生命、物理学、社会経済などの複雑なシステムにますます応用されています。特定のタスク...

10行のPythonコードで画像認識

[[226981]]ディープラーニングアルゴリズムの台頭と普及により、人工知能の分野、特にコンピュー...

空中で疫病と戦うドローン

新型コロナウイルス肺炎の流行が始まって以来、多くのハイテク技術がこの疫病との戦いに後方支援を提供して...

Zhihu のホットトピック: 今後 3 ~ 5 年で、機械学習の人材が最も不足する分野はどれでしょうか?

[[328766]]今後 3 ~ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?今日...