大規模言語モデルの最大のボトルネックを突破する方法

大規模言語モデルの最大のボトルネックを突破する方法

翻訳者 |ブガッティ

レビュー | Chonglou

OpenAIGPT-4AnthropicClaude 2などの大規模言語モデル(LLM)は、人間レベルのテキストを生成する能力で人々の心をとらえています企業も同様に熱心で、多くの企業がLLMを活用して自社の製品やサービスを改善する方法を模索しています。しかし、レート制限という大きなボトルネックにより最先端のLLM を本番環境導入することが厳しく制限されています。このレート制限克服する方法はありますがコンピューティング リソースの改善なしには真の進歩は得られない可能性があります

費用を負担する

OpenAIAnthropicなどの企業モデルユーザーがアクセスできるようにするパブリックLLM APIでは、 1分あたりに処理できるトークン(テキストの単位の数、1分あたりのリクエスト数 1日あたりのリクエスト数に厳しい制限が課せられています。

OpenAI GPT-4へのAPI呼び出しは現在、 1 分あたり3リクエスト( RPM ) 1 日あたり200リクエスト 1 分あたり最大10,000トークン( TPM )に制限されています。トップギアでは10,000 RPMが可能で制限は300,000 TPMです

このレート制限により、企業分数百万のトークンを処理する必要がある規模な本番アプリケーション最先端のLLM を使用することは事実上不可能になります。リクエストの数は増え続け、数分、あるいは数時間もかかり、リアルタイム処理は不可能でした。

ほとんどの組織は、大規模にLLM を安全かつ効果的に導入することに依然として苦労しています。しかし、データの機密性や内部プロセスに関する課題に対処してもレート制限頑固な障壁となります。製品の使用状況とデータが蓄積されるにつれて、 LLMを中心に製品を開発しているスタートアップはすぐにボトルネックに遭遇しますが、大規模なユーザーベースを持つ大企業では最も制限が厳しくなります。特別なアクセスメカニズムがなければアプリケーション機能できません

何をするか

レート制限の回避

1 つのアプローチは、レート制限テクノロジーを完全にバイパスすることですたとえば、一部の特殊用途の生成AIモデルにはLLMボトルネックがありません。英国オックスフォードに拠点を置くスタートアップ企業Diffblue は、レート制限のない強化学習テクノロジーを活用しています。 1 つの処理を非常に効率的に、そして数百万行に及ぶ可能性のあるコードにわたって実行します。開発者よりも250倍速くJavaユニット テストを自動的に作成し開発者よりも10倍速くコンパイルします

Diffblue Coverによって記述されたユニット テストを使用すると、複雑なアプリケーションをすばやく理解できるため、企業もスタートアップ企業も自信を持って革新を進めることができます。これは、レガシーアプリケーションをクラウド移行するのに最適ですまた、人間によるレビューを必要とせずに、新しいコードを自律的に記述し既存のコードを改善し CI/CDパイプラインを高速化し変更に関連するリスクに関する深い洞察を提供することもできます。それは悪くないですね。

もちろん LLMに頼らざるを得ない企業あります彼らにはどんな選択肢があるのでしょうか?

コンピューティングリソースを増やす

1 つの選択肢、会社のレート制限の引き上げを要求することですこれは今のところうまく機能していますが、根本的な問題は、多くのLLMプロバイダーが実際に提供できる追加機能を持っていないことです。これが問題の核心です。 GPU の可用性は、 TSMC などのファウンドリから供給されるシリコンウェハーの総数に依存します。主要 GPU メーカーである Nvidia は、大規模な推論に数千個のGPUを連結して使用するAIワークロードからの爆発的な需要を満たすのに十分なチップを調達することができません

GPU の供給を増やす最も直接的な方法は、ファブと呼ばれる新しい半導体製造工場を建設することです。しかし新しい工場の建設には200億ドルの費用がかかり、建設には何年もかかります。インテル、サムスンファウンドリー、TSMC、テキサスインスツルメンツなどの大手チップメーカーは、米国に新たな半導体生産施設を建設している。今のところみんなにできるのは待つことだけです

その結果、GPT-4 を活用した実際の本番環境の展開はほとんどありません。 GPT-4 が実際に導入される環境の範囲は限られており、LLM はコア製品コンポーネントとしてではなく、補助機能として使用されています。ほとんどの企業はまだパイロットと概念実証を評価している段階です。レート制限を検討する前に、 LLM 自体をエンタープライズ ワークフローに統合する必要があります

答えを見つける

GPU の制約によりGPT-4 の処理能力が制限されるため、多くの企業が他の生成AI モデルを使用するようになりましたたとえば、 AWS にはトレーニングと推論(トレーニング後のモデルの実行)専用の独自のチップがあり、顧客に高い柔軟性を提供します。重要なのは、すべての問題に最も強力で高価なコンピューティング リソースが必要なわけではないということです。 AWS では、Titan Light など、より安価で調整しやすいさまざまなモデルを提供しています。一部の企業は、Meta の Llama 2 のようなオープンソース モデルを微調整するなどの代替手段を模索していますプロンプトにコンテキストを添付して応答を生成する必要がある検索拡張生成( RAG )を含む単純なユースケースではそれほど強力ではないモデルで十分です。

より高い制限を持つ複数の古いLLM間でのリクエストの並列化、データ チャンク、モデル蒸留などの他の手法も役立ちました。コストを削減し、推論の速度を上げることができる技術がいくつかあります量子化により、モデル内の重み (通常は 32 ビットの浮動小数点数) の精度が低下します。これは新しいアプローチではありません。たとえば Googleの推論ハードウェアであるTensor Processing Unit (TPU) は、重みが 8 ビットの整数に量子化されたモデルでのみ動作します。モデルの精度は多少低下しますが、サイズは大幅に小さくなり、実行速度も速くなります

スパース モデルと呼ばれる新しい人気の手法は、トレーニングと推論のコストを削減でき、モデル蒸留よりも労力が少なくて済みます。 LLM は、多数の小さな言語モデルの集合体のようなものですたとえば GPT-4にフランス語質問する、モデルのフランス語処理部分のみが使用され、スパースモデルはこれを活用します。

モデルのフランス語のサブセットのみをトレーニングするスパース トレーニングを実行できます。また、モデルのフランス語の部分のみを実行するスパース推論を実行できます量子化と併用すると、 LLMからGPUではなくCPUで実行できる小さな特殊モデルを抽出できます GP T-4 が有名なのは、より限定的でより特殊なモデルではなく、汎用テキスト ジェネレーターであることです

ハードウェア面では、 AIワークロードに特化した新しいプロセッサ アーキテクチャにより、効率性が向上することが期待されます。 Cerebras は機械学習最適化された巨大なウエハースケールのエンジン構築しており、一方 Manticore はメーカーが廃棄した放置された GPU チップを再利用して実用的なシリコンを提供しています

最終的に、最大の利益は、さらに少ない計算量を必要とする次世代のLLMから得られるでしょう最適化されたハードウェア組み合わせることで、将来のLLM は現在のレート制限の障壁を突破できる可能性があります。現在、エコシステムは、LLM の機能を活用しようと競い合う多数の熱心な企業によって圧倒されています AI新たな道を切り開きたいと考えている人は、 GPU の供給がさらに緩和されるまで待つ必要があるかもしれません。皮肉なことに、これらの制限は生成AIを取り巻く誇大宣伝を和らげ業界がそれを効率的かつ経済的に使用するための前向きなパラダイムに落ち着く時間を与えるのに役立つかもしれませ

原題:大規模言語モデルにおける最大のボトルネック、著者: Matt Asay

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ファーウェイと4つの主要パートナーが共同でAscend AIの大規模モデルトレーニングおよびプッシュ統合ソリューションをリリース

Ascend人工知能産業サミットフォーラムが上海で開催されました。フォーラムでは、ビッグモデルの共同...

推奨システムにおける自然言語処理 (NLP) の応用

[[195357]]パーソナライズされた推奨はビッグデータ時代に欠かせない技術であり、電子商取引、情...

...

私はAIロボットの何希2号です。私の話を聞きたいですか?

「インテリジェント ブレイン」センターの場所 - AIXO ビル、地下 21 階、タイムトラベル研...

顔認識技術と表情認識の最新研究の紹介

[[351523]] 1. 顔認識技術の紹介生体認証技術として、顔認証は非侵入的、非接触、フレンドリ...

72歳の男性がコーラを飲みながら脳で麻雀をする:これはすべて脳コンピューターインターフェース技術のおかげです

浙江省メディアの報道によると、現在浙江大学医学部第二付属病院で治療を受けている72歳の張さんは、意識...

最も強力なモザイク除去AIが登場。数分でモザイクのない世界に戻り、ピクセルスタイルの「Minecraft」キャラクターも復元できます。

AI の作成は複雑なプロセスかもしれませんが、AI を破壊するには 1 つのステップだけが必要です...

ダブル11プロモーション?貪欲アルゴリズムを使用して解決してください。

[[351760]]この記事はWeChatの公開アカウント「Java Chinese Commun...

2018 年に「破壊的な」変化をもたらす 12 のテクノロジー

[[223288]]人工知能から拡張現実まで、今年、将来を見据えた企業のビジネスを牽引する破壊的なテ...

...

AIはHRにどのように役立つのでしょうか?

全国的に人材不足が進む中、テクノロジーは雇用者が厳しい市場で最高の人材を見つけるのに役立ちますが、人...

Google の最新画像処理ソフトウェア Imagen 2 がリリースされ、実機テストでは DALL·E 3 や Midjourney に勝利しました。

質問: 下の画像は AI によって生成された画像ですか、それとも写真ですか?この質問をしなければ、ほ...

カスタマー サービス チーム向けの人工知能と機械学習ツール

どのビジネスリーダーも、顧客サービスがビジネスの最優先事項になっていることを認めるでしょう。同社は、...