GoogleのAIチップのアップグレード：大規模モデルと生成AIをターゲットとし、主流のディープラーニングフレームワークを統合

Google は、AI を使用して最適化された新世代の人工知能とインフラストラクチャの開発をリードする Transformer アーキテクチャなど、業界をリードする AI 機能を常に構築してきました。 Google Cloud は、GPU や TPU などの高度な AI インフラストラクチャサービスを提供することに取り組んでいます。

現地時間8月29日、Google CloudはGoogle Cloud Next '23年次カンファレンスを開催し、新しいTPU製品であるCloud TPU v5eを発表しました。これはAIに最適化されたインフラストラクチャ製品ポートフォリオであり、これまでで最もコスト効率が高く、汎用性が高く、スケーラブルなCloud TPUになります。現在プレビュー版が利用可能です。

TPU v5e は、Google Kubernetes Engine (GKE)、モデルや AI アプリケーションを構築するための開発者ツールである Vertex AI、Pytorch、JAX、TensorFlow などのディープラーニングフレームワークと統合でき、使いやすく使い慣れたインターフェースが提供され、簡単に始められることがわかりました。

Google Cloud は、大規模な AI モデルのサポートを提供するために、NVIDIA H100 GPU をベースにした GPU スーパーコンピューターである A3 VM もリリースしました。この製品は9月に一般発売される予定です。

Google CEO ピチャイ。

Google の主任科学者であり著名な学者であるジェフ・ディーン氏のツイート。

また、このイベントで Google は、Meta や Anthropic (Llama 2 や Claude 2 など) などの企業の AI ツールを自社のクラウドプラットフォームに追加し、強力な生成 AI 機能を自社のクラウド製品に統合すると発表しました。現在、Llama 2 と Claude 2 を含め、Google Cloud のお客様は 100 を超える強力な AI モデルとツールにアクセスできます。

TPU v4 と比較して、TPU v5e の改善点は何ですか?

今回Google CloudがリリースしたTPU v5eの性能や使いやすさはどのようなものなのでしょうか？引き続き見ていきましょう。

公式データによると、Cloud TPU v5e は中規模から大規模のトレーニングと推論に高いパフォーマンスとコスト効率をもたらします。この世代のTPUは、大規模言語モデルや生成AIモデル向けに特別に設計されていると言えます。前世代のTPU v4と比較すると、1ドルあたりのトレーニング性能は最大2倍、1ドルあたりの推論性能は最大2.5倍向上しています。 TPU v5e は、TPU v4 の半分以下のコストで、より多くの組織に、より大規模で複雑な AI モデルをトレーニングおよび展開する機会を提供します。

TPU v5e チップ。

技術革新のおかげで、これらのコストメリットを実現するためにパフォーマンスや柔軟性を犠牲にする必要がないことは注目に値します。 Google Cloud は、TPU v5e ポッドを使用してパフォーマンス、柔軟性、効率性のバランスを取り、最大 256 個のチップを相互接続して、合計 400 Tb/s を超える帯域幅と 100 petaOps の INT8 パフォーマンスを実現しています。

TPU v5e の 2D スライスの詳細。

TPU v5e は汎用性も高く、1 つのチップ上のチップ数が 1 ～ 256 の 8 つの異なる仮想マシン構成をサポートしているため、顧客は適切な構成を選択して、さまざまなサイズの大規模な言語モデルや生成 AI モデルをサポートできます。

TPU v5e は、機能性とコスト効率の向上に加え、使いやすさもまったく新しいレベルに到達しています。お客様は、Google Kubernetes Engine (GKE) を使用して、TPU v5e および TPU v4 上の大規模な AI ワークロードオーケストレーションを管理できるようになり、AI 開発の効率が向上します。シンプルなマネージドサービスを好む組織向けに、Vertex AI では、さまざまなフレームワークとライブラリのトレーニングに Cloud TPU 仮想マシンの使用をサポートするようになりました。

さらに、前述のように、Cloud TPU v5e は、JAX、PyTorch、TensorFlow などの主要な AI フレームワークや、人気のオープンソースツール (Huggingface の Transformers と Accelerate、PyTorch Lightning と Ray) の組み込みサポートを提供します。今後の PyTorch/XLA 2.1 バージョンでは、TPU v5e と、大規模モデルトレーニング用のモデリングやデータ並列処理などの新機能がサポートされる予定です。

最後に、トレーニングジョブのスケーリングを容易にするために、Google Cloud は TPU v5e プレビューでマルチスライステクノロジーを導入しました。これにより、ユーザーは物理的な TPU ポッドの範囲を超えて AI モデルを簡単にスケーリングし、最大数万個の TPU v5e または TPU v4 チップに対応できるようになりました。

複数の TPU ポッドスライスを活用して、線形パフォーマンスのスケーラビリティを実現します。

これまで、TPU を使用したトレーニングジョブは単一の TPU チップに制限されており、TPU v4 の場合、スライスの最大数は 3,072 でした。 Multislice を使用すると、開発者は、単一のポッド内またはデータセンターネットワーク (DCN) 上の複数のポッド間で ICI (In-Chip Interconnect) テクノロジーを活用して、ワークロードを数万個のチップに拡張できます。

この多層スライス技術は、Google の最先端の PaLM モデルを支えています。現在、Google Cloud のお客様もこのテクノロジーを体験できます。

アップグレードされた TPU v5e はお客様から高い評価を受けています。 AssemblyAI の技術担当副社長 Domenic Donato 氏は、TPU v5e を使用して ASR (自動音声認識) モデルの推論を実行すると、1 ドルあたりのパフォーマンスが市場の同様のソリューションの 4 倍になると述べています。この強力なハードウェアとソフトウェアの組み合わせにより、よりコスト効率の高い AI ソリューションを顧客に提供できます。

Google Cloud が AI インフラストラクチャを継続的にアップグレードするにつれて、Google Cloud サービスを選択する顧客がますます増えるでしょう。 Googleの親会社Aplabetの紹介によると、生成AIスタートアップの半数以上がGoogleのクラウドコンピューティングプラットフォームを使用している。

Google にとって、Cloud TPU v5e は、製品モデルのさらなる変革とクラウド顧客の支援の始まりとなります。

<<: マルチモーダル大規模モデル機能評価: Bard は必要なものですか?

>>: 学者は大喜び！MetaがPDFと数式を変換できるOCRツールをリリース