AI専用SoCチップのIP要件の分析

[[386797]]

この記事はWeChatの公開アカウント「Smart Computing Chip World」から転載したもので、著者はsynopsysです。この記事を転載する場合は、Smart Computing Core World 公式アカウントまでご連絡ください。

現在、AI コンピューティング開発をサポートする半導体には、独立アクセラレータとインメモリ/ニアメモリコンピューティングテクノロジの 2 種類があります。スタンドアロンアクセラレータは何らかの方法でアプリケーションプロセッサに接続されており、デバイスにニューラルネットワークハードウェアアクセラレーションを追加するアプリケーションプロセッサもあります。独立したアクセラレータは、チップ間の相互接続を通じてハードウェアを複数のチップに拡張し、最高のパフォーマンスを実現するという大きな革新を実現できます。インメモリおよびニアメモリコンピューティングテクノロジは、主にエネルギー消費を削減するというニーズを満たします。

スタンドアロン半導体で先駆的に開発されたプロセッサとアーキテクチャを活用してニューラルネットワークプロセッサを強化することで、デバイス上の AI アクセラレーションが強化されています。半導体のリーダー企業、業界の大手企業、そして何百ものスタートアップ企業が、クラウドサーバークラスターから各キッチンのホームアシスタントまで、あらゆる業界の多数の新しい SoC やチップセットに AI 機能を導入するために懸命に取り組んでいます。

ディープラーニングニューラルネットワークはさまざまなアプリケーションで使用されており、使用する人々に強力な新しいツールを提供します。たとえば、高度なセキュリティ脅威分析、セキュリティ侵害の予測と防止、潜在的な購入者のショッピングジャーニーを予測して広告主が販売プロセスを特定して合理化できるようにするために使用できます。これらは、最新の GPU および AI アクセラレータ半導体テクノロジを組み込んだサーバーファームで実行されるデータセンターアプリケーションの 2 つの例です。

しかし、AI 設計はデータセンター内に収まりません。多くの新しい機能は、物体や顔を検出するビジョンシステム、人間と機械のインターフェースを改善するための自然言語理解、コンテキスト認識など、センサー入力の組み合わせに基づいて何が起こっているかを理解します。これらのディープラーニング機能は、自動車、モバイル、デジタルホーム、データセンター、モノのインターネット (IoT) など、あらゆる業界の SoC に追加されています。

最高のパフォーマンスを実現するために、クラウド AI アクセラレーションをターゲットとする SoC 設計者は、パフォーマンスを最大化して大きな問題を解決することに取り組んでいます。 AI トレーニングと最も複雑な AI アルゴリズムを最高の精度で実行するには、高いプロセッサパフォーマンス (TOPS) が必要です。これにより、トレーニング時間が短縮され、推論に必要なエネルギーが削減されるため、最終的にはコストが削減されます。クラウドコンピューティング市場向けのこれらの半導体ハードウェアのイノベーションにより、これまで何年もかかると考えられていた開発が可能になり、特定やワクチン開発の形で今日最も懸念される健康問題のいくつかに対する治療法を見つけるなど、ブレークスルーまでの時間が短縮されています。

ただし、すべての問題がクラウドで解決できるわけではないため、多くの AI アクセラレータアーキテクチャはエッジコンピューティングとオンデバイス AI をサポートするように変更されています。エッジサーバーとプラグインアクセラレータカードでは、コストと電力消費がさらに重要になります。データ収集ポイントのアプリケーションや「エッジデバイスアクセラレータ」に近づくにつれて、エネルギー消費単位あたりのパフォーマンスの最適化が最も重要な設計要件になります。

エッジデバイスアクセラレータのリソース、処理、メモリは限られているため、トレーニング済みのアルゴリズムを圧縮し、必要な精度を維持しながら電力とパフォーマンスの要件を満たすように調整する必要があります。最大の AI 市場セグメントはオンデバイス AI であり、自動車の ADAS、デジタル TV の超高解像度、オーディオおよび音声認識、スマートスピーカーの言語理解などのアプリケーションに影響を与えます。このようなアプリケーションには、顔検出、顔認識、物体認識を実行するカメラが含まれます。

たとえば、一部の業界では、カメラに搭載されたオンデバイス AI が産業用アプリケーションの欠陥分析を実行できます。オンデバイス AI カテゴリには、携帯電話や AR/VR ヘッドセットなどのコンシューマーアプリケーションも含まれ、ナビゲーション、超高解像度、音声理解、物体/顔検出など、前述の AI 機能の多くをコンパクトなサイズで実現できます。モバイルデバイスは、クラウドコンピューティングで使用されるものと同様の最新のプロセスノードにより、テクノロジーの先頭に立ち続けています。エッジおよびデバイスコンピューティングはパフォーマンスを最適化し続けます。市場に応じて、従来のプロセスノードを使用することもできます。

2020年現在、AI市場はまだ初期段階にあり、今後数年間で急速に成長すると予想されています。 100W を超えるクラウド AI SoC のベンダーには、市場リーダーである NVIDIA や Intel が含まれます。これらのメーカーは先行者利益を通じて支配的な地位を獲得しました。多くのスタートアップ企業は、これらのソリューションよりも何倍も効率的になることを望んでいます。さらに、Google、TPU、Alibaba、Amazon、Baiduなどのシステム企業も独自のチップを設計し、最適化を通じて自社のビジネスモデルをサポートしています。これらの企業はすべて、顧客にクラウドレンタルサービスを提供しており、クラウド上でトレーニングや推論を実行できます。

エッジコンピューティング (>5W) SoC は通常、既存のクラウドソリューションまたは修正されたクラウドアーキテクチャを活用しますが、多くのスタートアップ企業は、パフォーマンスにおいて現在のソリューションをはるかに上回りながら、より低消費電力でより最適化されたソリューションでニッチ市場を見つけています。

図 2 では、5W 未満の市場には、デバイス側アクセラレータとスタンドアロンアクセラレータの両方が含まれており、AIoT アクセラレータとも呼ばれ、急速に成長しています。デバイス側ソリューションでは、出荷台数ではモバイル市場が優勢ですが、テスラ ASIC などの自動車市場も急速に成長しています。 AIoT アクセラレータは、5W 未満の市場ではまだわずかな割合しか占めていませんが、Perceive、Kneron、Gyrfalcon、Brainchip、GrAI Matter Labs などの企業が突破口を開こうとしています。

AI 市場セグメントごとに目標と課題が異なります。クラウド AI SoC の設計者は、80 億以上のパラメータを含む最も複雑な新しいアルゴリズムに対応しながら、コストのかかるトレーニング時間を短縮することに重点を置いています。エッジコンピューティング AI 設計では、電力消費と遅延の削減に重点を置いています。 5G とデバイス上の AI は低遅延を実現するように設計されていますが、5G の場合、これらの AI はモデルの圧縮には使用されないため、非常にコストがかかり、時間のかかる設計プロセスになる可能性があります。オンデバイス AI の場合、推論機能とパフォーマンスを最大化するためにモデルを圧縮する必要があります。

最後に、AIoT スタンドアロンアクセラレータの設計者は、より革新的な技術を使用し、TOPS/W のリーダーになる傾向があります。彼らは、密度の向上、レイテンシの削減、ストレージ係数の変動への対応に関してより多くのリスクを負っており、また、プルーニングおよび圧縮アルゴリズムの専門家であり、顧客向けのアルゴリズムの実装により、独自の差別化機能を提供しています。

これらの固有の課題に加えて、AI 市場は次のようないくつかの主要な課題に直面しています。

行列乗算やドット積などの必要な数学演算をより効率的に実行するために、特殊な処理能力を追加します。

重みや活性化など、ディープラーニングに必要な固有の係数を処理するための効率的なメモリアクセス

チップ間、チップとクラウド、センサーデータ、アクセラレータとホスト間の接続のための信頼性が高く実績のあるリアルタイムインターフェース

データを保護し、ハッカーの攻撃やデータ破損を防ぐ

AI モデルは大量のメモリを使用するため、チップのコストが増加します。ニューラルネットワークのトレーニングには数 GB から 10 GB のデータが必要になる場合があり、容量要件を満たすには最新の DDR テクノロジを使用する必要があります。たとえば、画像ニューラルネットワークである VGG-16 では、トレーニング時に約 9 GB のメモリが必要です。より正確なモデル VGG-512 のトレーニングには 89 GB のデータが必要です。 AI モデルの精度を向上させるために、データサイエンティストはより大きなデータセットを使用します。繰り返しになりますが、これにより、モデルのトレーニングに必要な時間が長くなったり、ソリューションのメモリ要件が増加したりする可能性があります。

大量の並列行列乗算演算が必要であり、モデルのサイズと必要な係数の数が多いため、高帯域幅アクセス機能を備えた外部メモリが必要です。これらの需要を満たすために、高帯域幅メモリ (HBM2) や将来の派生製品 (HBM2e) などの新しい半導体インターフェース IP が急速に採用されています。高度な FinFET テクノロジにより、より大規模なオンチップ SRAM アレイと、カスタマイズされたメモリ対プロセッサおよびメモリ対メモリインターフェイスを備えた独自の構成が可能になります。これらは、人間の脳をより正確に再現し、メモリの制約を取り除くために開発されています。

AI モデルは圧縮できます。このテクノロジーは、携帯電話、自動車、IoT アプリケーションのエッジにある SoC の制約されたメモリアーキテクチャ上でモデルが実行されることを保証するために必要です。圧縮は、結果の精度を低下させることなく、プルーニングと量子化の技術を使用して実行されます。これにより、従来の SoC アーキテクチャ (LPDDR 付き、または場合によっては外部メモリなし) でニューラルネットワークをサポートできるようになりますが、消費電力やその他の側面でトレードオフが発生します。これらのモデルが圧縮されるにつれて、不規則なメモリアクセスと不規則な計算強度が増加し、システムの実行時間と待ち時間が長くなります。その結果、システム設計者は革新的な異種メモリアーキテクチャを開発しています。

AI SoC設計ソリューション

SoC に AI 機能を追加すると、今日の SoC アーキテクチャの AI の弱点が浮き彫りになります。非 AI アプリケーション向けに構築された SoC にビジョン、音声認識、その他のディープラーニングおよび機械学習アルゴリズムを実装する場合、リソースが不足します。 IP の選択と統合により、AI SoC のベースライン効率が明確に定義され、それが AI SoC の「DNA」、つまり本質を構成します。たとえば、カスタムプロセッサまたはプロセッサアレイを導入すると、AI アプリケーションに必要な大規模な行列乗算を高速化できます。

クラウド AI アクセラレータ

帯域幅と信頼性の課題に対処するために、クラウド AI アクセラレータ SoC 設計者は、チップ間通信用の高速 SerDes ダイツーダイまたは PCIe とともに、HBM2e と HBM3 を統合しています。 AI モデルの暗号化と認証をサポートする高速セキュリティプロトコルアクセラレータなどのセキュリティの役割がますます明らかになっています。組み込みメモリソリューションのマルチポートメモリ (TCAM) と SRAM コンパイラを組み合わせることで、リークを削減できます。

エッジコンピューティング AI アクセラレータ

多くのエッジコンピューティングアプリケーションの主な目標は、低レイテンシに関連する新しいサービスの提供です。低レイテンシをサポートするために、多くの新しいシステムでは、PCIe 5.0、LPDDR5、DDR5、HBM2e、USB 3.2、CXL、NVMe over PCIe、および次世代標準に基づくその他のテクノロジーを含む最新の業界インターフェイス標準の一部を採用しています。各テクノロジーは、前世代と比較して帯域幅を増やすことでレイテンシを削減します。

レイテンシを短縮する動きよりもさらに顕著なのは、これらすべてのエッジコンピューティングシステムに AI アクセラレーションを追加する動きです。 AI アクセラレーションは、x86 拡張 AVX-512 Vector Neural Network 命令 (AVX512 VNNI) などの新しい命令を通じて一部のサーバーチップによって提供されるか、Qualcomm DSP コアなどのモバイルアプリケーションプロセッサによって提供されます。多くの場合、この追加の命令セットは、目的のタスクに必要な低レイテンシと低電力を実現するには不十分であるため、ほとんどの新しいシステムにはカスタム AI アクセラレータも追加されます。これらのチップに必要な接続は、通常、アクセラレータに接続できる最高帯域幅のホストへの接続です。たとえば、これらの帯域幅要件はレイテンシに直接影響するため、PCIe 5.0 は急速に広く採用されるようになり、最も一般的には複数の AI アクセラレータを使用した何らかのスイッチ構成で採用されています。

CXL は、レイテンシを削減し、キャッシュの一貫性を提供するために特別に開発された、急速に普及しつつあるもう 1 つのインターフェースです。 AI アルゴリズムには異機種コンピューティング要件と大量のメモリ需要があるため、キャッシュの一貫性を確保することが重要です。

ローカルゲートウェイおよび統合サーバーシステム以外では、通常、単一の AI アクセラレータでは十分なパフォーマンスが得られないため、これらのアクセラレータは、非常に高帯域幅のチップ間 SerDes PHY を使用して拡張する必要があります。新しくリリースされた PHY は、56G および 112G 接続をサポートします。 AI スケーリングをサポートするためのチップ間の要件は、すでに複数のプロジェクトで実装されています。標準ベースの実装では、イーサネットはスケーラブルなオプションになる可能性があり、この概念に基づくいくつかのソリューションがすでに利用可能です。ただし、今日の多くの実装では、独自のコントローラーを通じて最高帯域幅の SerDes が利用されています。異なるアーキテクチャにより、サーバーシステムの将来の SoC アーキテクチャが変更され、現在実装されている 4 つの異なる SoC ではなく、ネットワーク、サーバー、AI、ストレージコンポーネントがより統合された 1 つの SoC に統合される可能性があります。

オンデバイスAI

デバイス上の AI 処理に関する最大の懸念事項の 1 つは、ソフトウェアの機能です。アルゴリズムは急速に変化します。設計者は、Tensorflow や Caffe などの従来のツールを使用して初期モデルをトレーニングし、それをデバイスのプロセッサにマッピングする必要があります。多くのプロジェクトでは、高い精度を維持しながら特定のプロセッサ向けに最適化するグラフマッピングツールや、圧縮およびプルーニングツールを使用することで、何ヶ月もの時間と労力を節約できます。これらのツールがなければ、ソフトウェアやシステムをハードウェアと同じ速さで設計することはできません。

最適化されたメモリ構成により、デバイス上の AI システムを最適化できます。デバイス自体のアーキテクチャ設計を開始する前に、設計者は複数の IP 権限と構成をシミュレートできるツールを必要とします。実際のアルゴリズムを実行しながらプロセッサを利用してオンチップおよびオフチップのメモリをエミュレートすることで、設計者は設計を開始する前に最も効率的なアーキテクチャを実現できます。設計者の中にはシステムを最適化する方法を知らない人もいるため、同じプロセスノードに対して複数世代の製品を開発する必要があり、何ヶ月もの時間を無駄にしてしまうことがよくあります。

最後に、デバイス上の AI システムの視覚にはセンサーの接続性が重要です。 MIPI CSI-2 は、CMOS イメージセンサーの最も一般的な実装です。新しい V3 仕様は、機械認識機能を向上させ、より高い精度をサポートし、より高品質の画像を提供するように設計されています。特に、インテリジェントな機能により、全体像を提供するのではなく、必要なときにのみ新しいデータが提供されるため、効率性の向上に役立ちます。 I3C は複数のセンサーを統合し、複数のシステム入力ソースをサポートする低コストの方法を提供します。

AI 機能が新しい市場に参入するにつれて、統合のために選択された IP は AI SoC にとって重要なコンポーネントを提供します。しかし、IP を超えて、設計者は AI の専門知識、サービス、ツールを活用して、設計の納期厳守、エンドカスタマーへの高品質なサービスと価値の確保、そして新しい革新的なアプリケーションのニーズへの対応を実現することに明確な利点を見出しています。

<<: Java プログラミングスキル - データ構造とアルゴリズム「循環リンクリストとジョセフ問題」

>>: ガートナー：2025年にはベンチャーキャピタル投資の75%がAIを活用する