3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

高性能プロセッサに関する研究は、ムーアの法則を継続する新たな方向性が到来していることを示しています。各世代のプロセッサは、前世代よりも優れたパフォーマンスを発揮する必要があり、それはシリコン チップ上にさらに多くのロジック回路を統合することも意味します。しかし、チップ製造には 2 つの問題があります。トランジスタと、それが構成するロジックおよびメモリのブロックを縮小する能力が低下していること、そしてチップがサイズの限界に達していることです。

ムーアの法則。画像出典: wikipedia

リソグラフィーツールは、最上位のNvidia GPUとほぼ同じサイズである約850平方ミリメートルの領域しか印刷できません。

近年、システムオンチップの開発者は、より大きなチップ設計を小さなチップに分割し、それらを同じパッケージ内で接続し始めています。 CPU では、接続技術は主に 2.5D パッケージングであり、チップレットが互いに隣接して配置され、短くて高密度の相互接続を使用して接続されます。ほとんどのメーカーが 2.5D「チップレット間」通信規格に同意したため、この統合の勢いは今後も拡大し続けるでしょう。

しかし、データストレージのニーズが増加するにつれて、同じチップに大量のデータを保存するには、より短く高密度な接続が必要になり、これは 1 つのチップを別のチップの上に積み重ねることによってのみ実現できます。 2 つのチップを接続するということは、チップ間の 1 平方ミリメートルあたり数千の接続を作成することを意味します。

これを実現するには多くの革新が必要でした。エンジニアは、スタック内の 1 つのチップが過熱して別のチップを破壊しないようにする方法や、たまに不良チップが発生してシステム全体がダウンしないようにする方法などを考え出す必要があったからです。

最近、半導体担当のIEEE Spectrum上級編集者サミュエル・K・ムーア氏が、3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法を紹介する記事を執筆し、主にAMD、Graphcore、Intelの業界をリードする優位性を紹介しました。

AMD ゼン3

パーソナルコンピュータには、非常に大規模なアプリケーションやデータ集約型の作業を高速化するために、メモリを追加するオプションが長い間存在してきました。 AMD の次世代 CPU チップレットは、3D ダイ スタッキングによりこのオプションを提供します。

Zen 2 と Zen 3 のプロセッサ コアはどちらも同じ TSMC 製造プロセスを使用しているため、トランジスタや相互接続などのサイズは同じです。 AMD はアーキテクチャに多くの変更を加え、追加のキャッシュ メモリがなくても、Zen 3 は平均 19% のパフォーマンス向上を実現します。

Zen 3 アーキテクチャのハイライトの 1 つは、複数のチップを相互に接続する方法であるシリコン貫通ビア (TSV) を使用したチップの垂直スタッキングであることは特筆に値します。 TSV は、Zen 3 の最高レベルのキャッシュ、つまりコンピューティング チップレットの中央にあり、8 つのコアすべてで共有される L3 と呼ばれる SRAM ブロックに組み込まれています。

データ量の多いプロセッサでは、Zen 3 ウェーハの裏面が TSV が露出するまで薄くされ、その後、銅の冷間溶接に似たプロセスであるハイブリッド接合を使用して、64 メガバイトの SRAM チップレットが露出した TSV に接続されます。その結果、9 ミクロンという高密度の接続が実現します。最後に、構造の安定性と熱伝導のために、空のシリコン チップが Zen 3 CPU ダイの残りの部分に取り付けられます (ダイまたは CPU ダイは、プロセッサの製造プロセス中にウェーハから切り取られた小さな四角形を指します)。

AMD 3D V-Cache テクノロジーは、64 メガバイトの SRAM キャッシュ (赤) と 2 つの空のファブリック チップレットを Zen 3 コンピューティング チップレットにスタックします。

「CPU ダイの隣に空のシリコン チップレットを配置してメモリを追加することは、データがプロセッサ コアに到達するまでに時間がかかりすぎるため、お勧めできません。L3 キャッシュ サイズが 3 倍になったにもかかわらず、3D V-Cache ではレイテンシが 4 クロック サイクルしか追加されません。これは 3D スタッキングによってのみ可能になります」と、AMD のシニア デザイン エンジニアである John Wuu 氏は述べています。

大容量のキャッシュはハイエンドのゲームで役立ち、3D V-Cache を搭載したデスクトップ Ryzen CPU では 1080p ゲームが平均 15% 高速化されます。ウー氏は、ロジック機能の縮小に比べて、SRAM を縮小する業界の能力は低下していると指摘した。したがって、コンピューティング チップレットがムーアの法則の最前線に押し上げられる一方で、SRAM のスケーリングはより成熟した製造プロセスを使用して継続すると予測できます。

Graphcore Bow AI プロセッサー

3D 統合により、スタック内のチップにトランジスタがなくてもコンピューティングを高速化できます。英国を拠点とする AI コンピューター企業 Graphcore は、AI プロセッサに電力供給チップをインストールするだけで、システム パフォーマンスを大幅に向上させました。

電力供給シリコンの追加により、Bow と呼ばれる統合チップは、前世代のチップよりも高速 (1.85 GHz 対 1.35 GHz) かつ低電圧で動作できるようになります。これは、コンピューターがニューラル ネットワークを 40% 高速にトレーニングでき、前世代よりも 16% 少ないエネルギーでトレーニングできることを意味します。何よりも、ユーザーはこの改善を得るためにソフトウェアを変更する必要がありません。

電源管理ダイは、コンデンサとシリコン貫通ビアのスタックで構成されており、シリコン貫通ビアはプロセッサ チップに電力とデータを供給しますが、実際に違いを生み出すのはコンデンサです。 DRAM のビット ストレージ コンポーネントと同様に、これらのコンデンサはシリコンの深く狭い溝に形成されます。これらの電荷貯蔵庫はプロセッサのトランジスタに非常に近いため、電力供給がスムーズになり、プロセッサ コアはより低い電圧でより高速に動作できるようになります。

電力供給チップがなければ、プロセッサは 1.85 GHz で動作するために動作電圧を公称レベルより高くする必要があり、より多くの電力を消費することになります。パワーチップを使用することで、所定のクロック周波数を実現し、消費電力を抑えることもできます。

Graphcore Bow AI アクセラレータは 3D チップスタッキングを使用してパフォーマンスを 40% 向上させます。

Bow の製造工程は独特です。ほとんどの 3D スタッキングは、チップレットを別のチップレットに接着することによって行われます。チップレットの 1 つはまだウェーハ上にあり、チップオンウェーハと呼ばれます (上記の AMD の Zen 3 を参照)。代わりに、ボウ氏はTSMCの「ウェーハ・ツー・ウェーハ」プロセスを使用した。このプロセスでは、あるタイプのウェーハ全体を別のタイプのウェーハ全体に結合し、その後チップに切り分ける。

グラフコア社の最高技術責任者サイモン・ノウルズ氏は、このチップは市場で初めてこの技術を採用したものであり、この技術により、ウエハーベースのチッププロセスで達成できるものよりも高密度の2つのダイ間の接続が可能になると語った。

ボウ-2000

電力供給チップレットにはトランジスタはありませんが、近い将来に登場する可能性があります。ノウルズ氏は、この技術を電力伝送のみに使用するのは単なる第一歩に過ぎず、近い将来にはさらに進歩するだろうと述べた。

詳細については、https://spectrum.ieee.org/graphcore-ai-processor を参照してください。

インテルのポンテ・ヴェッキオ・スーパーコンピュータチップ

Aurora スーパーコンピュータは、エクサフロップスの壁(1 秒あたり 10 億回の高精度浮動小数点計算)を突破する米国初の高性能コンピュータ (HPC) の 1 つとなるように設計されています。 Aurora のこれらのパフォーマンス目標を達成するために、Ponte Vecchio は 47 枚のシリコン ウェハー上に 1,000 億を超えるトランジスタを 1 つのプロセッサに詰め込みました。 Intel は 2.5D と 3D の両方の技術を使用して、3,100 平方ミリメートルのシリコン (ほぼ 4 つの Nvidia A100 GPU のサイズ) を 2,330 平方ミリメートルのスペースに押し込みました。

Intel の Ponte Vecchio プロセッサは、47 個のチップレットを 1 つのプロセッサに統合しています。

各 Ponte Vecchio は、実際には Intel の 2.5D 統合テクノロジ Co-EMIB を使用して互いに接続された 2 セットのミラー チップであり、2 つの 3D チップレット スタック間に高密度相互接続ブリッジを形成します。 「ブリッジ」自体は、カプセル化する有機基板に埋め込まれた小さなシリコン片であり、シリコン上の相互接続の密度は有機基板上の密度の 2 倍になることがあります。 Co-EMIB ダイは、高帯域幅メモリと I/O チップレットをベース タイル (他のチップレットが積み重ねられる最大のチップレット) に接続します。

ベース タイルは、コンピューティング チップレットとキャッシュ チップレットが積み重ねられる、Foveros と呼ばれる Intel の 3D スタッキング テクノロジを使用します。この技術により、2 つのチップ間に 36 ミクロンのダイツーダイ垂直接続の高密度アレイが作成されます。信号と電力は、シリコンの大きな部分を直接貫通する幅広の垂直相互接続であるシリコン貫通ビアを通じてこのスタックに入ります。

フォベロス

8 つのコンピューティング タイル、4 つのキャッシュ タイル、およびプロセッサ冷却用の 8 つの空白タイルがすべてベース タイルに接続されています。ベース タイル自体は、キャッシュ メモリと、コンピューティング タイルがメモリにアクセスできるようにするネットワークを提供します。

インテルの研究者ゴメス氏はこう語った。「どれも簡単なことではありません。ポンテ・ヴェッキオは、歩留まり管理、クロック回路、熱制御、電力供給において革新を起こしてきました。」たとえば、Intel のエンジニアは、パッケージングを簡素化できるほど電流が低くなるように、プロセッサに通常よりも高い電圧 (1.8 ボルト) を供給することを選択しました。ベース タイルの回路はコンピューティング タイルの電圧を約 0.7 V まで下げるため、各コンピューティング タイルにはベース タイル内に独自の電源ドメインが必要です。鍵となるのは、同軸磁気集積インダクタと呼ばれる新しいタイプの高効率インダクタです。これらはパッケージ基板に組み込まれているため、コンピューティング タイルに電圧が供給される前に、回路はベース タイルとパッケージの間を実際に行き来します。

ゴメス氏は、2008年の最初のペタフロップス・スーパーコンピューターから今年のエクサフロップスまで14年かかり、3Dスタッキングなどの高度なパッケージング技術が計算能力の向上に役立つだろうと述べた。​

<<:  清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

>>:  なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

AIは「メイおばさん」を見つけられるのか?

[[283120]]インターネット全体が「メイおばさん」を探しているが、彼女が誰なのかは謎のままだ...

...

USTCのニューラルネットワークとエンドツーエンドのトレーニングフレームワークは、教育環境が学生の能力に与える影響を調査する

[[424271]]中国科学技術大学の研究者らは、教育コンテキスト認識型認知診断フレームワークを提案...

OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

「汎用人工知能」に関しては、OpenAIの科学者カルパシー氏が説明を行った。数日前、Karpathy...

人工知能の基礎技術は成熟し、AIは今後10年間で私の見方を完全に変えた

人工知能の黄金の10年基礎技術は基本的に安定しており、拡大シナリオは流行の10年を迎えています。中国...

AI人材が年間数百万ドルを稼ぐ理由

現在、ほぼすべてのテクノロジー大手が AI プロジェクトを実施しており、AI 時代に勝ち残るために、...

感染症の流行に直面して、AIがいかに有用であるかを実感した

インターネット時代では、テクノロジーの発展により、私たちの生活で利用できる手段が大幅に強化されました...

ボストン・ダイナミクスの最新倉庫ロボットは1時間あたり800個のレンガを移動できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

スマートな薬箱が登場したが、その背後にあるAIの能力を過小評価してはならない

薬を買うとき、自動販売機のように、セルフサービス機で直接注文して、必要なときにすぐに受け取ることはで...

製造業における機械学習と人工知能

より高品質の製品をより多く、より低コストで生産することは、製造業の永遠の目標です。スマート製造革命に...

Python とディープニューラルネットワークを使用して画像を認識する方法は?

[[219378]]見れば分かります。わずか 12 行の Python コードで、独自のマシン ビ...

効果的な機械学習研究者の6つの習慣

優れた機械学習研究者になるために必要な資質は何でしょうか? 強力なコーディングスキルでしょうか? そ...

機械学習および予測アプリケーション用の 50 を超える API。どれを選びますか?

この記事では、2018 年以降、顔と画像の認識、テキスト分析、自然言語処理、感情分析、言語翻訳、機械...