ディープラーニングチップ研究の新潮流:処理の中核となるメモリ

ディープラーニングチップ研究の新潮流:処理の中核となるメモリ

[[186777]]

過去 2 年間、機械学習、特にディープ ニューラル ネットワークのニーズを満たす革新的なアーキテクチャの研究が急増しました。 The Next Platform では、トレーニング側と推論側の両方について多くのアーキテクチャ オプションを取り上げてきましたが、その過程で興味深い傾向に気づき始めました。機械学習市場向けにカスタム ASIC を開発している企業の中には、メモリを処理の中核として使用するという同様の考え方に沿って開発を進めているところもあるようです。

メモリ内処理 (PIM) アーキテクチャは新しいものではありませんが、メモリ内の比較的単純なロジック ユニットがニューラル ネットワーク (特に畳み込みネットワーク) のトレーニング ニーズに十分対応できるため、メモリは将来の次のプラットフォームになりつつあります。私たちは、Nervana Systems(2016年にIntelが買収)やWave Computingなど多くの企業のディープラーニングチップや、AlexNetなどのベンチマークを圧倒すると期待される他の新しいアーキテクチャを導入してきました。メモリは、それらのパフォーマンスと効率の重要な推進力です。

本日、メモリ駆動型ディープラーニング アーキテクチャ ファミリーに新しいメンバーを導入します。これはボローニャ大学が提案した Neurostream であり、ハイブリッド メモリ キューブ (HMC) や高帯域幅メモリ (HBM) などの次世代メモリを使用する Nervana、Wave、その他のディープラーニング アーキテクチャといくつかの点で似ています。このアーキテクチャは、先ほど挙げた企業がどのようにディープラーニング アーキテクチャを設計しているかをさらに理解できる新しい考え方も提供します。これまでの紹介では、Nervana、Waveなどが発表したアーキテクチャからいくつかの設計詳細を抽出しましたが、今回はアーキテクチャの設計チームから、メモリ駆動型デバイスが将来のディープラーニングカスタムハードウェアの主流になる理由について、より深い洞察が得られました。

「畳み込みニューラル ネットワークは計算集約型のアルゴリズムですが、ネットワーク内のパラメータとチャネルは大きく、そのためメイン メモリに保存する必要があるため、そのスケーラビリティとエネルギー効率はメイン メモリによって大きく制限されます。これらの理由から、メイン メモリのボトルネックを考慮せずに畳み込みネットワーク アクセラレータのパフォーマンスと効率のみを向上させることは、設計上の誤った決定となります。」

Neurostream は、インメモリ処理アプローチを畳み込みニューラル ネットワークのスケールアップに適用します。このデザインでは、ハイブリッド メモリ キューブのバリエーションを使用しており、「スマート メモリ キューブ」と呼ばれています。 「スマート メモリ キューブ」は、NeuroCluster と呼ばれるマルチコア PIM プラットフォームを強化します。 NeuroCluster は、NeuroStream 浮動小数点コプロセッサ (畳み込み集約型コンピューティング用) と汎用プロセッサ RISC-V に基づくモジュール設計を採用しています。また、DRAM を簡単に配列するためのメカニズムと、スケーラブルなプログラミング環境についても言及しています。このアーキテクチャの最も魅力的な特徴は、ダイ面積のわずか 8% を占める HMC で 240 GFLOPS のパフォーマンスを達成し、総消費電力はわずか 2.5 ワットであることです。

「このプラットフォームにより、畳み込みニューラル ネットワークのコンピューティング タスクをメモリ グループに完全にオフロードして、システムの消費電力を抑えることができます。つまり、メイン SoC のコンピューティング ロジックを解放して、他の処理を実行できるようになります。さらに、基本的な HMC システムと比較すると、追加のオーバーヘッドはほぼ無視できるほどです。」

設計チームは、Neurostream アーキテクチャのワットあたりのパフォーマンスを宣伝しています。 「単一の 3D スタック パッケージでワットあたり 22.5 GFLOPS (1 秒あたり 22.5 ギガ浮動小数点演算) の計算エネルギー効率を達成しました。これは、現在入手可能な最高の GPU の 5 倍以上のパフォーマンスです。」また、「システム レベルの消費電力の増加がわずかで、面積の増加も無視できるため、この PIM システムはコスト効率とエネルギー効率に優れたソリューションであり、4 つの SMC を接続するネットワークを通じて 955 GFLOPS まで簡単に拡張できます」と述べています。比較に使用した GPU は Nvidia Tesla K40 で、235 ワットの電力で 1092 GFLOPS の処理速度を達成できます。 「Neuro アレイは 42.8 ワットで 955 GFLOPS を達成でき、エネルギー効率では競合製品の 4.8 倍優れています」とチームは述べ、シリアルリンクの要件が軽減されたため、アーキテクチャをより多くのノードに拡張できるとも指摘した。

Neurostream の開発者は、アプリケーション指向のチューニングを実行し、算術計算の精度を下げることで、エネルギー効率をさらに高めたいと考えています。彼らが強調しているように、「計算精度を下げることで、消費電力を最大 70% 削減できると期待されています。」次の改良では、シリコン上に 4 つの NeuroCluster を備えたアーキテクチャを実装することに重点を置き、バックプロパゲーションとトレーニングの方法を監視できるようになります。

ディープラーニング フレームワーク向けの追加のソフトウェア最適化により、多くのコプロセッサ、ASIC、GPU、x86 プロセッサのパフォーマンスと効率のベンチマークをカバーしました。私たちはこれらをあまり重視せず、できる限り比較していますが、最終的にどのアーキテクチャが勝利するかは時間が経てばわかるでしょう。ここでお話ししたいのは、ベンチマークスコアではなく、アーキテクチャそのものです。 Neuro アレイは、Nervana、Wave、その他のアプローチと同様に、限られたメモリ内処理能力を活用して HMC と HBM を最大限に活用し、その結果、畳み込みニューラル ネットワークの計算を処理するのにほぼ十分になります。

それだけでなく、このタイプのアーキテクチャを詳しく調べることで、前述の機械学習チップのスタートアップ企業が何をしているのかをより適切に評価するのにも役立ちます。 2017 年には、スタートアップ企業と学術研究の共同の取り組みにより、ディープラーニング フレームワーク向けのメモリ駆動型プロセッサが数多く開発されると予想されます。

<<:  ロボットR2-D2は50年後に人間の仕事を完全に置き換えるでしょうか?

>>:  画像認識技術を実装し、多様な応用シナリオを探索

推薦する

ハイパーオートメーション – AIの新時代における自動化

「自動化」の本質的な意味は変わりませんが、その用語の使用法は時間の経過とともに確実に変化してきました...

...

...

Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

最近、Googleは、昨年発表した「PRADO」をさらに改良した小型モデルでSOTA結果を達成した新...

衝撃の2017年!この10日間は中国の人工知能の時代

2017年にはすでに「残高不足」が発生。今年、中国の人工知能開発は多くの進歩を遂げ、実りある成果を達...

...

2021年の10のAIトレンド

[[361168]] IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上...

革新的なトランスフォーマー!清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

[[410176]]予測時間を可能な限り延長することが時系列予測の中心的な課題であり、エネルギー、輸...

AI、機械学習、RPA業界への期待

毎年、IT 業界メディアの eWEEK では、新製品、革新的なサービス、開発動向など、IT 業界の今...

看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?

研究によると、共感と前向きな指導は、医師が患者の痛みを和らげ、術後の回復を早め、精神科薬の使用を減ら...

最新のMLPerfランキング:アリババのAIコンピューティングパワーが多くの分野で1位を獲得

4月7日、権威あるAIベンチマーク評価組織MLPerfが最新の推論パフォーマンスリストを公開した。 ...

技術革新は「プロトタイプ」で止まるわけにはいかない…

[[270666]] [51CTO.com クイック翻訳] 昨今、クラウドコンピューティング、ブロ...

高度な機械学習ノート 1 | TensorFlow のインストールと開始方法

[[185581]]導入TensorFlow は、DistBelief に基づいて Google が...

...

284日間の急成長の後、ChatGPTを「模倣」したスタートアップ企業が倒産する可能性

最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...