ディープラーニングチップ研究の新潮流:処理の中核となるメモリ

ディープラーニングチップ研究の新潮流:処理の中核となるメモリ

[[186777]]

過去 2 年間、機械学習、特にディープ ニューラル ネットワークのニーズを満たす革新的なアーキテクチャの研究が急増しました。 The Next Platform では、トレーニング側と推論側の両方について多くのアーキテクチャ オプションを取り上げてきましたが、その過程で興味深い傾向に気づき始めました。機械学習市場向けにカスタム ASIC を開発している企業の中には、メモリを処理の中核として使用するという同様の考え方に沿って開発を進めているところもあるようです。

メモリ内処理 (PIM) アーキテクチャは新しいものではありませんが、メモリ内の比較的単純なロジック ユニットがニューラル ネットワーク (特に畳み込みネットワーク) のトレーニング ニーズに十分対応できるため、メモリは将来の次のプラットフォームになりつつあります。私たちは、Nervana Systems(2016年にIntelが買収)やWave Computingなど多くの企業のディープラーニングチップや、AlexNetなどのベンチマークを圧倒すると期待される他の新しいアーキテクチャを導入してきました。メモリは、それらのパフォーマンスと効率の重要な推進力です。

本日、メモリ駆動型ディープラーニング アーキテクチャ ファミリーに新しいメンバーを導入します。これはボローニャ大学が提案した Neurostream であり、ハイブリッド メモリ キューブ (HMC) や高帯域幅メモリ (HBM) などの次世代メモリを使用する Nervana、Wave、その他のディープラーニング アーキテクチャといくつかの点で似ています。このアーキテクチャは、先ほど挙げた企業がどのようにディープラーニング アーキテクチャを設計しているかをさらに理解できる新しい考え方も提供します。これまでの紹介では、Nervana、Waveなどが発表したアーキテクチャからいくつかの設計詳細を抽出しましたが、今回はアーキテクチャの設計チームから、メモリ駆動型デバイスが将来のディープラーニングカスタムハードウェアの主流になる理由について、より深い洞察が得られました。

「畳み込みニューラル ネットワークは計算集約型のアルゴリズムですが、ネットワーク内のパラメータとチャネルは大きく、そのためメイン メモリに保存する必要があるため、そのスケーラビリティとエネルギー効率はメイン メモリによって大きく制限されます。これらの理由から、メイン メモリのボトルネックを考慮せずに畳み込みネットワーク アクセラレータのパフォーマンスと効率のみを向上させることは、設計上の誤った決定となります。」

Neurostream は、インメモリ処理アプローチを畳み込みニューラル ネットワークのスケールアップに適用します。このデザインでは、ハイブリッド メモリ キューブのバリエーションを使用しており、「スマート メモリ キューブ」と呼ばれています。 「スマート メモリ キューブ」は、NeuroCluster と呼ばれるマルチコア PIM プラットフォームを強化します。 NeuroCluster は、NeuroStream 浮動小数点コプロセッサ (畳み込み集約型コンピューティング用) と汎用プロセッサ RISC-V に基づくモジュール設計を採用しています。また、DRAM を簡単に配列するためのメカニズムと、スケーラブルなプログラミング環境についても言及しています。このアーキテクチャの最も魅力的な特徴は、ダイ面積のわずか 8% を占める HMC で 240 GFLOPS のパフォーマンスを達成し、総消費電力はわずか 2.5 ワットであることです。

「このプラットフォームにより、畳み込みニューラル ネットワークのコンピューティング タスクをメモリ グループに完全にオフロードして、システムの消費電力を抑えることができます。つまり、メイン SoC のコンピューティング ロジックを解放して、他の処理を実行できるようになります。さらに、基本的な HMC システムと比較すると、追加のオーバーヘッドはほぼ無視できるほどです。」

設計チームは、Neurostream アーキテクチャのワットあたりのパフォーマンスを宣伝しています。 「単一の 3D スタック パッケージでワットあたり 22.5 GFLOPS (1 秒あたり 22.5 ギガ浮動小数点演算) の計算エネルギー効率を達成しました。これは、現在入手可能な最高の GPU の 5 倍以上のパフォーマンスです。」また、「システム レベルの消費電力の増加がわずかで、面積の増加も無視できるため、この PIM システムはコスト効率とエネルギー効率に優れたソリューションであり、4 つの SMC を接続するネットワークを通じて 955 GFLOPS まで簡単に拡張できます」と述べています。比較に使用した GPU は Nvidia Tesla K40 で、235 ワットの電力で 1092 GFLOPS の処理速度を達成できます。 「Neuro アレイは 42.8 ワットで 955 GFLOPS を達成でき、エネルギー効率では競合製品の 4.8 倍優れています」とチームは述べ、シリアルリンクの要件が軽減されたため、アーキテクチャをより多くのノードに拡張できるとも指摘した。

Neurostream の開発者は、アプリケーション指向のチューニングを実行し、算術計算の精度を下げることで、エネルギー効率をさらに高めたいと考えています。彼らが強調しているように、「計算精度を下げることで、消費電力を最大 70% 削減できると期待されています。」次の改良では、シリコン上に 4 つの NeuroCluster を備えたアーキテクチャを実装することに重点を置き、バックプロパゲーションとトレーニングの方法を監視できるようになります。

ディープラーニング フレームワーク向けの追加のソフトウェア最適化により、多くのコプロセッサ、ASIC、GPU、x86 プロセッサのパフォーマンスと効率のベンチマークをカバーしました。私たちはこれらをあまり重視せず、できる限り比較していますが、最終的にどのアーキテクチャが勝利するかは時間が経てばわかるでしょう。ここでお話ししたいのは、ベンチマークスコアではなく、アーキテクチャそのものです。 Neuro アレイは、Nervana、Wave、その他のアプローチと同様に、限られたメモリ内処理能力を活用して HMC と HBM を最大限に活用し、その結果、畳み込みニューラル ネットワークの計算を処理するのにほぼ十分になります。

それだけでなく、このタイプのアーキテクチャを詳しく調べることで、前述の機械学習チップのスタートアップ企業が何をしているのかをより適切に評価するのにも役立ちます。 2017 年には、スタートアップ企業と学術研究の共同の取り組みにより、ディープラーニング フレームワーク向けのメモリ駆動型プロセッサが数多く開発されると予想されます。

<<:  ロボットR2-D2は50年後に人間の仕事を完全に置き換えるでしょうか?

>>:  画像認識技術を実装し、多様な応用シナリオを探索

ブログ    
ブログ    

推薦する

ニューロモルフィック・コンピューティングが私たちを AI の新しい時代へと導くのはいつでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

自己一貫性を利用して大規模モデルの推論能力を向上させたGoogleは、ベンチマークの数学問題の75%を解決しました。これはGPT-3よりも20%高い数値です。

言語モデルはさまざまな NLP タスクで目覚ましい成功を収めていますが、その推論能力は不十分な場合が...

機械学習は音楽界を征服するのに役立ち、あなたは次のヴィンセント・ファングになるでしょう

私はアークティック・モンキーズが大好きですが、彼らはもう何年も新しいシングルをリリースしていません。...

顔認識とは何ですか?あなたは顔認識技術を本当に理解していますか?

近年、人工知能の発展により、膨大なデータに基づく顔認識技術がさまざまな分野で広く利用されるようになり...

私の国のドローンは新たな段階に入り、成熟した開発にはまだ3つのレベルを通過する必要があります

[[428031]]先日の建国記念日、ドローンは間違いなく「最もクールな存在」でした。交通の補助、景...

2023年ゴードン・ベル賞発表:最先端のスーパーコンピューターによる「量子レベルの精度」の材料シミュレーションが受賞

ACM ゴードン・ベル賞は 1987 年に設立され、計算機協会によって授与されます。スーパーコンピュ...

ビジネスコミュニケーションで機械学習を活用する9つの方法

人工知能 (AI) と機械学習 (ML) は、職場でも家庭でも、私たちの生活に欠かせないものになりつ...

配達員はSF映画のハイテク技術を駆使し、平地を歩いているかのように100キロの重量を運ぶ。

昨日、配達員の動画がインターネット上で話題になった。動画では、ハミングバードデリバリーの配達員がテイ...

初めてmAP70%を突破! GeMap: ローカル高精度マップ SOTA が再び更新されました

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

人工知能の罪と罰についても話しましょう

1. ある人にとっての好物は、別の人にとっては毒物かもしれない人工知能 (AI) が独自の言語を作成...

パフォーマンスが最大480倍向上:Armが2つの新しいAIエッジコンピューティングチップ設計を発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ムスク・ニューラリンクに挑戦!スタンフォード大学の新しい脳コンピューターインターフェースは脳とシリコンベースのチップを直接接続する

[[319624]]最近、スタンフォード大学の研究者らは、脳をシリコンベースの技術に直接接続できる新...

...

将来の教育において人工知能が果たす12の役割

近年、人工知能は急速に発展し、熱い議論を巻き起こしています。人工知能が人間に取って代わるかどうかが注...