ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル:行列演算はもう使わない

ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル:行列演算はもう使わない

ディープラーニングやニューラルネットワークの分野では、研究者は通常、GPU なしでは作業できません。 GPU の非常に高いメモリ帯域幅と多数のコアのおかげで、研究者はモデル トレーニングからより早く結果を得ることができます。同時に、CPU はコア数が少ないために制限されており、計算の実行に長い時間がかかるため、ディープラーニング モデルやニューラル ネットワークのトレーニングには適していません。

しかし最近、ライス大学、アントグループ、インテルなどの研究機関の研究者らが、消費者向けCPU上で動作するAIソフトウェアはGPUよりも15倍速くディープニューラルネットワークをトレーニングできることを示す論文を発表した。この論文はMLSys 2021カンファレンスに採択されました。

論文リンク:
抄録

「トレーニング費用はAI開発の大きなボトルネックであり、一部の企業はAIワークロードのトレーニングと微調整に毎週数百万ドルを費やしている」と、論文の責任著者でライス大学ブラウン工学部のコンピューターサイエンスの助教授であるアンシュマリ・シュリバスタバ氏は述べた。彼らの研究は、AI開発におけるトレーニング費用のボトルネックを解決することを目的としている。

[[392154]]

アンシュマリ・シュリヴァスタヴァ。

研究の動機と進捗

ディープ ニューラル ネットワーク (DNN) は、特定のタスクにおいて人間を上回る強力な人工知能です。 DNN トレーニングは通常、一連の行列乗算演算であり、CPU よりも約 3 倍高速な GPU に最適なワークロードです。

現在、業界全体が行列乗算演算の改善と高速化に注力しています。研究者たちは、行列乗算を強化するための特殊なハードウェアとアーキテクチャも模索しており、特定のディープラーニング用の特殊なハードウェア ソフトウェア スタックについても議論しています。

Shrivastava 氏が率いる研究室は 2019 年にこれを実行し、DNN トレーニングをハッシュ テーブルで解決できる検索問題に変換しました。彼らが設計したサブリニアディープラーニングエンジン(SLIDE)は、消費者向けCPUで動作するように特別に設計されています。シュリバスタバ氏とインテルのパートナーは、MLSys 2020カンファレンスでこの技術を発表しました。この技術は GPU ベースのトレーニングよりも優れたパフォーマンスを発揮できると彼らは言う。

MLSys 2021 カンファレンスで、研究者らは、最新の CPU のベクトル化とメモリ最適化アクセラレータを使用して SLIDE のパフォーマンスを向上できるかどうかを調査しました。

「ハッシュ テーブル ベースのアクセラレーションはすでに GPU を超えています」と、ライス大学の ML 博士課程の学生で、この論文の第一著者である Shabnam Daghaghi 氏は述べています。「私たちはこれらのイノベーションを活用して SLIDE をさらに推し進め、行列演算に重点を置かなくても CPU のパワーを活用して、最高のパフォーマンスを誇る専用 GPU よりも 4 ~ 15 倍速く AI モデルをトレーニングできることを示しました。」

[[392155]]

シャブナム・ダガギ。

さらに、論文の2番目の著者であり、ライス大学のコンピューターサイエンスと数学の学部生であるニコラス・マイスバーガー氏は、CPUは依然としてコンピューティング分野で最も一般的なハードウェアであり、AIへの貢献は計り知れないと考えています。

技術詳細

本稿では、2 つの最新の Intel CPU 上の SLIDE システムを再検討し、大規模なディープラーニング モデルのトレーニングにおける CPU の真の可能性を理解します。この研究により、SLIDE は最新の CPU のベクトル化、量子化、および一部のメモリ最適化を活用できるようになります。最適化されていない SLIDE と比較すると、この研究での最適化作業により、同じハードウェア上でのトレーニング時間が 2 ~ 7 倍高速化されます。

SLIDE のワークフローには、初期化、前方後方伝播、ハッシュ テーブルの更新が含まれます。下の図 1 は、順方向-逆方向伝播ワークフローの図です。

前方伝播と後方伝播の概略図。

この研究は、必要なニューラル ネットワークに数億のパラメーターが含まれる大規模な評価に焦点を当てています。最適化された SLIDE は、2 つの Intel CPU、Cooper Laker サーバー (CPX) と Cascade Lake サーバー (CLX) で比較され、次の 5 つのベンチマークと比較されました。

1) V100 GPU上のフルソフトマックス テンソルフロー実装。

2) CPX 上の完全なソフトマックス テンソルフロー実装。

3) CLX での完全なソフトマックス テンソルフロー実装。

4) CPX のナイーブ SLIDE。

5) CLX でのナイーブなスライド。

このうち、CPX は AVX512 に基づく BF16 命令をサポートする Intel の第 3 世代 Xeon スケーラブル プロセッサです。 CLX バージョンは古く、BF16 命令をサポートしていません。

研究者らは、3つの実際の公開データセットでフレームワークとその他のベンチマークを評価しました。 Amazon670K はレコメンデーション システム用の Kaggle データセットです。WikiLSH-325K データセットと Text8 は NLP データセットです。詳細な統計データは、以下の表 1 に示されています。

Amazon-670K と WikiLSH-325K の場合、研究者らは、入力と出力の両方がマルチホットエンコードされたベクトルである、隠し層のサイズが 128 の標準的な完全接続ニューラル ネットワークを使用しました。 Text8 の場合、この研究では、隠し層のサイズが 200 の標準 word2vec 言語モデルを使用しました。入力と出力は、それぞれワンホット エンコード ベクトルとマルチホット エンコード ベクトルです。

下の図 6 の最初の行は、すべてのデータセットの時間収束図を表しています。結果は、この研究で提案された CPX および CLX (濃い緑と薄い緑) での最適化された SLIDE のトレーニング時間が他のベースラインよりも優れていることを示しています。図 6 の下の行には、すべてのデータセットのヒストグラムが表示されています。

以下の表 2 は、3 つのデータセットの詳細な数値結果を示しています。

以下の表 3 では、研究者らは BF16 命令がエポックあたりの平均トレーニング時間に与える影響を示しています。結果は、アクティベーションと重み付けで BF16 命令を使用すると、Amazon-670K と WikiLSH325K でそれぞれ 1.28 倍と 1.39 倍パフォーマンスが向上することを示しています。ただし、Text8 で BF16 を使用しても効果はありませんでした。

以下の表 4 は、AVX-512 ありとなしの 3 つのデータセットで最適化された SLIDE のエポックあたりの平均トレーニング時間を示しています。結果は、AVX-512 ベクトル化により平均トレーニング時間が 1.2 倍短縮されることを示しています。

<<:  人工知能に必要な3つの条件

>>:  Raspberry Pi を搭載した MIT のヤドカリ型ロボットは「何でもできる」

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

今年2月、MetaはLLaMA大規模言語モデルシリーズをリリースし、オープンソースチャットボットの開...

人工知能業界の給与データが公開され、私たちは転職を余儀なくされるのか?

人工知能は、現在最もホットな産業であると言っても過言ではありません。最先端のテクノロジー企業から革新...

アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

[51CTO.com からのオリジナル記事] 「靴屋が 3 人いれば、諸葛亮 1 人より優れている」...

製造バリューチェーンにおいて RPA に真のチャンスはあるのでしょうか?

製造業における自動化の推進力は非常に単純です。自動化は人間の作業をシミュレートするため、人間は製造バ...

人工知能と5Gの組み合わせは医療業界の診断と治療のモデルとプロセスを変えるだろう

COVID-19の世界的パンデミックにより、医療におけるテクノロジーの活用が加速しました。 2021...

人工知能による大量失業の懸念は根拠がない

[[256558]] AIが大量失業を引き起こすという懸念は根拠がない世界的な研究機関である羅漢研究...

ネットで熱い議論:感染拡大から半年でディープラーニングの求人数が激減

[[340795]]ビッグデータダイジェスト制作近年、ディープラーニング エンジニアは市場で最も人気...

AIに関する4つの最も一般的な誤解

[[398369]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...

...

カオスに基づくデジタル画像暗号化アルゴリズム

概要: 現在、カオスシステムと暗号化技術の組み合わせは、最もホットなトピックの 1 つです。多数の暗...

...

...

あなたたちは AI を大々的に宣伝していますが、AI はまだ 4 歳児ほど賢くありません。

研究によると、人工知能は強力に聞こえますが、現在の高度な人工知能は、人間の 4 歳児が簡単に解決でき...