ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル:行列演算はもう使わない

ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル:行列演算はもう使わない

ディープラーニングやニューラルネットワークの分野では、研究者は通常、GPU なしでは作業できません。 GPU の非常に高いメモリ帯域幅と多数のコアのおかげで、研究者はモデル トレーニングからより早く結果を得ることができます。同時に、CPU はコア数が少ないために制限されており、計算の実行に長い時間がかかるため、ディープラーニング モデルやニューラル ネットワークのトレーニングには適していません。

しかし最近、ライス大学、アントグループ、インテルなどの研究機関の研究者らが、消費者向けCPU上で動作するAIソフトウェアはGPUよりも15倍速くディープニューラルネットワークをトレーニングできることを示す論文を発表した。この論文はMLSys 2021カンファレンスに採択されました。

論文リンク:
抄録

「トレーニング費用はAI開発の大きなボトルネックであり、一部の企業はAIワークロードのトレーニングと微調整に毎週数百万ドルを費やしている」と、論文の責任著者でライス大学ブラウン工学部のコンピューターサイエンスの助教授であるアンシュマリ・シュリバスタバ氏は述べた。彼らの研究は、AI開発におけるトレーニング費用のボトルネックを解決することを目的としている。

[[392154]]

アンシュマリ・シュリヴァスタヴァ。

研究の動機と進捗

ディープ ニューラル ネットワーク (DNN) は、特定のタスクにおいて人間を上回る強力な人工知能です。 DNN トレーニングは通常、一連の行列乗算演算であり、CPU よりも約 3 倍高速な GPU に最適なワークロードです。

現在、業界全体が行列乗算演算の改善と高速化に注力しています。研究者たちは、行列乗算を強化するための特殊なハードウェアとアーキテクチャも模索しており、特定のディープラーニング用の特殊なハードウェア ソフトウェア スタックについても議論しています。

Shrivastava 氏が率いる研究室は 2019 年にこれを実行し、DNN トレーニングをハッシュ テーブルで解決できる検索問題に変換しました。彼らが設計したサブリニアディープラーニングエンジン(SLIDE)は、消費者向けCPUで動作するように特別に設計されています。シュリバスタバ氏とインテルのパートナーは、MLSys 2020カンファレンスでこの技術を発表しました。この技術は GPU ベースのトレーニングよりも優れたパフォーマンスを発揮できると彼らは言う。

MLSys 2021 カンファレンスで、研究者らは、最新の CPU のベクトル化とメモリ最適化アクセラレータを使用して SLIDE のパフォーマンスを向上できるかどうかを調査しました。

「ハッシュ テーブル ベースのアクセラレーションはすでに GPU を超えています」と、ライス大学の ML 博士課程の学生で、この論文の第一著者である Shabnam Daghaghi 氏は述べています。「私たちはこれらのイノベーションを活用して SLIDE をさらに推し進め、行列演算に重点を置かなくても CPU のパワーを活用して、最高のパフォーマンスを誇る専用 GPU よりも 4 ~ 15 倍速く AI モデルをトレーニングできることを示しました。」

[[392155]]

シャブナム・ダガギ。

さらに、論文の2番目の著者であり、ライス大学のコンピューターサイエンスと数学の学部生であるニコラス・マイスバーガー氏は、CPUは依然としてコンピューティング分野で最も一般的なハードウェアであり、AIへの貢献は計り知れないと考えています。

技術詳細

本稿では、2 つの最新の Intel CPU 上の SLIDE システムを再検討し、大規模なディープラーニング モデルのトレーニングにおける CPU の真の可能性を理解します。この研究により、SLIDE は最新の CPU のベクトル化、量子化、および一部のメモリ最適化を活用できるようになります。最適化されていない SLIDE と比較すると、この研究での最適化作業により、同じハードウェア上でのトレーニング時間が 2 ~ 7 倍高速化されます。

SLIDE のワークフローには、初期化、前方後方伝播、ハッシュ テーブルの更新が含まれます。下の図 1 は、順方向-逆方向伝播ワークフローの図です。

前方伝播と後方伝播の概略図。

この研究は、必要なニューラル ネットワークに数億のパラメーターが含まれる大規模な評価に焦点を当てています。最適化された SLIDE は、2 つの Intel CPU、Cooper Laker サーバー (CPX) と Cascade Lake サーバー (CLX) で比較され、次の 5 つのベンチマークと比較されました。

1) V100 GPU上のフルソフトマックス テンソルフロー実装。

2) CPX 上の完全なソフトマックス テンソルフロー実装。

3) CLX での完全なソフトマックス テンソルフロー実装。

4) CPX のナイーブ SLIDE。

5) CLX でのナイーブなスライド。

このうち、CPX は AVX512 に基づく BF16 命令をサポートする Intel の第 3 世代 Xeon スケーラブル プロセッサです。 CLX バージョンは古く、BF16 命令をサポートしていません。

研究者らは、3つの実際の公開データセットでフレームワークとその他のベンチマークを評価しました。 Amazon670K はレコメンデーション システム用の Kaggle データセットです。WikiLSH-325K データセットと Text8 は NLP データセットです。詳細な統計データは、以下の表 1 に示されています。

Amazon-670K と WikiLSH-325K の場合、研究者らは、入力と出力の両方がマルチホットエンコードされたベクトルである、隠し層のサイズが 128 の標準的な完全接続ニューラル ネットワークを使用しました。 Text8 の場合、この研究では、隠し層のサイズが 200 の標準 word2vec 言語モデルを使用しました。入力と出力は、それぞれワンホット エンコード ベクトルとマルチホット エンコード ベクトルです。

下の図 6 の最初の行は、すべてのデータセットの時間収束図を表しています。結果は、この研究で提案された CPX および CLX (濃い緑と薄い緑) での最適化された SLIDE のトレーニング時間が他のベースラインよりも優れていることを示しています。図 6 の下の行には、すべてのデータセットのヒストグラムが表示されています。

以下の表 2 は、3 つのデータセットの詳細な数値結果を示しています。

以下の表 3 では、研究者らは BF16 命令がエポックあたりの平均トレーニング時間に与える影響を示しています。結果は、アクティベーションと重み付けで BF16 命令を使用すると、Amazon-670K と WikiLSH325K でそれぞれ 1.28 倍と 1.39 倍パフォーマンスが向上することを示しています。ただし、Text8 で BF16 を使用しても効果はありませんでした。

以下の表 4 は、AVX-512 ありとなしの 3 つのデータセットで最適化された SLIDE のエポックあたりの平均トレーニング時間を示しています。結果は、AVX-512 ベクトル化により平均トレーニング時間が 1.2 倍短縮されることを示しています。

<<:  人工知能に必要な3つの条件

>>:  Raspberry Pi を搭載した MIT のヤドカリ型ロボットは「何でもできる」

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIと5Gテクノロジーがスマートグリッドのセキュリティ課題解決に貢献

[[334279]]この記事の主な内容:マイクログリッド、発電機、太陽光パネルなどのスマートグリッド...

...

...

...

OpenAI とオープンソースの多言語埋め込みモデル、どちらを選びますか?

翻訳者 | 朱 仙中レビュー | Chonglou制作:51CTO テクノロジースタック(WeCha...

AIのマインドリーディングがサミットであなたを驚かせる!モデルが脳波を翻訳し、人間の思考がスクリーンに映し出される|NeurIPS 2023

今日、私たちの AI は何ができるでしょうか? AI による描画、AI による作曲、AI による動画...

データセンターにおける AI の未来

人工知能 (AI) はもはや未来的な概念ではなく、スーパーマーケットの物流から医療研究まで、ビジネス...

IDC: 2021 年の中国スマート デバイス市場に関するトップ 10 の予測

過去 10 年間、中国のスマート デバイス市場では、一連の技術的変化、エコシステムの変化、ユーザーの...

あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づい...

...

AIチャットボットが保険業界に革命を起こす

[[398082]]時代遅れのレガシープロセスを考慮すると、保険事業とテクノロジーの融合は水と油のよ...

Rosetta はプライバシー コンピューティングと AI をどのように結び付けるのでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Alibaba Damo AcademyのJin Rong氏:テクノロジーから科学へ、中国のAIはどこへ向かうのか?

ダートマス会議から数えると、AIは65年の歴史を歩んできました。特に近年のディープラーニングの台頭に...

著者の半数以上が中国人です! Google Researchの画像表現モデルALIGNがImageNetを支配

[[399343]]ニューラル ネットワークは実際には表現を学習しています。CV の分野では、優れ...

2021年の新ドローンの在庫

[[441702]]時は経つのが早く、2021年も過ぎ去りつつあります。今年を振り返ると、疫病の影響...