このトリックにより、トランスフォーマーの推論速度が4.5倍になり、数十万ドルを節約できます。

このトリックにより、トランスフォーマーの推論速度が4.5倍になり、数十万ドルを節約できます。

[[443226]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近、NLP のスター企業であるHugging Faceが Infinity という製品をリリースしました。これは、 1 ミリ秒の遅延で Transformer 推論を完了できる非常に高いパフォーマンスを備えています。

しかし、その素晴らしいパフォーマンスにもかかわらず、少なくとも年間数十万元(20,000米ドル)と、まだ少し高価です。

それで、何か別の方法はあるのでしょうか?

いくつかの!これはオープンソースであり、Infinity のいくつかの公開ベンチマークを「努力なしで」達成できます。

そして今、この方法にちょっとしたトリックを適用することで、Transformer 推論を4.5 倍高速化することができます。

△ この投稿は1日も経たないうちに250回以上のアクセスがありました。

では、なぜ「代用品」が「支払い」の効果を達成できるのでしょうか?

Transformerの推論を4.5倍高速化するトリック

まず、このメソッドTransformer-deployについて知っておきましょう。

1 行のコマンドで Hugging Face 上の Transformer モデルを最適化してデプロイでき、Bert、Roberta、miniLM、Camembert、Albert、XLM-R、Distilbert など、ほとんどの Transformer エンコーダー ベースのモデルをサポートします。

Transformer デプロイ推論サーバーは Nvidia Triton を使用します。

推論エンジンは、Microsoft ONNX Runtime (CPU および GPU 推論用) と Nvidia TensorRT (GPU のみ) です。

GPU で最高のパフォーマンスを得たい場合、Nvidia Triton + Nvidia TensorRT のような組み合わせが間違いなく最良の選択です。

TensorRT は少し使いにくいですが、実際には Pytorch を使用するよりも 5 ~ 10 倍高速になります。

実際のパフォーマンステストでは、バッチサイズが 1、トークンが 16 および 128 の入力シーケンスでの Transformer-deploy の推論速度は、有料の Hugging Face Infinity よりも高速です。

Transformer-deploy は、トークンが 16 の場合は1.52 ミリ秒、Infinity の場合は 1.7 ミリ秒かかります。トークンが 128 の場合は1.99 ミリ秒、Infinity の場合は 2.5 ミリ秒かかります。

では、Transformer の推論パフォーマンスをさらに向上させることができる、前述のトリックとは何でしょうか?

GPU 量子化

著者は次のように述べています。

私の知る限り、このアプローチはまだどの OOS クラウド サービスでも使用されていません。

ただし、GPU 量子化を実行するには、モデルのソース コードを変更する (行列乗算などのコストのかかる操作に QDQ と呼ばれる特定のノードを追加する) 必要があり、これはエラーが発生しやすく退屈な作業であり、変更したコードを自分で保守する必要もあります。

そのため、著者は複数の Transformer ベースのモデルに対してこれを手動で実行しました。

その後、モデル モジュールの抽象構文木(AST) にパッチを当てるだけで、これを自動的に実行できるようであることがわかりました。

ユーザー側では、モデルの基本的な量子化は次のように GPU 上で実行されます。

最終的に、この方法は、Roberta ベース モデルと MNLI データセット (分類タスク) で4.53 倍の推論速度を達成しました。

もちろん、これによって精度も 0.4 ポイント犠牲になりますが、犠牲にならなければ速度は約 3.2 倍に加速できます。

著者は、これは加速コストに 1 ポイント以上の精度が必要だった Transformer-deploy のオリジナル バージョンに比べて大きな改善であると述べています。

最後に、彼らは Albert、Bert (miniLM を含む)、Distilbert、Roberta (Camembert、XLM-R、DistilRoberta などを含む)、および Electra でこのトリックをテストしました。

その結果、ONNX 形式にエクスポートできるあらゆる Transformer モデルに「すぐに」使用できるようになります。

<<:  フレームワークがシャム自己教師学習を統合、清華大学とセンスタイムが効果的な勾配形式を提案

>>:  120キロの夜間走行中、車内には誰もいなかった!ツーソンは、世界中の公道でテストされる最初の完全無人大型トラックです。

ブログ    
ブログ    
ブログ    

推薦する

人工知能の時代:どの業界が大きな変化を遂げているのでしょうか?

近年、人工知能技術はコンピューティング能力、ビッグデータ、アルゴリズムの飛躍的進歩により急速に発展し...

AIがコンピューティングをエッジに押し上げる

[[408175]]ここ数年の流行語といえば、エッジ コンピューティングは 5G や AI と密接に...

ソフトマックスを放棄した初の大規模線形アテンショントランスフォーマーモデル: 1750億のパラメータ、より優れた速度と精度

最近、上海人工知能研究所とOpenNLPLabの研究チームが、ソフトマックスベースの注意メカニズムを...

セキュリティ企業:ホワイトハットの60%以上が生成AIに興味を持っており、脆弱性を見つける最大の動機は金儲けである

セキュリティ企業であり脆弱性報奨金プラットフォームでもあるHackerOneは10月30日、先週20...

...

AI を活用したエンジニアリングは、ロボット工学と自動化をどのように強化できるのでしょうか?

AI プロンプト エンジニアリングは、AI ツールを使用して望ましい結果を生み出す効果的な方法です...

...

ハーバード大学とMITがあるボストンは、政府が顔認識を禁止したと公式に発表した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ついに誰かがROSロボットオペレーティングシステムをわかりやすく説明しました

この記事はWeChatの公開アカウント「Big Data DT」から転載したもので、著者はZhang...

開発ボードはこのように使えますか?アメリカの学者は、義肢のサポートと各指の制御に Jetson Nano を使用しています

近年、ディープラーニングベースのニューラルデコーダーは、神経補綴物の器用かつ直感的な制御を実現するた...

テスラのオプティマスヒューマノイドロボットが再び進化:視覚に基づいて物体を自律的に分類し、ヨガもできる

9月24日のニュース、本日早朝、テスラ オプティマスの公式Twitterアカウントが新しいビデオをア...

Java における 4 つの基本的な暗号化アルゴリズムの分析

シンプルな Java 暗号化アルゴリズムは次のとおりです。厳密に言えば、BASE64 は暗号化アルゴ...

...

小中学校の授業に人工知能教育が取り入れられました!

近年、人工知能分野の発展はますます加熱し続けており、現在の人材不足が注目を集めています。国務院が20...

2022年のデータサイエンスとAIの予測

2021 年には技術変化のペースが加速し、歴史が示すように、2022 年もそのペースは加速し続けるで...