ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

近年、事前トレーニング済みの言語モデルは自然言語処理において優れたパフォーマンスを発揮していますが、パラメータの数が多いため、実際のハードウェア デバイスへの展開が困難になっています。

最近、機械学習のトップカンファレンスであるICLR 2022の採択論文の結果が正式に発表されました。少なくとも9つの研究が、ニューラルネットワークの量子化の方向で関連する進歩を示しました。

この論文では、自然言語タスク向けの最初の完全にバイナリ量子化された BERT モデルである BiBERT を紹介します。これにより、FLOP とモデル サイズが最大 56.3 倍と 31.2 倍節約されます。

この研究は、北京航空航天大学、南洋理工大学、百度の劉翔龍教授のチームによって共同で完了しました。

事前トレーニング済みの言語モデルは自然言語処理では優れたパフォーマンスを発揮しますが、パラメータの数が多いため、実際のハードウェア デバイスへの展開が困難になります。

既存のモデル圧縮方法には、パラメータの量子化、蒸留、プルーニング、パラメータの共有などがあります。

その中で、パラメータ量子化法は、浮動小数点パラメータを固定小数点表現に効率的に変換し、モデルをコンパクトにします。

研究者らはQ-BERT[1]、Q8BERT[2]、GOBO[3]など多くの解決策を提案しているが、定量モデルは依然として表現力が限られており、最適化が難しいという深刻な問題に直面している。

幸いなことに、一般的に使用される補助的な最適化方法としての知識蒸留により、量子化モデルは完全精度の教師モデルの特徴表現を模倣することができ、それによって精度損失の問題をより適切に解決することができます。

この論文では、北京航空航天大学、NTU、百度の研究者らが、重み、アクティベーション、埋め込みを1 ビットに量子化する (アクティベーションを 4 ビット以上に維持しながら重みを 1 ビットに量子化するのではなく) BiBERT を提案しました。

これにより、モデルは推論中にビット単位の操作を使用できるようになり、モデルを実際のハードウェアに展開したときに推論が大幅に高速化されます。

我々は、2値化プロセス中のBERTモデルのパフォーマンス損失を研究しました。情報理論に基づいて、著者らは、順方向伝播における2値化後の注意機構の情報劣化問題を解決するために効率的なBi -Attention機構を導入し、逆方向伝播における蒸留の最適化方向不一致問題を解決するためにDirection-Matching Distillation法を提案しました。

△ 図1 BiBERTの全体フレームワーク

BiBERT は、BERT モデルの完全な 2 値化の実現可能性を初めて実証しました。GLUE データセットでの精度は、既存の BERT モデル 2 値化アルゴリズムを大幅に上回り、より高いビット表現のモデルをも上回りました。

モデルの計算とボリュームに関して、BiBERT は理論的には FLOP とモデル サイズをそれぞれ56.3 倍31.2 倍削減できます。

方法

バイアテンション: バイナリアテンションメカニズム

私たちの研究によると、BERT モデルの注意メカニズムでは、ソフトマックス関数によって得られた正規化された注意重みは確率分布に従うと考えられており、それを直接 2 値化すると完全な情報損失につながり、情報エントロピーが 0 に退化することがわかりました (図 2 を参照)。

△ 図2 ソフトマックス関数に2値化を直接適用すると、完全な情報損失が発生する

この情報劣化を軽減するための一般的な対策は、符号関数を適用する前に入力テンソルの分布をシフトすることです。これは次のように表すことができます。

その中で、シフトパラメータは二値化のしきい値としても考えられ、二値化後のエントロピーを最大化することを期待しています。

ソフトマックス関数は順序を保持することに注意してください。つまり、バイナリ表現の情報エントロピーを最大化する固定しきい値があることを意味します。

Hard Attention [4]に触発されて、著者はbool関数を使用してAttentionの重みAを2値化します。

bool関数を適用することで、注目重みの中で値の低い要素が0に二値化されるため、エントロピー値が最大の注目重みでキー部分の要素をフィルタリングすることができます。

最終的なバイナリ アテンション メカニズムは次のように表現できます。

このうち、BVは符号関数の2値化によって得られる値であり、BAはバイナリアテンションウェイトであり、これは慎重に設計されたビットアフィン行列乗算である。  合計シフトで構成される BAMM 演算子は、トレーニングと推論の表現を揃え、効率的なビット計算を実行するために使用されます。

DMD: 方向マッチング蒸留

著者は、注意の重みは 2 つのバイナリ活性化を直接乗算することによって得られることを発見しました。

そのため、決定のエッジの値は反対側に簡単に二値化される可能性があるため、注意の重みを直接最適化すると、トレーニング中に最適化の方向の不一致が発生することがよくあります。 (図3参照)

△ 図3 最適化方向の不一致

そのため、著者は、アクティベーションを蒸留するために上流のクエリ、キー、および値マトリックスの類似性マトリックスを構築する新しい蒸留スキームを設計しました。

ここで、||·|| はL2正則化を表します。これまでの研究では、このように構築された行列は、ネットワークの特定のパターンの意味的理解を反映し、スケールや数値サイズの影響を無視し、特徴間の本質的な相関関係をより安定して表現でき、バイナリネットワークと完全精度ネットワーク間の知識転送により適していると考えられていることが示されています。

したがって、蒸留損失は、隠れ層の損失、予測、および上記の活性化類似性マトリックスの合計として表すことができます。

ここでLは変圧器の層数を表し、

実験

著者の実験では、提案された BiBERT が GLUE ベンチマーク データセットのいくつかのタスクにおけるバイナリ BERT モデルの精度低下の問題を効果的に解決し、モデルを安定して最適化できることが証明されています。

表 1 は、提案された Bi-Attention と DMD により、2 値化後のモデルのパフォーマンスが大幅に向上することを示しています。

△表1 アブレーション実験

表 2 と 3 では、BiBERT が他の BERT 2 値化方式やさらに高ビットの量子化方式よりも優れていることを示しています。

△表2 BERTに基づく二値化手法の比較(データ強化なし)

△表3 BERTに基づく2値化手法の比較(データ拡張あり)

このうち、50% は、2 値化後にアテンション重みの半分が 0 になる必要があることを意味し、表に特に指定がない限り、量子化には 12 層の BERT モデルが使用されます。

さらに、著者らはトレーニング中に情報エントロピーを測定し(図4参照)、著者らが提案した方法は注意メカニズムで完全に失われた情報エントロピーを効果的に回復しました。

△ 図4 訓練中の情報エントロピー

同時に、著者はトレーニング中の損失削減曲線と精度をプロットしました。BiBERT はベースラインよりも大幅に速く収束し、精度も高くなっています。

△ 図5 トレーニング中の損失と精度の曲線

要約する

著者は、BERT モデルの最初の完全な 2 値化方法として BiBERT を提案し、その後の BERT 2 値化研究の理論的基礎を確立し、そのパフォーマンス低下の原因を分析し、モデルのパフォーマンスを効果的に向上させる Bi-Attention および DMD 手法を提案しました。

BiBERT は既存の BERT モデルの 2 値化手法を上回り、より多くのビットを使用する量子化方式よりも優れています。理論上、BiBERT は FLOP を 56.3 倍削減し、モデル ストレージを 31.2 倍節約できます。

この研究が将来の研究のための強固な基盤を築くことが期待されます。

BiBERT は、Baidu PaddlePaddle のオープンソース ディープラーニング モデル圧縮ツール PaddleSlim をベースにして、まもなくオープンソース化される予定ですので、ご期待ください。

パドルスリム: https://github.com/PaddlePaddle/PaddleSlim

会議論文転送: https://openreview.net/forum?id=5xEgrl_5FAJ

<<:  地球は思考しており、人間は単なるニューロンです。科学者は初めて「惑星知性」を提唱した

>>:  自然の中でショウジョウバエがVRをプレイし、注意メカニズムとワーキングメモリを発見

ブログ    
ブログ    
ブログ    

推薦する

Adobe、Adobe Experience Platform モバイル パッケージをリリース

中国、北京 — 2019 年 11 月 26 日 — Adob​​e は先日、新しいモバイル パッ...

...

...

2024年の製造業の現状:完全デジタル化

世界全体、特に製造業は、パンデミック中に発生した問題や数年前の大規模なサプライチェーンの混乱から脱し...

...

企業に利益をもたらす 5 つの AI トレンド

[[358096]]市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく...

特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

[51CTO.com クイック翻訳] 今日、人工知能(AI)はますます一般的になり、必要になってき...

Baidu Mapsは、インテリジェントな位置情報サービスプラットフォームを構築するために、新世代の人工知能マップエコシステムをリリースしました。

2019年12月10日、北京で百度地図生態系会議が開催され、「新世代人工知能地図」の生態パノラマが...

Splunk は 2018 年の人工知能と機械学習の 3 つのトレンドを予測しています

調査会社ガートナーは、「人工知能(AI)と高度な機械学習技術は、広く注目されている新興技術であり、企...

少し手を加えるだけで、GPT-3 の精度が 61% 向上します。グーグルと東京大学の研究は皆を驚かせた

私たちが目を覚ましたとき、機械学習コミュニティは大騒ぎしていました。最新の研究により、GPT-3 に...

...

なぜスマートグリッドはエネルギーの未来なのでしょうか?

要約すると、集中型電力ネットワークは、一日のどの時間でも過負荷にならない安定性を確保するために、特定...

...