パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。

パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

同じ精度で、実際のパラメータの圧縮を従来の方法と比較して 120 倍以上向上できます。

これは、Didi のインターンが提案したAutoCompressという自動構造化プルーニングおよび圧縮アルゴリズム フレームワークによってもたらされるパフォーマンスの向上です。

コアとなるのは、ディープ モデル プルーニングでハイパーパラメータを自動的に検出し、モデルのさまざまなレイヤーでパラメータの冗長性を削除することです。

CIFAR および ImageNet データセットに対する広範なテストにより、AutoCompress がさまざまなニューラル ネットワーク圧縮方法やフレームワークを大幅に上回るパフォーマンスを発揮することが示されました。

この研究はAAAI2020にも採択されました。

研究者らは、この研究により手動の設計プロセスが置き換えられ、組み込みデバイス上でディープモデルを実行するためのリアルタイムのパフォーマンス要件を満たす超高圧縮率を達成できると述べた。

彼らはどうやってそれを達成したのでしょうか?以下、一つずつ解釈してみましょう。

ディープモデルプルーニングにおけるハイパーパラメータの設定を自動化する

近年、ディープニューラルネットワークモデルのパフォーマンスが継続的に向上するにつれて、モデルのバックボーンネットワークパラメータの数がますます大きくなり、ストレージとコンピューティングのコストが増加し続け、リソースが制限された組み込みプラットフォームへの展開が困難になっています。

ディープニューラルネットワークモデル圧縮技術は、この問題を解決するために欠かせない鍵となり、近年の研究のホットスポットの1つにもなっています。

多くの方法が登場していますが、その 1 つである構造化プルーニングは、ハードウェア実行効率の低さ、メモリ アクセス効率の悪さ、プラットフォーム レベルでの計算並列性の低さといった問題を解決できるため、学界や産業界から注目を集めています。

しかし、これには「欠陥」もあり、アルゴリズムの実装プロセスには多数のハイパーパラメータ設定が関係しています。たとえば、モデルの圧縮次元をどのように決定するか、モデル内の各層の圧縮率をどのように決定するかなどです。

これには、ガイダンスを設計するために専門家が懸命に取り組む必要があり、これらのハイパーパラメータを手動で設計するプロセスは長くて複雑です。

効果は必ずしも良いとは限りません。結局のところ、それは関係者のパラメータ調整経験に大きく依存します。

そこで、一部の研究者はハイパーパラメータを自動的に設定できるかどうかについて考え始めました。これが実現すれば、アルゴリズムの実装効率が大幅に向上するでしょう。考えるだけでもワクワクします。

そこで、一部の人々がそれを実行し始めました。たとえば、MIT、CMU、Google の研究者は、深層強化学習 (DRL) を使用して各レイヤーの刈り込み比率を決定する AMC と呼ばれる手法を提案しました。

自動パラメータ調整のアイデアは実現されましたが、まだいくつかの制限があります。

一方で、この研究では単一の出力チャネル (フィルター) のプルーニング次元のみを使用しました。他方では、スパース モデルを取得するために、使用されたプルーニング方法は、モデルのトレーニング プロセス中に静的な正規化項を導入するだけのものでした。

しかし、より深刻な制限は、DRL フレームワークに基づいて採用されているプルーニング方法が、プルーニングの問題と本質的に互換性がないことです。結果、最高の圧縮率は非構造化圧縮率のわずか 5 倍でした。

Didi の研究ではこれらの欠点が改善され、ニューラル ネットワークの重みの削減の問題に対するハイパーパラメータの設定プロセスを自動化するための汎用フローが提案されました。

全体的に4つのステップに分かれています。最初に動作のサンプリング (ステップ 1) が行われ、次にクイック評価 (ステップ 2)、決定 (ステップ 3)、最後に剪定操作 (ステップ 4) が行われます。

上記の一般的なプロセスに基づき、従来の方法の限界をターゲットに、既存のディープニューラルネットワークと機械学習フレームワークを統合することで、ディープニューラルネットワークの自動構造化プルーニングのための最も効率的な一般的なフレームワークを実装し、それを AutoCompress と名付けました。

実際のパラメータ量の圧縮は120倍以上増加できる

では、AutoCompress はどのように機能するのでしょうか?この論文では、3 つの新しいデザインについて言及しています。

(1)ハイブリッド構造化剪定次元を提案する。(2)効率的で強力なニューラルネットワーク剪定アルゴリズムADMM(交互乗数最適化アルゴリズム)を使用して、トレーニングプロセス中に正則化項を動的に更新する。(3)強化されたガイド付きヒューリスティック検索法を使用して、動作サンプリングを行う。

これらの新しい設計に基づいて、彼らが提案したフレームワークは次のとおりです。

一般的に、AutoCompress フレームワークは、主に 2 つのステップで自動モデル プルーニングを実行します。まず、ADMM アルゴリズムに基づく構造化プルーニングによって、構造的にスパースな重み分布を持つモデルが取得されます。

次に、ネットワーク構造の浄化操作を通じて、ADMM プロセスで完全に削除できない冗長な重みの小さな部分を見つけて削除します。

両方のステップが同じヒューリスティック検索メカニズムに基づいていることは注目に値します。

たとえば、プリミティブ モデルが与えられた場合、重みの数に基づく目的関数と操作数 (FLOP) に基づく目的関数の 2 つを設定します。

検索プロセスは複数のラウンドで実行されます。たとえば、最初のラウンドでは重みの数を 2 倍に圧縮することを目的とし、2 番目のラウンドでは重みの数を 4 倍に圧縮することを目的とします。各検索ラウンドでは、まず動作 (ハイパーパラメータ) が初期化され、その後、その動作に対して毎回摂動 (ハイパーパラメータの小さな変更) が加えられ、新しい動作が生成されます。

シミュレーテッドアニーリングアルゴリズムの原理に従って、2 つの動作が評価されます。新しい動作の評価結果が元の結果よりも優れている場合、その動作は受け入れられます。新しい動作の評価結果が元の結果よりも悪い場合、その動作は一定の確率で受け入れられます。

アルゴリズムの各ラウンドにおける温度パラメータ T は、T が特定のしきい値まで低下するまで減少し、その後検索が停止します。最後に、検索を通じて得られたハイパーパラメータに基づいて、ニューラル ネットワークに対して構造化されたプルーニング操作が実行されます。

パフォーマンスはどうですか?彼らはまた、以下のテストも行いました。

CIFAR-10 データセットでは、VGG-16 は精度を損なうことなく最大 52.2 倍の圧縮率を達成し、Samsung Galaxy S10 スマートフォンで 2.7 ミリ秒で実行されます (コード生成最適化コンパイラを使用)。

ResNet-18 は、精度を損なうことなく、CIFAR-10 データセットで 54.2 倍の構造化プルーニング圧縮率を達成しました。

従来の方法と比較すると、ResNet-18 と ResNet-50 のサイズの違いを考慮すると、重みパラメータを従来の方法に比べて 120 倍削減でき、精度も向上します。

ImageNet データセットでは、VGG-16 はわずか 0.6% の精度損失で 6.4 倍の構造化圧縮率を達成し、ResNet-18 は精度損失なしで 3.3 倍の構造化圧縮率を達成しました。

さらに、AutoCompress フレームワークは非構造化プルーニングにも適用できます。その圧縮結果により、ResNet-50 は ImageNet データセットで精度を低下させることなく 9.2 倍の圧縮率を達成し、わずか 0.7% の精度低下で 17.4 倍の圧縮率を達成できます。

したがって、他の方法と比較して、AutoCompress はさまざまなニューラル ネットワーク圧縮方法やフレームワークよりも効果的であり、結果として得られる効率的なニューラル ネットワーク モデルは、組み込みモバイル システムでリアルタイムの推論操作を実現できると結論付けました。

Didi AIラボインターン

この研究の筆頭著者である劉寧氏は、米国ノースイースタン大学の博士課程の学生であり、同大学の王延志教授の指導を受けている。

高校時代には北京高校物理コンテストで第2位を獲得。大学時代には電子情報工学を専攻し、全国大学生IoTコンテストで第3位を獲得。

2015年にシラキュース大学で修士号を取得。今回紹介した研究は、2019年に滴滴出行でインターンシップをした際の成果の一つだ。インターンシップの指導者は滴滴出行のインテリジェント制御の主任科学者である唐建氏だった。

[[313358]]

Didiでインターンシップをする前、彼はNetEaseと360でもインターンシップをしていました。

ディディ氏の報告によると、彼は自身の研究計画についても語り、ディープラーニングモデルの圧縮と設計について引き続き詳細な研究を行い、学んだ知識と研究結果を現実世界のシナリオに適用したいと考えている。

現在、このフレームワークはDidiで効果的に適用されています。

<<:  テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

>>:  出会い系アプリの女の子たちは実はStyleGANによって生成された偽の人物である

推薦する

ソラの13人のメンバーを解読:北京大学卒業生を含む中国人3人、博士号を取得したばかりの1人、そして21歳の天才

OpenAIはSoraで世界に衝撃を与えた。どのような才能あるチームがこのような傑作を開発できるので...

産業分野におけるマシンビジョンの用途は何ですか?

マシンビジョン技術には、コンピューターサイエンス、人工知能、信号処理、画像処理、機械学習、光学、自動...

MiniGPT-4: 高度な大規模言語モデルを使用した AI 視覚言語理解の向上

1. プロジェクトの背景と動機今年初め、OPEN AI の GPT-4 は前例のないマルチモーダル機...

IEEE年末AIレビュー:ネットユーザーがGPT-3に悪態をつくよう教える、DeepMindが再びロボットを作る

[[442763]] 2021年、「人工知能の奇跡」はもはや単なる物語ではありません!年末が近づく中...

面接に合格してNLPの扉を開くのに役立つNLPの簡単なガイド

弱い人工知能の時代が到来し、人々の日常生活はアルゴリズムが提供するサービスと切り離せないものとなって...

20万人を超える人々が請願し、MITとハーバード大学が米国政府を訴えています。

米国移民関税執行局の最近の新しい規制は、アメリカのトップ大学の間で騒動を引き起こしている。ハーバード...

スマート教育を開発することの価値は何でしょうか? 5GとAIが重要な役割を果たす

国内の感染予防・抑制状況が基本的に安定してきたため、各地で大学や小中学校などで「授業再開」が実施され...

...

複数の機会が生まれており、虹彩認識技術の将来の発展は有望である

[[424491]]近年、人工知能ブームの影響を受けて、生体認証技術は急速に進歩し、市場の発展も好調...

...

AI はどのようにしてよりスマートな建物を作り出すのでしょうか?

[[405913]]センサー、ビッグデータ、人工知能 (AI) を融合したスマート ビルの出現は、...

GitHubオープンソース130+スター:PPYOLOシリーズをベースにターゲット検出アルゴリズムを再現する方法をHand in handで教える

物体検出は、コンピューター ビジョンの分野における基本的なタスクです。適切な Model Zoo な...

産業用ロボット市場は変化しており、今後は国産品の台頭が期待されます!

皆さんご存知のとおり、2013年以来、我が国は世界最大の産業用ロボットの需要と応用市場となっています...

AIが「迷惑メール」をフィルタリングし、ユーザーが価値あるメールを素早く見つけられるようにする

現在、世界中で毎日送信される 3,000 億通の電子メールのうち、少なくとも半分はスパムです。電子メ...

人工知能の急速な発展により、私たちは職を失うことになるのでしょうか?

音声制御システムから今日のいくつかの無人技術まで、人工知能は徐々に成熟しています。ビッグデータセンタ...