パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。

パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

同じ精度で、実際のパラメータの圧縮を従来の方法と比較して 120 倍以上向上できます。

これは、Didi のインターンが提案したAutoCompressという自動構造化プルーニングおよび圧縮アルゴリズム フレームワークによってもたらされるパフォーマンスの向上です。

コアとなるのは、ディープ モデル プルーニングでハイパーパラメータを自動的に検出し、モデルのさまざまなレイヤーでパラメータの冗長性を削除することです。

CIFAR および ImageNet データセットに対する広範なテストにより、AutoCompress がさまざまなニューラル ネットワーク圧縮方法やフレームワークを大幅に上回るパフォーマンスを発揮することが示されました。

この研究はAAAI2020にも採択されました。

研究者らは、この研究により手動の設計プロセスが置き換えられ、組み込みデバイス上でディープモデルを実行するためのリアルタイムのパフォーマンス要件を満たす超高圧縮率を達成できると述べた。

彼らはどうやってそれを達成したのでしょうか?以下、一つずつ解釈してみましょう。

ディープモデルプルーニングにおけるハイパーパラメータの設定を自動化する

近年、ディープニューラルネットワークモデルのパフォーマンスが継続的に向上するにつれて、モデルのバックボーンネットワークパラメータの数がますます大きくなり、ストレージとコンピューティングのコストが増加し続け、リソースが制限された組み込みプラットフォームへの展開が困難になっています。

ディープニューラルネットワークモデル圧縮技術は、この問題を解決するために欠かせない鍵となり、近年の研究のホットスポットの1つにもなっています。

多くの方法が登場していますが、その 1 つである構造化プルーニングは、ハードウェア実行効率の低さ、メモリ アクセス効率の悪さ、プラットフォーム レベルでの計算並列性の低さといった問題を解決できるため、学界や産業界から注目を集めています。

しかし、これには「欠陥」もあり、アルゴリズムの実装プロセスには多数のハイパーパラメータ設定が関係しています。たとえば、モデルの圧縮次元をどのように決定するか、モデル内の各層の圧縮率をどのように決定するかなどです。

これには、ガイダンスを設計するために専門家が懸命に取り組む必要があり、これらのハイパーパラメータを手動で設計するプロセスは長くて複雑です。

効果は必ずしも良いとは限りません。結局のところ、それは関係者のパラメータ調整経験に大きく依存します。

そこで、一部の研究者はハイパーパラメータを自動的に設定できるかどうかについて考え始めました。これが実現すれば、アルゴリズムの実装効率が大幅に向上するでしょう。考えるだけでもワクワクします。

そこで、一部の人々がそれを実行し始めました。たとえば、MIT、CMU、Google の研究者は、深層強化学習 (DRL) を使用して各レイヤーの刈り込み比率を決定する AMC と呼ばれる手法を提案しました。

自動パラメータ調整のアイデアは実現されましたが、まだいくつかの制限があります。

一方で、この研究では単一の出力チャネル (フィルター) のプルーニング次元のみを使用しました。他方では、スパース モデルを取得するために、使用されたプルーニング方法は、モデルのトレーニング プロセス中に静的な正規化項を導入するだけのものでした。

しかし、より深刻な制限は、DRL フレームワークに基づいて採用されているプルーニング方法が、プルーニングの問題と本質的に互換性がないことです。結果、最高の圧縮率は非構造化圧縮率のわずか 5 倍でした。

Didi の研究ではこれらの欠点が改善され、ニューラル ネットワークの重みの削減の問題に対するハイパーパラメータの設定プロセスを自動化するための汎用フローが提案されました。

全体的に4つのステップに分かれています。最初に動作のサンプリング (ステップ 1) が行われ、次にクイック評価 (ステップ 2)、決定 (ステップ 3)、最後に剪定操作 (ステップ 4) が行われます。

上記の一般的なプロセスに基づき、従来の方法の限界をターゲットに、既存のディープニューラルネットワークと機械学習フレームワークを統合することで、ディープニューラルネットワークの自動構造化プルーニングのための最も効率的な一般的なフレームワークを実装し、それを AutoCompress と名付けました。

実際のパラメータ量の圧縮は120倍以上増加できる

では、AutoCompress はどのように機能するのでしょうか?この論文では、3 つの新しいデザインについて言及しています。

(1)ハイブリッド構造化剪定次元を提案する。(2)効率的で強力なニューラルネットワーク剪定アルゴリズムADMM(交互乗数最適化アルゴリズム)を使用して、トレーニングプロセス中に正則化項を動的に更新する。(3)強化されたガイド付きヒューリスティック検索法を使用して、動作サンプリングを行う。

これらの新しい設計に基づいて、彼らが提案したフレームワークは次のとおりです。

一般的に、AutoCompress フレームワークは、主に 2 つのステップで自動モデル プルーニングを実行します。まず、ADMM アルゴリズムに基づく構造化プルーニングによって、構造的にスパースな重み分布を持つモデルが取得されます。

次に、ネットワーク構造の浄化操作を通じて、ADMM プロセスで完全に削除できない冗長な重みの小さな部分を見つけて削除します。

両方のステップが同じヒューリスティック検索メカニズムに基づいていることは注目に値します。

たとえば、プリミティブ モデルが与えられた場合、重みの数に基づく目的関数と操作数 (FLOP) に基づく目的関数の 2 つを設定します。

検索プロセスは複数のラウンドで実行されます。たとえば、最初のラウンドでは重みの数を 2 倍に圧縮することを目的とし、2 番目のラウンドでは重みの数を 4 倍に圧縮することを目的とします。各検索ラウンドでは、まず動作 (ハイパーパラメータ) が初期化され、その後、その動作に対して毎回摂動 (ハイパーパラメータの小さな変更) が加えられ、新しい動作が生成されます。

シミュレーテッドアニーリングアルゴリズムの原理に従って、2 つの動作が評価されます。新しい動作の評価結果が元の結果よりも優れている場合、その動作は受け入れられます。新しい動作の評価結果が元の結果よりも悪い場合、その動作は一定の確率で受け入れられます。

アルゴリズムの各ラウンドにおける温度パラメータ T は、T が特定のしきい値まで低下するまで減少し、その後検索が停止します。最後に、検索を通じて得られたハイパーパラメータに基づいて、ニューラル ネットワークに対して構造化されたプルーニング操作が実行されます。

パフォーマンスはどうですか?彼らはまた、以下のテストも行いました。

CIFAR-10 データセットでは、VGG-16 は精度を損なうことなく最大 52.2 倍の圧縮率を達成し、Samsung Galaxy S10 スマートフォンで 2.7 ミリ秒で実行されます (コード生成最適化コンパイラを使用)。

ResNet-18 は、精度を損なうことなく、CIFAR-10 データセットで 54.2 倍の構造化プルーニング圧縮率を達成しました。

従来の方法と比較すると、ResNet-18 と ResNet-50 のサイズの違いを考慮すると、重みパラメータを従来の方法に比べて 120 倍削減でき、精度も向上します。

ImageNet データセットでは、VGG-16 はわずか 0.6% の精度損失で 6.4 倍の構造化圧縮率を達成し、ResNet-18 は精度損失なしで 3.3 倍の構造化圧縮率を達成しました。

さらに、AutoCompress フレームワークは非構造化プルーニングにも適用できます。その圧縮結果により、ResNet-50 は ImageNet データセットで精度を低下させることなく 9.2 倍の圧縮率を達成し、わずか 0.7% の精度低下で 17.4 倍の圧縮率を達成できます。

したがって、他の方法と比較して、AutoCompress はさまざまなニューラル ネットワーク圧縮方法やフレームワークよりも効果的であり、結果として得られる効率的なニューラル ネットワーク モデルは、組み込みモバイル システムでリアルタイムの推論操作を実現できると結論付けました。

Didi AIラボインターン

この研究の筆頭著者である劉寧氏は、米国ノースイースタン大学の博士課程の学生であり、同大学の王延志教授の指導を受けている。

高校時代には北京高校物理コンテストで第2位を獲得。大学時代には電子情報工学を専攻し、全国大学生IoTコンテストで第3位を獲得。

2015年にシラキュース大学で修士号を取得。今回紹介した研究は、2019年に滴滴出行でインターンシップをした際の成果の一つだ。インターンシップの指導者は滴滴出行のインテリジェント制御の主任科学者である唐建氏だった。

[[313358]]

Didiでインターンシップをする前、彼はNetEaseと360でもインターンシップをしていました。

ディディ氏の報告によると、彼は自身の研究計画についても語り、ディープラーニングモデルの圧縮と設計について引き続き詳細な研究を行い、学んだ知識と研究結果を現実世界のシナリオに適用したいと考えている。

現在、このフレームワークはDidiで効果的に適用されています。

<<:  テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

>>:  出会い系アプリの女の子たちは実はStyleGANによって生成された偽の人物である

推薦する

Golang AI開発: アプリケーションにAIを統合する

[[442273]]みなさんこんにちは。プログラマーのファントムです。将来の世代のために素晴らしいア...

OpenAIの創設者は、Nvidiaに対抗するチップを設計・製造するためのグローバルなチップ工場ネットワークを構築したいと考えている

OpenAIの共同創設者サム・アルトマン氏は最近、Nvidiaに対抗するために世界中にAIチップ工場...

AIによる顔の改造の一般的な手法の詳細な説明

最近また「AI変顔」が流行っていますね。 Leiphone.com(公式アカウント:Leiphone...

大国同士が競争する中、なぜ彼らは人工知能で優位に立とうとするのでしょうか?

不確実性が人間関係を形作ります。感染症は、かつては直線的でスムーズで予測可能だった社会を予期せぬ形で...

研究に特化したChatGPTプラットフォーム:回答は完全に論文から取得され、無料で使用できます

より専門的な情報を入手する必要がある場合、文献を調べることはしばしば「頭痛の種」となる作業です。結局...

人工知能が商業不動産業界にもたらす5つの変化

人工知能は、今日の商業不動産業界において非常に重要な破壊的変化をもたらします。すべての兆候から判断す...

JWT: どの署名アルゴリズムを使用すればよいですか?

[[421048]]この記事は、Scott Brady が執筆した WeChat パブリック アカ...

【ディープラーニング連載】畳み込みニューラルネットワークの徹底解説(第2回)~畳み込みニューラルネットワークを手書きで書いてみる~

前回の記事では、畳み込みニューラルネットワークの基本原理について、いくつかの基本層の定義、動作ルール...

...

ベストプラクティスを実際のデザインパターンに抽象化することはできますか?機械学習

機械学習におけるデザインパターン定義上、デザイン パターンは一般的な問題に対する再利用可能なソリュー...

AIアライメントを徹底レビュー!北京大学などが800以上の文書から4万語を要約し、多くの著名な学者が執筆を担当した。

要点を一目でAI アライメントは、RLHF/RLAIF などの成熟した基本手法だけでなく、スケーラブ...

AI Punk が MNIST に敬意を表す: Python と開発ボードのみを使用して、決して繰り返されない時計を作成

はい、この時計があれば、MNIST 手書きデータセットなしでは生きていけません。私たちは古代の真空管...

AIと人間: 人工知能は常に進歩し、人間は常に進化している

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

たくさん学びました!世界で最も遅いソートアルゴリズム!

今日は、世界で最も遅いソートアルゴリズムである Bogo ソートについてお話ししたいと思います。では...

2030年「メタバース」就職ガイド! CSは依然として非常に人気があり、博士号取得者の需要は衰えていません。

2016年にポケモンGOが世界を席巻したときのことを覚えていますか?当時、多くの人々は、拡張現実革...