2019年最後の月に、知っておくべき6つの最新の剪定テクニックをご紹介します

2019年最後の月に、知っておくべき6つの最新の剪定テクニックをご紹介します

剪定技術についてどれくらいご存知ですか? 2019年に6つの論文で紹介された最新の剪定方法をまとめたレシピをご紹介します。

[[285686]]

プルーニングは、ニューラル ネットワークのサイズを縮小し、効率を高めるのに役立つディープラーニング手法です。これは、重みテンソル内の不要な値を削除し、圧縮されたニューラル ネットワークの実行を高速化し、ネットワーク トレーニング中の計算コストを削減するモデル最適化手法です。モデルが携帯電話などのエッジデバイスに展開されると、プルーニングの役割がより明白になります。

この記事では、ニューラル ネットワークのプルーニングの分野におけるいくつかの研究論文を参考として取り上げます。

論文 1: ゼロからの剪定 (2019)

著者らは、ゼロから始めるネットワーク プルーニング プロセスを提案しています。彼らは、CIFAR10 および ImageNet データセットで複数の圧縮分類モデルを実験し、このプロセスによって通常のプルーニング方法の事前トレーニングのオーバーヘッドが削減され、ネットワークの精度が向上することを示しました。

論文リンク: https://arxiv.org/pdf/1909.12579.pdf

次の図は、従来のプルーニング プロセスの 3 つの段階 (事前トレーニング、プルーニング、微調整) を示しています。

この論文で提案されている剪定手法には、ランダムに初期化された重みに基づいて学習できる新しい剪定手順が含まれています。スカラー ゲート値を各ネットワーク層に関連付けることで、チャネルの重要度を学習できます。

チャネルの重要度を最適化すると、スパース正則化によるモデルのパフォーマンスが向上します。このプロセス中、ランダム重みは更新されません。次に、指定されたリソース制約に基づいて、バイナリ検索戦略を使用して、プルーニングされたモデルのチャネル番号構成を決定します。

次の表は、さまざまなデータセットにおけるモデルの精度を示しています。

論文 2: 敵対的ニューラル プルーニング (2019)

この論文では主に、敵対的摂動に遭遇したときにネットワークの隠れた特徴が歪む問題について議論します。この論文で提案されている方法は、ベイジアン剪定マスクを学習して高レベルの歪み特徴を抑制し、それによって敵対的摂動に対する堅牢性を最大化することである。

論文リンク: https://arxiv.org/pdf/1908.04355.pdf

著者らは、ディープニューラルネットワークにおける潜在的な特徴の脆弱性を考慮した。この方法では、堅牢な特徴を保持しながら脆弱な特徴を削除することを提案します。これは、ベイジアン フレームワークでプルーニング マスクを敵対的に学習することによって実現されます。

敵対的ニューラル プルーニング (ANP) は、敵対的トレーニングとベイズ プルーニング手法を組み合わせたものです。この論文で提案された新しいモデルとそのベースラインモデルは次のとおりです。

  • 標準畳み込みニューラル ネットワーク (標準)
  • ベイジアン・プルーニング(BP)とも呼ばれるベータ・ベルヌーイ・ドロップアウトを使用したベースネットワーク
  • 敵対的トレーニング ネットワーク (AT)
  • ベータベルヌーイドロップアウトを使用した敵対的ニューラルプルーニング(ANP)
  • 脆弱性抑制損失で正規化された敵対的トレーニングネットワーク(AT-VS)
  • 脆弱な抑制損失で正規化された敵対的ニューラルプルーニングネットワーク(ANP-VS)

次の表はモデルのパフォーマンスを示しています。

論文 3: ネットワーク プルーニングの価値の再考 (ICLR 2019)

本論文で提案するネットワーク剪定方法は 2 つのカテゴリに分かれており、対象となる剪定モデルのアーキテクチャは人間または剪定アルゴリズムによって決定されます。実験では、著者らは、事前定義された方法と自動化された方法の両方について、最初から剪定されたモデルをトレーニングした結果と、継承された重みに基づいて微調整して得られた剪定されたモデルの結果を比較しました。

論文リンク: https://arxiv.org/pdf/1810.05270v2.pdf

下の図は、L1 ノルム フィルター プルーニングに基づく定義済みの構造化プルーニングを使用して得られた結果を示しています。各レイヤーは、より小さな L1 ノルムを使用して、一定の割合のフィルターを削除します。 「プルーニングされたモデル」列は、各モデルを構成するために使用される定義済みターゲット モデルのリストです。各行で、最初からトレーニングされたモデルが、少なくとも微調整されたモデルと同等のパフォーマンスを発揮していることがわかります。

下の表に示すように、ThiNet は次のレイヤーのアクティベーション値への影響が最も少ないチャネルを貪欲に削減します。

次の表は、回帰ベースの特徴再構築方法の結果を示しています。この方法は、次の層の特徴マップの再構築エラーを最小限に抑え、チャネルのプルーニングを実現します。この最適化問題は LASSO 回帰によって解決できます。

ネットワーク スリミングに関しては、トレーニング中に、バッチ正規化レイヤーのチャネル レベルのスケーリング係数に L1 スパース性が適用されます。その後、より低いスケーリング係数を使用してチャネルが整理されます。チャネルのスケーリング係数はレイヤー間で比較されるため、この方法ではターゲット アーキテクチャを自動的に検出できます。

論文 4: 変換可能なアーキテクチャ検索によるネットワーク プルーニング (NeurIPS 2019)

この論文では、柔軟な数のチャネルとレイヤーを持つネットワークにニューラル アーキテクチャ検索を直接適用することを提案します。プルーニングされたネットワークの損失を最小限に抑えることは、チャネルの数を学習するのに役立ちます。プルーニングされたネットワークの特徴マップは、確率分布に基づいてサンプリングされた K 個の特徴マップ セグメントで構成され、損失はバックプロパゲーションを通じてネットワークの重みとパラメーター化された分布に転送されます。

論文リンク: https://arxiv.org/pdf/1905.09717v5.pdf

剪定されたネットワークの幅と深さは、各分布サイズの最大確率に基づいて取得され、これらのパラメータは元のネットワークからの知識転送によって取得されます。著者らは、CIFAR-10、CIFAR-100、および ImageNet データセットでモデルを評価しました。

剪定方法は 3 つのステップで構成されます。

  • 標準的な分類トレーニング手順を使用して、大規模な剪定されていないネットワークをトレーニングします。
  • 小規模ネットワークの深さと幅は、Transformable Architecture Search (TAS) を通じて検索され、最適なサイズのネットワークを見つけることを目指します。
  • 単純な知識蒸留 (KD) 法を使用して、剪定されていないネットワークの情報を、検索によって得られた小規模ネットワークに転送します。

次の表は、さまざまなプルーニング アルゴリズムを適用した後の ImageNet データセットにおけるさまざまな ResNet モデルのパフォーマンスを比較したものです。

論文 5: 自己適応型ネットワーク プルーニング (ICONIP 2019)

この論文では、各畳み込み層に Saliency-and-Pruning モジュール (SPM) を導入することで実現される適応型ネットワーク プルーニング法 (SANP) を通じて CNN の計算コストを削減することを提案しています。SPM モジュールは、サリエンシー スコアを予測し、各チャネルをプルーニングすることを学習できます。 SANP は、各レイヤーと各サンプルに基づいて、対応するプルーニング戦略を決定します。

論文リンク: https://arxiv.org/pdf/1910.08906.pdf

以下のアーキテクチャ図によると、SPM モジュールは畳み込みネットワークの各層に埋め込まれています。このモジュールは、入力機能に基づいてチャネルの重要度スコアを予測し、各チャネルに対応するプルーニングの決定を生成できます。

プルーニング決定が 0 のチャネルの場合、畳み込み演算はスキップされ、分類目標とコスト目標を使用してバックボーン ネットワークと SPM モジュールが共同でトレーニングされます。計算コストは​​、各レイヤーでのプルーニングの決定によって異なります。

次の表は、このアプローチの結果の一部を示しています。

論文 6: 大規模言語モデルの構造化剪定 (2019)

この論文で提案されている剪定方法は、低ランク分解と拡張ラグランジュ 10 ノルム正規化の原理に基づいています。 L_0 正則化は構造化プルーニングによって課される制約を緩和しますが、低ランク因数分解は行列の密な構造を保持します。

論文リンク: https://arxiv.org/pdf/1910.04732.pdf

正規化により、ネットワークは削除する重みを選択できます。重み行列は 2 つの小さな行列に分解され、これらの 2 つの行列の間に対角マスクが設定されます。トレーニング中、L_0 正規化を使用してこのマスクに対してプルーニングが実行されます。拡張ラグランジュ法は、モデルの最終的なスパース性を制御するために使用されます。論文の著者はこの方法を FLOP (Factorized L0 Pruning) と呼んでいます。

この論文で使用されている文字レベルの言語モデルは、Wikipedia から選択された 1 億件のデータを含む enwik8 データセットの実験で使用されています。著者らは、SRU モデルと Transformer-XL モデルで FLOPs メソッドを評価しました。次の表に結果の一部を示します。

以上が今回ご紹介したいくつかのプルーニング手法です。 この記事で紹介した論文にはコード実装も掲載されており、ご自身でテストすることも可能です。

<<:  AIは寒さに晒されているのか?スタンフォード大学の年次AIレポートが秘密を明らかにする

>>:  2020 年の予測: AI セキュリティの 10 のトレンド

ブログ    

推薦する

...

グーグルは、人工知能の進歩により飛行機による地球温暖化への影響を大幅に軽減できると主張

グーグルは8月14日、飛行機による気候への影響を大幅に軽減できる人工知能の分野で大きな進歩を遂げたと...

AIが農業用水効率の課題をどう解決するか

[[388190]] • 食糧需要が増加するにつれて、世界は水の使用を管理する必要があります。 • ...

カスタムデータセットにOpenAI CLIPを実装する

2021年1月、OpenAIはDALL-EとCLIPという2つの新しいモデルを発表しました。どちらも...

5Gベースバンドに機械学習ユニットを追加:クアルコムには多くのAI脳の穴がある

最も先進的な AI テクノロジーは、最も広く使用されているモバイル チップに使用されています。最近、...

IoTの未来が機械学習に依存する理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

2019 年に注目すべき 10 社のクールなロボット スタートアップ

[51CTO.com クイック翻訳] ロボットは登場しましたが、現在はほとんど世間の注目を浴びていま...

注目の開発スキル5つについて学ぶ

[[277303]] [51CTO.com クイック翻訳] 開発者は人気のある仕事の 1 つであり、...

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし...

...

...

ベルギー国会議員は、携帯電話を使用しているとAIによって公に名指しされたため、議会で「気を散らされる」ことはできなくなった。

[[410932]]会議中にこっそりと携帯電話を見ている時間がバックグラウンド システムによって記...

清華大学の劉志遠氏:「ビッグモデルに関する10の質問」、新しいパラダイムの下での研究の方向性を見つける

大規模モデルの出現により AI 研究の新しい時代が到来し、それによってもたらされた改善は非常に大きく...

人工ニューラルネットワークは、体型を崩すことなく、一瞬で老けたり若返ったりすることができる

ディープラーニングマシンは、人が年をとった後の顔がどのようになるかを示すことができますが、多くの場合...

...