この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

ディープラーニングは人工知能(AI)分野の継続的な発展を促進し、多くの技術的進歩を達成しました。同時に、限られたハードウェア リソースでモデルの潜在能力を最大限に引き出し、展開されたモデルの精度を向上させる方法が、学界と産業界の研究のホットスポットとなっています。その中で、知識蒸留は、モデルの圧縮と強化の方法として、より一般化能力の強い「ビッグネットワークモデル」に含まれる知識を「スモールネットワークモデル」に「蒸留」し、スモールモデルの精度を向上させるものであり、完全監督、半監督、自己監督、ドメイン転送など、AI分野のさまざまな方向に広く使用されています。

最近、   OPPO 研究所と上海交通大学は、知識蒸留のパラダイムそのものに焦点を当て、新しい自己蒸留フレームワークである DLB (Self-Distillation from Last Mini-Batch) を提案しました。このモデルは、追加のネットワーク アーキテクチャの変更を必要とせず、ラベル ノイズに対して堅牢で、トレーニングの空間計算量を大幅に削減します。さらに、3 つのベンチマーク データでの実験では、モデルは SOTA パフォーマンスを達成しました。関連論文「一貫性正規化のための最後のミニバッチからの自己蒸留」が CVPR 2022 に掲載されました。

論文リンク: https://arxiv.org/pdf/2203.16172.pdf

DLB 自己蒸留フレームワーク

蒸留の計算の複雑さを軽減するにはどうすればよいでしょうか?

知識蒸留は、一般的に、オフライン蒸留、オンライン蒸留、自己蒸留の 3 つのカテゴリに分けられます。その中で、自己蒸留は軽量なトレーニングと高い知識移転効率という特徴があり、最近研究者から注目を集めています。

図1: 我々の手法と他の自己蒸留法との比較

ただし、Be Your Own Teacher などの従来の自己蒸留では、モデルのトレーニング中にモデル構造を変更する必要があります。さらに、高いトレーニング コスト、計算の冗長性、効率の低さも、自己蒸留が克服する必要がある困難な問題です。

上記の問題を解決し、モデルを携帯電話などの端末デバイスに適切に展開できるようにするため、OPPO 研究所と上海交通大学の研究者は DLB 自己蒸留フレームワークを提案しました。トレーニング前後のバッチ予測結果の一貫性を利用することで、モデルのネットワーク構造を変更することなく、トレーニングの複雑さを軽減し、モデルの一般化能力を高めることができます。

1. 本論文の目的

トレーニングの計算の複雑さを軽減し、モデルの精度と一般化を向上させるために、より軽量な自己蒸留法が提案されています。

2. 本論文の革新性と貢献

  • DLB は、次のバッチの一部のサンプルと重複するソフト ターゲットを保存することで自己蒸留を実行することが提案されています。コンピューティング メモリを節約し、トレーニング プロセスを簡素化します。
  • トレーニング サンプルの各フォワード プロセスは、学習効率を向上させるためにバックプロパゲーション プロセスに関連付けられています。
  • この実験では、DLB トレーニング方法の動的影響を分析し、その正規化効果が、即座に効果を発揮するスムーズなラベルによってもたらされるトレーニングの一貫性から生じていることを発見し、自己蒸留の理論的研究の実験的基礎を提供しました。

DLB自己蒸留フレームワークトレーニングメカニズム

DLB トレーニング フェーズの各反復では、ターゲット ネットワークは「教師」と「生徒」の 2 つの役割を果たします。教師の役割は、正規化のための次の反復のソフト ターゲットを生成することです。生徒の役割は、前の反復の平滑化されたラベルから抽出し、教師あり学習の目標を最小化することです。

データセットは次のように定義される

n 個のサンプルを含むバッチは次のように定義されます。

画像分類を例にとると、まず画像はデータ拡張され、次にニューラル ネットワークに入力されて、予測出力と実際の値の間のクロス エントロピー損失が最適化されます。

上記の式における p_i の表現は次のとおりです。

θ はネットワークパラメータ、K は分類カテゴリの数、τ は温度を表します。

一般化能力を向上させるために、従来のバニラ知識蒸留では、事前トレーニング済みの教師ネットワークの知識を、追加の最適化された KL ダイバージェンス損失を通じて転送します。

教師モデルを事前トレーニングして (P_i^τ )̃ を生成する従来の方法とは異なり、DLB はトレーニングで前のバッチに含まれる情報を使用して (P_i^τ )̃ を生成し、それを正規化されたインスタントスムースラベルとして使用します。

図2:DLBトレーニング法の模式図

図2に示すように、t回目の反復におけるデータサンプルは次のように定義されます。

ニューラルネットワークのパラメータはθ_tです。

B_t と B_(t-1) はデータ サンプラーを使用して取得され、L_CE は順方向処理後に計算されます。各ミニバッチの半分は前の反復と一致するように制約され、残りの半分は次の反復と一致するように制約されます。その後、ミニバッチの前半は、前回の反復で生成された動的ソフト ターゲットを使用して学習されます。今すぐ

t-1回の反復からのソフトラベル

生成する。したがって、導入された正則化損失式は次のようになります。

平滑化されたラベルを保存するのに追加のメモリコストはほとんど必要ないため、追加の計算コストは​​低くなります。全体的な損失関数は次のように表されます。

要約すると、DLB アルゴリズムの全体的なトレーニングの疑似コードは次のようになります。

実験のセットアップ

研究者らは、CIFAR-10、CIFAR-100、TinyImageNet を含む 3 つの画像分類ベンチマーク データセットを使用してパフォーマンスを評価しました。実験結果はすべて、次の表に示すように最高のパフォーマンスを達成しました。

具体的には、平均エラー率レベルでは、DLB は CIAFR-100 では 0.83% から 2.50% に、CIFAR-10 では 0.37% から 1.01% に、TinyImageNet では 0.81% から 3.17 に改善されます。 DLB のパフォーマンスは Tf-KD や PS-KD よりも大幅に優れていることは注目に値します。これは、モデルの一般化を改善する上での DLB の利点を証明しています。

DLB とデータ拡張ベースの正規化手法との互換性を評価するために、研究者らは CIFAR-10 および CIFAR-100 で DLB を CutMix、CutOut、DDGSD と組み合わせました。以下に示すように、実験では、DLB とブースティングベースの正則化を組み合わせることで、さらなるパフォーマンスの向上が達成できることが示されています。

その堅牢性を証明するために、研究者らはトレーニング前に CIFAR-100 と CIFAR-10 にラベルノイズをランダムに注入しました。実験結果を下の図に示します。DLB はラベルノイズに効果的に抵抗し、全体的なパフォーマンスを向上させることができます。

結論

この論文では、自己蒸留の考え方に基づいたディープラーニングトレーニング戦略を提案しています。この戦略は、自己蒸留の考え方をモデルトレーニングプロセスに統合し、教師の追加事前トレーニングを必要とせずに従来の知識蒸留を改善します。 3 つのベンチマーク データセットでの実験を通じて、DLB トレーニング戦略の有効性と普遍性がさまざまな側面で実証されています。

現在、ディープラーニング ネットワーク モデルの構造的複雑さは増大し続けており、限られたハードウェア リソースを使用して AI モデルを開発および展開することが新たな科学的研究上の問題となっています。この記事では、研究者が設計した DLB トレーニング戦略によって、「モデルの複雑さを増やさずにモデルの精度を向上させる」という業界の難しい問題がある程度解決されました。

<<:  Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

>>:  新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

ブログ    
ブログ    
ブログ    

推薦する

人工知能は 5 つの主要な地球規模の問題に解決策をもたらす | ダボス ブログ

[[183562]]人々は常に人工知能について多くの懸念を抱いています。人工知能は私たちの仕事にとっ...

自動化から拡張現実まで: 製造業を混乱させる 12 の革新的なテクノロジー トレンド

製造業は、自動車、電子機器、医療機器、機械、その他のシステムの部品を生産する上で重要な役割を果たして...

良いプロンプトを書くときは、これらの 6 つのポイントを覚えておいてください。覚えていますか?

効果的なプロンプトを書くことは、AI とのやり取りを成功させるための鍵となります。優れたプロンプトは...

2021 年に注目すべき 3 つのデータ分析と AI のトレンド

組織が新型コロナウイルス感染症のパンデミックを乗り越えていく中で、データ分析と AI の ROI を...

ビール会社がIoTとAIを活用する方法

ワイン、酒類、ビール会社を含むあらゆる業界が、モノのインターネット (IoT) と人工知能 (AI)...

人間の脳神経の「100万分の1」の3D接続マップを描きます!膨大な量のデータは14億個の1Tハードドライブを埋め尽くす

少し前に、Google とハーバード大学が共同で、人間の脳の神経の 3D 接続マップを公開しました。...

Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ

[[347377]] Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ近年、Pyth...

...

今後5年間で人気が高まり、就職時の給与も高くなる3つの専攻

大学で何を専攻するかは、慎重に考える必要があります。結局のところ、大学の専攻の選択は私たちの将来の発...

3つの勾配降下法アルゴリズム(BGD、SGD、MBGD)の違い

序文ネットワークをトレーニングするときに、batch_size を設定することがよくあります。この ...

...

人工知能技術は将来のネットワークセキュリティの起爆点と原動力となるかもしれない

Markets and Marketsの人工知能サイバーセキュリティ予測レポートによると、AIサイバ...