この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

ディープラーニングは人工知能(AI)分野の継続的な発展を促進し、多くの技術的進歩を達成しました。同時に、限られたハードウェア リソースでモデルの潜在能力を最大限に引き出し、展開されたモデルの精度を向上させる方法が、学界と産業界の研究のホットスポットとなっています。その中で、知識蒸留は、モデルの圧縮と強化の方法として、より一般化能力の強い「ビッグネットワークモデル」に含まれる知識を「スモールネットワークモデル」に「蒸留」し、スモールモデルの精度を向上させるものであり、完全監督、半監督、自己監督、ドメイン転送など、AI分野のさまざまな方向に広く使用されています。

最近、   OPPO 研究所と上海交通大学は、知識蒸留のパラダイムそのものに焦点を当て、新しい自己蒸留フレームワークである DLB (Self-Distillation from Last Mini-Batch) を提案しました。このモデルは、追加のネットワーク アーキテクチャの変更を必要とせず、ラベル ノイズに対して堅牢で、トレーニングの空間計算量を大幅に削減します。さらに、3 つのベンチマーク データでの実験では、モデルは SOTA パフォーマンスを達成しました。関連論文「一貫性正規化のための最後のミニバッチからの自己蒸留」が CVPR 2022 に掲載されました。

論文リンク: https://arxiv.org/pdf/2203.16172.pdf

DLB 自己蒸留フレームワーク

蒸留の計算の複雑さを軽減するにはどうすればよいでしょうか?

知識蒸留は、一般的に、オフライン蒸留、オンライン蒸留、自己蒸留の 3 つのカテゴリに分けられます。その中で、自己蒸留は軽量なトレーニングと高い知識移転効率という特徴があり、最近研究者から注目を集めています。

図1: 我々の手法と他の自己蒸留法との比較

ただし、Be Your Own Teacher などの従来の自己蒸留では、モデルのトレーニング中にモデル構造を変更する必要があります。さらに、高いトレーニング コスト、計算の冗長性、効率の低さも、自己蒸留が克服する必要がある困難な問題です。

上記の問題を解決し、モデルを携帯電話などの端末デバイスに適切に展開できるようにするため、OPPO 研究所と上海交通大学の研究者は DLB 自己蒸留フレームワークを提案しました。トレーニング前後のバッチ予測結果の一貫性を利用することで、モデルのネットワーク構造を変更することなく、トレーニングの複雑さを軽減し、モデルの一般化能力を高めることができます。

1. 本論文の目的

トレーニングの計算の複雑さを軽減し、モデルの精度と一般化を向上させるために、より軽量な自己蒸留法が提案されています。

2. 本論文の革新性と貢献

  • DLB は、次のバッチの一部のサンプルと重複するソフト ターゲットを保存することで自己蒸留を実行することが提案されています。コンピューティング メモリを節約し、トレーニング プロセスを簡素化します。
  • トレーニング サンプルの各フォワード プロセスは、学習効率を向上させるためにバックプロパゲーション プロセスに関連付けられています。
  • この実験では、DLB トレーニング方法の動的影響を分析し、その正規化効果が、即座に効果を発揮するスムーズなラベルによってもたらされるトレーニングの一貫性から生じていることを発見し、自己蒸留の理論的研究の実験的基礎を提供しました。

DLB自己蒸留フレームワークトレーニングメカニズム

DLB トレーニング フェーズの各反復では、ターゲット ネットワークは「教師」と「生徒」の 2 つの役割を果たします。教師の役割は、正規化のための次の反復のソフト ターゲットを生成することです。生徒の役割は、前の反復の平滑化されたラベルから抽出し、教師あり学習の目標を最小化することです。

データセットは次のように定義される

n 個のサンプルを含むバッチは次のように定義されます。

画像分類を例にとると、まず画像はデータ拡張され、次にニューラル ネットワークに入力されて、予測出力と実際の値の間のクロス エントロピー損失が最適化されます。

上記の式における p_i の表現は次のとおりです。

θ はネットワークパラメータ、K は分類カテゴリの数、τ は温度を表します。

一般化能力を向上させるために、従来のバニラ知識蒸留では、事前トレーニング済みの教師ネットワークの知識を、追加の最適化された KL ダイバージェンス損失を通じて転送します。

教師モデルを事前トレーニングして (P_i^τ )̃ を生成する従来の方法とは異なり、DLB はトレーニングで前のバッチに含まれる情報を使用して (P_i^τ )̃ を生成し、それを正規化されたインスタントスムースラベルとして使用します。

図2:DLBトレーニング法の模式図

図2に示すように、t回目の反復におけるデータサンプルは次のように定義されます。

ニューラルネットワークのパラメータはθ_tです。

B_t と B_(t-1) はデータ サンプラーを使用して取得され、L_CE は順方向処理後に計算されます。各ミニバッチの半分は前の反復と一致するように制約され、残りの半分は次の反復と一致するように制約されます。その後、ミニバッチの前半は、前回の反復で生成された動的ソフト ターゲットを使用して学習されます。今すぐ

t-1回の反復からのソフトラベル

生成する。したがって、導入された正則化損失式は次のようになります。

平滑化されたラベルを保存するのに追加のメモリコストはほとんど必要ないため、追加の計算コストは​​低くなります。全体的な損失関数は次のように表されます。

要約すると、DLB アルゴリズムの全体的なトレーニングの疑似コードは次のようになります。

実験のセットアップ

研究者らは、CIFAR-10、CIFAR-100、TinyImageNet を含む 3 つの画像分類ベンチマーク データセットを使用してパフォーマンスを評価しました。実験結果はすべて、次の表に示すように最高のパフォーマンスを達成しました。

具体的には、平均エラー率レベルでは、DLB は CIAFR-100 では 0.83% から 2.50% に、CIFAR-10 では 0.37% から 1.01% に、TinyImageNet では 0.81% から 3.17 に改善されます。 DLB のパフォーマンスは Tf-KD や PS-KD よりも大幅に優れていることは注目に値します。これは、モデルの一般化を改善する上での DLB の利点を証明しています。

DLB とデータ拡張ベースの正規化手法との互換性を評価するために、研究者らは CIFAR-10 および CIFAR-100 で DLB を CutMix、CutOut、DDGSD と組み合わせました。以下に示すように、実験では、DLB とブースティングベースの正則化を組み合わせることで、さらなるパフォーマンスの向上が達成できることが示されています。

その堅牢性を証明するために、研究者らはトレーニング前に CIFAR-100 と CIFAR-10 にラベルノイズをランダムに注入しました。実験結果を下の図に示します。DLB はラベルノイズに効果的に抵抗し、全体的なパフォーマンスを向上させることができます。

結論

この論文では、自己蒸留の考え方に基づいたディープラーニングトレーニング戦略を提案しています。この戦略は、自己蒸留の考え方をモデルトレーニングプロセスに統合し、教師の追加事前トレーニングを必要とせずに従来の知識蒸留を改善します。 3 つのベンチマーク データセットでの実験を通じて、DLB トレーニング戦略の有効性と普遍性がさまざまな側面で実証されています。

現在、ディープラーニング ネットワーク モデルの構造的複雑さは増大し続けており、限られたハードウェア リソースを使用して AI モデルを開発および展開することが新たな科学的研究上の問題となっています。この記事では、研究者が設計した DLB トレーニング戦略によって、「モデルの複雑さを増やさずにモデルの精度を向上させる」という業界の難しい問題がある程度解決されました。

<<:  Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

>>:  新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

ブログ    
ブログ    

推薦する

2020 年の予測: 今年はサイバー犯罪サービスが普及する年になるか?

業界メディアeWEEKの2020年の予測:人工知能と機械学習の「中毒」についての予測も見られ、これが...

ビッグデータの本当の問題と、なぜ機械学習だけがそれを解決できるのか

多くの企業が、データの取得から洞察の獲得まで、スムーズに実行されるパイプラインの構築に依然として苦労...

ビッグデータと人工知能のために生まれた新しい職業:アルゴリズム専門家

ビッグデータとは、さまざまな種類のデータから貴重な情報を迅速に取得する能力を指します。これを理解する...

AIは胸部X線写真からCOVID-19を検出できる

先週、ノースウェスタン大学の研究者らは、胸部X線写真からCOVID-19感染の兆候を検出できる新たな...

ChatGPTのトラフィックが減少しており、学生が夏休みに入っているためだと推測する人もいる

7月16日、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ユーザーと自然言語で会...

人工知能が他に何ができるか知りたいですか?明確な「ベイジアン意識」を持たなければならない

私たちとの会話の中で、多くの読者が、人工知能が予想外の多くのことを実行できることに驚いたと述べていま...

...

...

清華大学人工知能開発報告:中国は過去10年間のAI特許出願で世界第1位

ザ・ペーパー記者 張偉最新の報告書によると、中国の人工知能特許出願件数は過去10年間で世界第1位であ...

オペレーターの人工知能への道

1年間の開発を経て、人工知能の技術とアプリケーションは、特に通信業界で徐々に爆発的に増加しました。 ...

推奨に値する 7 つの優れたオープンソース AI ライブラリ

[[406029]] [51CTO.com クイック翻訳]人工知能 (AI) 研究の分野では、Ten...

電力業界における人工知能開発の現状

今日は、人類が初めて電気を家庭や企業に供給するようになってから 140 年目の記念日です。電力産業は...

会話型 AI ソリューションを実装する際に避けるべき 7 つの間違い

会話型 AI ソリューションを実装する際によくある 7 つの間違いを見てみましょう。適切な戦略と計画...

AIカンファレンスは数多くあるが、私たちは違う

[51CTO.com からのオリジナル記事] テクノロジーが国の基盤であるならば、人工知能は将来の技...

機械学習および予測アプリケーション用の 50 を超える API。どれを選びますか?

この記事では、2018 年以降、顔と画像の認識、テキスト分析、自然言語処理、感情分析、言語翻訳、機械...