ディープラーニングは人工知能(AI)分野の継続的な発展を促進し、多くの技術的進歩を達成しました。同時に、限られたハードウェア リソースでモデルの潜在能力を最大限に引き出し、展開されたモデルの精度を向上させる方法が、学界と産業界の研究のホットスポットとなっています。その中で、知識蒸留は、モデルの圧縮と強化の方法として、より一般化能力の強い「ビッグネットワークモデル」に含まれる知識を「スモールネットワークモデル」に「蒸留」し、スモールモデルの精度を向上させるものであり、完全監督、半監督、自己監督、ドメイン転送など、AI分野のさまざまな方向に広く使用されています。 最近、 OPPO 研究所と上海交通大学は、知識蒸留のパラダイムそのものに焦点を当て、新しい自己蒸留フレームワークである DLB (Self-Distillation from Last Mini-Batch) を提案しました。このモデルは、追加のネットワーク アーキテクチャの変更を必要とせず、ラベル ノイズに対して堅牢で、トレーニングの空間計算量を大幅に削減します。さらに、3 つのベンチマーク データでの実験では、モデルは SOTA パフォーマンスを達成しました。関連論文「一貫性正規化のための最後のミニバッチからの自己蒸留」が CVPR 2022 に掲載されました。 論文リンク: https://arxiv.org/pdf/2203.16172.pdf DLB 自己蒸留フレームワーク蒸留の計算の複雑さを軽減するにはどうすればよいでしょうか?知識蒸留は、一般的に、オフライン蒸留、オンライン蒸留、自己蒸留の 3 つのカテゴリに分けられます。その中で、自己蒸留は軽量なトレーニングと高い知識移転効率という特徴があり、最近研究者から注目を集めています。 図1: 我々の手法と他の自己蒸留法との比較 ただし、Be Your Own Teacher などの従来の自己蒸留では、モデルのトレーニング中にモデル構造を変更する必要があります。さらに、高いトレーニング コスト、計算の冗長性、効率の低さも、自己蒸留が克服する必要がある困難な問題です。 上記の問題を解決し、モデルを携帯電話などの端末デバイスに適切に展開できるようにするため、OPPO 研究所と上海交通大学の研究者は DLB 自己蒸留フレームワークを提案しました。トレーニング前後のバッチ予測結果の一貫性を利用することで、モデルのネットワーク構造を変更することなく、トレーニングの複雑さを軽減し、モデルの一般化能力を高めることができます。 1. 本論文の目的 トレーニングの計算の複雑さを軽減し、モデルの精度と一般化を向上させるために、より軽量な自己蒸留法が提案されています。 2. 本論文の革新性と貢献
DLB自己蒸留フレームワークトレーニングメカニズムDLB トレーニング フェーズの各反復では、ターゲット ネットワークは「教師」と「生徒」の 2 つの役割を果たします。教師の役割は、正規化のための次の反復のソフト ターゲットを生成することです。生徒の役割は、前の反復の平滑化されたラベルから抽出し、教師あり学習の目標を最小化することです。 データセットは次のように定義される n 個のサンプルを含むバッチは次のように定義されます。 画像分類を例にとると、まず画像はデータ拡張され、次にニューラル ネットワークに入力されて、予測出力と実際の値の間のクロス エントロピー損失が最適化されます。 上記の式における p_i の表現は次のとおりです。 θ はネットワークパラメータ、K は分類カテゴリの数、τ は温度を表します。 一般化能力を向上させるために、従来のバニラ知識蒸留では、事前トレーニング済みの教師ネットワークの知識を、追加の最適化された KL ダイバージェンス損失を通じて転送します。 教師モデルを事前トレーニングして (P_i^τ )̃ を生成する従来の方法とは異なり、DLB はトレーニングで前のバッチに含まれる情報を使用して (P_i^τ )̃ を生成し、それを正規化されたインスタントスムースラベルとして使用します。 図2:DLBトレーニング法の模式図 図2に示すように、t回目の反復におけるデータサンプルは次のように定義されます。 ニューラルネットワークのパラメータはθ_tです。 B_t と B_(t-1) はデータ サンプラーを使用して取得され、L_CE は順方向処理後に計算されます。各ミニバッチの半分は前の反復と一致するように制約され、残りの半分は次の反復と一致するように制約されます。その後、ミニバッチの前半は、前回の反復で生成された動的ソフト ターゲットを使用して学習されます。今すぐ t-1回の反復からのソフトラベル 生成する。したがって、導入された正則化損失式は次のようになります。 平滑化されたラベルを保存するのに追加のメモリコストはほとんど必要ないため、追加の計算コストは低くなります。全体的な損失関数は次のように表されます。 要約すると、DLB アルゴリズムの全体的なトレーニングの疑似コードは次のようになります。 実験のセットアップ研究者らは、CIFAR-10、CIFAR-100、TinyImageNet を含む 3 つの画像分類ベンチマーク データセットを使用してパフォーマンスを評価しました。実験結果はすべて、次の表に示すように最高のパフォーマンスを達成しました。 具体的には、平均エラー率レベルでは、DLB は CIAFR-100 では 0.83% から 2.50% に、CIFAR-10 では 0.37% から 1.01% に、TinyImageNet では 0.81% から 3.17 に改善されます。 DLB のパフォーマンスは Tf-KD や PS-KD よりも大幅に優れていることは注目に値します。これは、モデルの一般化を改善する上での DLB の利点を証明しています。 DLB とデータ拡張ベースの正規化手法との互換性を評価するために、研究者らは CIFAR-10 および CIFAR-100 で DLB を CutMix、CutOut、DDGSD と組み合わせました。以下に示すように、実験では、DLB とブースティングベースの正則化を組み合わせることで、さらなるパフォーマンスの向上が達成できることが示されています。 その堅牢性を証明するために、研究者らはトレーニング前に CIFAR-100 と CIFAR-10 にラベルノイズをランダムに注入しました。実験結果を下の図に示します。DLB はラベルノイズに効果的に抵抗し、全体的なパフォーマンスを向上させることができます。 結論この論文では、自己蒸留の考え方に基づいたディープラーニングトレーニング戦略を提案しています。この戦略は、自己蒸留の考え方をモデルトレーニングプロセスに統合し、教師の追加事前トレーニングを必要とせずに従来の知識蒸留を改善します。 3 つのベンチマーク データセットでの実験を通じて、DLB トレーニング戦略の有効性と普遍性がさまざまな側面で実証されています。 現在、ディープラーニング ネットワーク モデルの構造的複雑さは増大し続けており、限られたハードウェア リソースを使用して AI モデルを開発および展開することが新たな科学的研究上の問題となっています。この記事では、研究者が設計した DLB トレーニング戦略によって、「モデルの複雑さを増やさずにモデルの精度を向上させる」という業界の難しい問題がある程度解決されました。 |
<<: Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています
>>: 新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス
[[207640]]この記事は、Zhihu の質問「ディープラーニングの分散トレーニングにおける大...
今日の建物、ましてや将来のスマート ビルにとって、技術インフラの重要性はいくら強調してもし過ぎること...
清華大学金融学科教授の李道奥氏は、ハーバード大学で経済学の博士号を取得。スタンフォード大学フーバー研...
AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモ...
最近、国家運輸安全委員会(NTSB)は、Uberの自動運転車による死亡事故に関する調査の新たな進展を...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
どのビジネスリーダーも、顧客サービスがビジネスの最優先事項になっていることを認めるでしょう。同社は、...
10月10日のニュース、AIに陸上を歩けるロボットを設計するように頼んだら何秒かかるでしょうか?答え...
AI ベースの自動化ツールは、候補者データを収集して処理し、候補者の調達、スクリーニング、多様性、そ...
コンピューターの専門家がまた一人亡くなりました! 著名なコンピューター科学者で、MITのコンピュータ...
[[373863]] 「人工知能は将来の生産性の中核である」という見解に疑問を抱く人はほとんどいませ...