ブースティング原理に基づく深層残差ニューラルネットワークのトレーニング

1. 背景

1.1 ブースティング

ブースティング[1]は、アンサンブルモデルを訓練するための古典的な手法です。その特定の実装の1つであるGBDTは、さまざまな問題で広く使用されています。 boostについては多くの記事で紹介されているので、ここでは詳しくは触れません。簡単に言えば、ブースティング法とは、一連の弱いクラスを特定の基準で 1 つずつトレーニングし、これらの弱いクラスに重み付けして強力な分類器を形成することです (図 1)。

1.2 残余ネットワーク

残差ネットワーク[2]は現在、画像分類などのタスクにおける最も先進的なモデルであり、音声認識などの分野にも応用されています。核となるのはスキップ接続またはショートカットです (図 2)。この構造により、勾配が後方に伝播しやすくなり、より深いネットワークをトレーニングすることが可能になります。

前回のブログ記事「アンサンブルモデルとしての残差ネットワーク」では、残差ネットワークを特別なアンサンブルモデルと見なす学者もいることがわかりました[3,4]。この論文の著者の 1 人は Robert Schapire 氏 (Microsoft Research に加わったことに気付きました) で、彼は AdaBoost の提案者 (Yoav Freund 氏と共著) です。 Ensemble の見解は、基本的に主流の見解の 1 つです。

2. トレーニング方法

2.1 フレームワーク

残余ネットワーク

つまり、これは線形分類器 (ロジスティック回帰) です。

仮説モジュール

ここで、$C$ は分類タスクのカテゴリの数です。

弱いモジュール分類器

ここで、$\alpha$ はスカラー、つまり $h$ は仮説の 2 つの隣接する層の線形結合です。 *** 層には下位層がないため、仮想下位層 $\alpha_0=0$ および $,o_0(x)=0$ を持つと見なすことができます。

残差ネットワークをアンサンブルとして表示する

残差ネットワークの最大出力を$F(x)$とし、これを上記の定義と組み合わせると、次のことが明らかになります。

ここでは分割と合計 (テレスコープ和) の手法が使用されているため、著者は提案されたアルゴリズムをテレスコープ和ブースティングと呼んでいます。

残差ネットワークをレベルごとに（残差ブロックごとに）トレーニングするだけで済みます。これは、一連の弱い分類アンサンブルをトレーニングすることと同じです。残差ネットワークの重みをトレーニングすることに加えて、各層の $\alpha$ と $W$ などの補助パラメータもトレーニングする必要があります (トレーニングが完了したら破棄できます)。

2.2 テレスコープサムブースティング

この記事の本文では、バイナリ分類問題を例として取り上げます。ここでは、マルチ分類問題に焦点を当てており、関連するアルゴリズムは付録に記載されています。記事に記載されている疑似コードの説明は非常に明確であり、以下に直接コピーされています。

このうち、$\gamma_t$はスカラー、$C_t$はm行C列（サンプル数×カテゴリ数）の行列、$C_t(i, j)$はi行j列目の要素を表します。

$st(x, l)$ は $s_t(x)$ の $l$ 番目の要素を表すことに注意してください (ここで使用されている記号は少し恣意的です :-)。また、$st(x) = \sum{\tau=1}^th\tau(x) = \alpha_t \cdot o_t(x) $ です。

アルゴリズム3と同様に、$f(g(x_i), l)$は$f(g(x_i))$の$l$番目の要素を表し、$g(x_i, y_i)$は$g(x_i)$の$i$番目の要素を表します。

明らかに、アルゴリズム4によって与えられた最小化問題はSGDを使用して最適化することも、数値的に解くこともできる（[1]のセクション4.3）。

3. 理論

理論的な部分は詳しく検討されませんでした。一般的に、著者らは、BoostResNet をブーストアルゴリズムとして保持する利点として、1) エラーがネットワークの深さ (つまり、弱い分類器の数) とともに指数関数的に減少すること、2) 過剰適合に対する耐性、モデルの複雑さがネットワークの深さとともに直線的に増加すること、を挙げています。詳細は論文をご覧ください。

4. 議論

BoostResNet はレイヤーごとのトレーニングを特徴としており、次のような一連の利点があります。

メモリ使用量を削減する (メモリ効率) ことで、大規模なディープネットワークをトレーニングできるようになります。 (現在、私たちは好奇心を満たすために、CIFAR で 1000 層の残差ネットワークをトレーニングすることしかできません)
計算量を削減し (計算効率を向上)、各レベルで浅いモデルのみをトレーニングします。
浅いモデルのみをトレーニングする必要があるため、最適化方法 (SGD 以外の方法) のオプションが増えます。
さらに、ネットワーク層の数は、トレーニング状況に応じて動的に決定できます。

4.2 いくつかの質問

この記事では、いわゆる e2eResNet を単に比較するのではなく、層ごとにトレーニングされた残差ネットワーク (前の層の重みを固定するかどうかに関係なく) とさらに比較する必要があります。
著者はセクション 1.1*** で、トレーニングフレームワークは ResNet に限定されず、ニューラルネットワークに限定されることもないと述べています。通常のディープラーニングモデルのトレーニングにどの程度効果があるかはわかりません。競合するレイヤーごとの事前トレーニングは、今では少し時代遅れのようです。

参考文献

Schapire & Freund. ブースティング: 基礎とアルゴリズム. MIT.
He et al. 画像認識のための深層残差学習。
Veit ら「残差ネットワークは比較的浅いネットワークの集合体のように動作する」
Xie et al. ディープニューラルネットワークのための集約残差変換。

<<: シテチがスマートシティ建設に新たな活力を注入

>>: Gome のディープラーニング初体験により、ソーシャル e コマースのインテリジェント時代が幕を開けます。

ブースティング原理に基づく深層残差ニューラルネットワークのトレーニング

1.1 ブースティング

1.2 残余ネットワーク

2. トレーニング方法

2.1 フレームワーク

2.2 テレスコープサムブースティング

3. 理論

4. 議論

4.2 いくつかの質問

参考文献

2023年の人工知能に関する6つの予測

25倍のパフォーマンス向上: RustはCとC++に取って代わり、機械学習のPythonバックエンドとして好まれるようになると期待されています。

4分でノーベル賞の再現に成功！ CMU は化学研究を覆す GPT-4 化学者、自律コーディング、ロボット制御を開発し、Nature に発表

電荷ベースの原子シミュレーションのための事前学習済み汎用ニューラルネットワーク CHGNet

AI専門家バターフィールド氏：33カ国が統一AI標準を採用

海外メディアが最初にソラをテストしたが、ビデオはひどい失敗だった？彼らは物理学/動物の変化/非常に遅いことを理解していませんが、スタートアップはすでに衰退しています。

ヤン・ルカンの最新インタビュー: エネルギーモデルは自律型人工知能システムの出発点

顔認識のためのディープラーニングとオブジェクト検出のステップバイステップガイド

推薦する

人工知能を活用した機械駆動型データ自動ラベル付け法

プリンストンが 34B 数学モデルをオープンソース化: パラメータが半分なのに Google Minerva に匹敵するパフォーマンス! 550億トークンのプロフェッショナルデータトレーニング

GPT-5 はますます愚かになるばかりです!スタンフォード・ライス研究所は、AIがAIを5回以上トレーニングすると、モデルが逆効果になり、パフォーマンスが大幅に低下すると警告している。

ボルチモア、これまでで最も厳しい顔認識禁止法を制定する可能性

市場動向 | 人工知能が光接続の需要を急増させる

今日の生活における人工知能（AI）の実際的な意義

AI時代に向けてキャリアを再設計する時が来た

言語学における人工知能技術の応用

解釈可能な機械学習のための Python ライブラリ

ディープラーニングの悪循環は驚くべき結果をもたらすだろう

「2024年最重要AIチャート」が大拡散中！オープンソースのAIモデルは独自のモデルよりも優れているとルカン氏は称賛

ナンバーワンのディープラーニングフレームワークはどれですか? 2022年、PyTorchとTensorFlowが再び競い合う