小さなバッチがディープラーニングの一般化を高める理由

バッチサイズは、機械学習における重要なハイパーパラメータの 1 つです。このハイパーパラメータは、内部モデルパラメータを更新する前に処理するサンプルの数を定義します。

上の図は、SGD を使用してさまざまなバッチサイズをテストする例を示しています。

バッチサイズは、多くのディープラーニングベースのニューラルネットワークのパフォーマンスを決定します。学習プロセスに最適なバッチサイズを評価する研究が数多く行われてきました。たとえば、SGD の場合、バッチ勾配降下法 (すべてのトレーニング例をバッチで使用)、ミニバッチ法 (トレーニングデータのサブセットを使用)、または各例の後に更新する法 (確率的勾配降下法) を使用できます。これらの異なる処理方法によって、モデルトレーニングの有効性が変化する可能性があります。

私たちが重視するパフォーマンス指標は、精度だけではありません。モデルの一般化能力がより重要になるかもしれません。なぜなら、私たちのモデルは、目に見えないデータに対してうまく機能しなければ役に立たないからです。バッチサイズを大きくすると、ネットワークの一般化が悪くなります。論文「ディープラーニングのための大規模バッチトレーニング：一般化ギャップとシャープミニマ」の著者らは、この現象を調査し、なぜそれが起こるのかを解明しようとしました。彼らの調査結果は興味深いので、この記事では詳しく説明します。これを知っておくと、独自のニューラルネットワークとそのトレーニング方法について、より適切な決定を下すことができます。

論文の前提を理解する

論文を理解するには、まず著者が何を証明しようとしているのかを理解する必要があります。著者らは、バッチサイズが大きいほど一般化が悪くなる理由を発見したと主張している。彼らは、「大規模バッチ法はトレーニング関数とテスト関数の鋭い最小値に収束する傾向があり、それが一般化の低さにつながることが知られているという見解を裏付ける数値的証拠を提供しています。小規模バッチ法は一貫して平坦な最小値に収束しており、私たちの実験は、これが勾配推定値に内在するノイズによるものだという一般的な見解を裏付けています。」この投稿ではこれについてさらに詳しく説明しますので、順を追って説明しましょう。次の図は、鋭い最小値と平坦な最小値の違いを示しています。

鋭い極小値の場合、Xの比較的小さな変化が損失の大きな変化につながる可能性がある。

この違いを理解したら、著者が検証する 2 つの (関連する) 主な主張を理解しましょう。

大きなバッチを使用すると、トレーニング中に非常に急激な損失パターンが発生します。そして、この急激な損失により、ネットワークの一般化能力が低下します。
バッチサイズが小さいほど、より平坦な損失画像が作成されます。これは勾配推定値のノイズによるものです。

著者らは論文の中でこの点を強調し、次のように述べています。

次に、彼らが提供する証拠を見てみましょう。彼らが実験を準備する方法のいくつかは興味深く、実験の準備について私たちに多くのことを教えてくれます。

シャープネスの定義

シャープネスは、理解しやすく視覚化しやすい直感的な概念です。しかし、いくつか問題もあります。たとえば、高次元データの機械学習計算/視覚化は、多くのリソースを消費し、時間がかかります。著者らもこれについて言及しており、より単純なヒューリスティック手法を使用しました。つまり、隣接するポイントを通じて鮮明度をチェックし、関数の最大値を使用して感度を計算できるのです。

元の論文にはこう書かれていた。

私たちは、不完全ではあるものの、大規模なネットワークでも計算上実行可能な感度測定を採用しています。これは、解の小さな近傍を探索し、その近傍で関数 f が到達できる最大値を計算することに基づいています。この値を使用して、特定の局所最小値におけるトレーニング関数の感度を測定します。最大化手順は不正確であり、Rn の小さな部分空間でのみ f の大きな値を取得することで誤解を避けるため、ランダム多様体だけでなく Rn 全体の空間にわたって最大化を実行します。

著者らが手順に一定の相互検証を組み込んだことに注意することが重要です。ソリューション空間から複数のサンプルを取得することは過度に単純化されているように思えるかもしれませんが、非常に強力なアプローチであり、ほとんどの場合にうまく機能します。計算式に興味がある方は、次のようになります。