Epoch は時代遅れであるだけでなく、有害でもあるのでしょうか? Reddit 機械学習フォーラムのディスカッション

Epoch は時代遅れであるだけでなく、有害でもあるのでしょうか? Reddit 機械学習フォーラムのディスカッション

  [[397895]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ある日、パラメータ調整者がディープラーニング モデルをトレーニングしていました。使用された 2 つのデータ セットには、異なる損失関数がありました。データ セットのサイズは固定されておらず、毎日増加していました。

彼は少し心配していました。エポック番号をどうやって設定すればいいのでしょうか?

苦労しているうちに、彼は突然思いつきました。なぜエポック番号を設定する必要があるのだろう?必要なのは、各バッチに対して独立した同一分布サンプリング(IID サンプリング) を実行することだけです。

この考えを検証するために、貂蝉は多くの論文を読みました。トレーニング方法を紹介する際に、反復回数のみに言及し、エポックについては言及しない人が増えていることに気づきました。

彼は、エポック社がデータセットが限られていることを暗示し強調しており、それが厄介なだけでなく潜在的に「有害」であると考えました。 Epoch を削除してループのネスト レベルの数を減らすことは常に良いことです。

そこで彼は Reddit で議論を始めました。「Epoch は時代遅れか、あるいは有害か?」

Epochは冗長ですか?

この見解に同意する人もいます。

それは理にかなっています。データセットのサイズが大きく異なり、バッチサイズが同じ場合、同じ数のエポックを設定すると、大きなデータセットのパラメータはより多くの回数更新され、小さなデータセットのパラメータはより少ない回数更新されます。これは間違っているようです。

Epoch の最大の利点は、各サンプルが定期的に使用されることを保証する点です。 IID サンプリングを使用する場合、すべてのサンプルが均等に頻繁に使用されるようにする方法を見つけるだけです。

しかし、パラメータ調整者は、各サンプルが定期的に使用されているかどうかが疑問点であると感じています。IID サンプリングによって同じ分布が保証されており、同じ頻度で使用することは誤解を招きます。

反対派はこう信じている。

車が道路の真ん中にいないと思ったからといって、ハンドルを放すことはできません。ハンドルを放しても、車が道路の真ん中にいる確率は変わりませんが、分散は大きくなります

最終的に、Tiaocanxia は、この論争は統計学における「頻度学派VSベイズ学派」、つまりデータセットが確実であるべきか不確実であるべきかという論争に少し似ていると結論付けました。

モデルを比較するにはどうすればいいですか?

Diaocanxia は、損失曲線を作成するためにバッチ損失を使用する人もいることにも気づきました。彼は、これが Epoch Loss よりも参考資料として価値があると考えています。

[[397896]]

対戦相手はあなたのアプローチが良いと考えていますが、Epoch はまだ有用です。

同じハードウェアであっても、異なるモデルの異なるアルゴリズムの効率によって大きな違いが生じる可能性があるからです。

さまざまなトランスフォーマーと CNN の基礎となるコード実装は似ていますが、他のモデルは大きく異なる場合があります。たとえば、当社独自の CUDA LSTM 実装は、少なくとも CudnnLSTM と同等の速度で、元の TensorFlow 実装よりも約 4 倍高速です。

最後に、あるネットユーザーが CV モデルを例にこのトピックの素晴らしい要約を作成し、損失を視覚化する 4 つの方法をリストし、どの方法をどのような状況で使用するかを紹介しています。

損失/エポックは、モデルが同じ画像を理解するために何回観察する必要があるかを示します。

損失/反復は、必要なパラメータ更新の回数を示します。これはオプティマイザーを比較するときに役立ち、より速くトレーニングしたり、より高い精度を達成したりするのに役立ちます。

損失/合計画像表示は、アルゴリズムが画像のどの程度を見たかによる損失を示します。データを使用する際の 2 つのアルゴリズムの効率を比較するのに適しています。

アルゴリズムが 500,000 枚の画像で 70%、100 万枚の画像で 75% を取得する場合、それはおそらく 500,000 枚の画像で 50%、100 万枚の画像で 80% を取得する場合よりも優れています。

さらに、バッチ サイズの影響も排除されます。これにより、異なる GPU でトレーニングされた異なるバッチ サイズのモデル間の公平な比較が可能になります。

損失/時間も重要です。新しいモデルによってエポックが 100 削減されても、各反復が 100 倍遅くなる場合、このモデルは選択されません。

Loss/Time はハードウェアの特定のパフォーマンスに関連し、十分に正確ではありませんが、これについては論文には書きません。しかし、自分のマシン上でモデルのパラメータを評価するには良い方法です。

データ拡張を使用する場合はどうでしょうか?

一部のネットユーザーは、データ拡張中に Epoch が少し冗長であると指摘しています。データ セットが小さすぎるため、わずかな違いがある各サンプルのバージョンを人為的に多数追加します。それらを同じ頻度で使用する必要はありません。

[[397897]]

反対派は、正規化の一形態としてのデータ拡張によって過剰適合が軽減されると主張しますが、実際に導入される情報は、モデルをトレーニングするときに元のデータセットに限定されます。元のデータセットが十分に小さい場合、Epoch はトレーニング セット全体をモデルに表示することを意味しますが、それでも意味があります。

誰かが尋ねました:

「時代」は終わったということですか?

パラメータ調整機能:

そう、今は「時代」の時代。

△ERA(Endless Random Enhancement)の頭文字は「時代」を意味します

<<:  自動運転の安全上のリスクはどこから来るのでしょうか?

>>:  AIの冬がまた来るのか?アメリカ人教授がarXivにAIを批判する記事を掲載し、Redditのネットユーザーから批判された

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習: Python による分類

子供にリンゴとオレンジの区別を教えたいとします。これを行うには複数の方法があります。お子様にこの 2...

JVMの基本的なガベージコレクションアルゴリズムについて

この記事は JavaEye ブログからの引用であり、元のタイトルは「JVM チューニングの概要 (パ...

...

100万個のニューロンをリアルタイムでスキャンできるようになりました。脳細胞活動の画像化における新たなブレークスルーです。

数年前なら、コンピューターが 10,000 個のニューロンの活動を同時に記録していたらニュースになっ...

非常に効率的な人工知能チームを構築するにはどうすればよいでしょうか?

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟導入この記事では、機械学習のインフラ、従業員、プロセスを統...

将来、人工知能に最も影響を受ける5つの業界!

人工知能の概念はますます普及しています。急速に発展する人工知能にとって、チェスの世界を席巻することは...

...

2018 年のベスト 6 無料オンライン人工知能コース!

人工知能 (AI)、自動化、認知システムを取り巻く原則と実践は、ビジネス分野、専門知識、専門分野に関...

GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

背景大規模言語モデル (LLM) は強力な機能を発揮していますが、不快な応答、虚偽の情報、漏洩した個...

ハイパーオートメーションの旅を始めましょう: 仕事のやり方を変え、運用プロセスを簡素化しましょう

最近の調査によると、より複雑な作業をインテリジェントな自動化に任せることを計画している企業の数は、今...

LinkedIn が Dagli をオープンソース化し、Java 機械学習ライブラリをリリース

近年では、大規模データ向けのTensorFlow、PyTorch、Caffee、CNTK、Spark...

人工知能の登場により、将来的にこれらの 6 つの職業は失業する可能性があります。あなたは準備ができていますか?

科学技術の発展とビッグデータの登場により、人工知能は私たちの生活にますます近づいてきました。しかし、...

...

AI全盛の時代、機械翻訳はどのように革命を起こすのか?

人工知能の長年の目標は、これまで人間のみが実行していたタスクを機械が実行できるようにすることです。し...

...