2018年末には、FAIRの研究者らが「ImageNetの事前トレーニングの再考」と題する論文を発表し、その後ICCV2019で発表されました。この論文では、事前トレーニングに関する非常に興味深い結論がいくつか提示されています。
最近、Google Brain 研究チームはこの概念を拡張しました。新しい論文「事前トレーニングと自己トレーニングの再考」では、事前トレーニングについて議論しただけでなく、自己トレーニングについても研究し、同じ一連のタスクで自己トレーニングと教師あり事前トレーニング、自己教師あり事前トレーニングの違いを比較しました。 著者は実験を通じて以下の結論を得た。
以下は、機械学習研究エンジニアの Aakash Nain による論文「事前トレーニングと自己トレーニングの再考」の解釈です。この記事は Medium で公開され、AI Technology Review によってまとめられました。 序文 論文の詳細に入る前に、まずいくつかの用語を理解しておきましょう。事前トレーニングは、さまざまな分野 (コンピューター ビジョン、自然言語処理、音声処理など) で使用される非常に一般的な方法です。コンピューター ビジョンのタスクでは、1 つのデータセットで事前トレーニングされ、別のデータセットに直接適用できるモデルがよく使用されます。たとえば、ImageNet 事前トレーニングの使用は、オブジェクトのセグメンテーションやオブジェクトの検出タスクで広く使用できる初期化方法です。これを実現するために、転移学習と微調整という 2 つの手法がよく使用されます。一方、自己トレーニングでは、トレーニング中にラベルなしデータに対するモデルの予測結果を組み合わせて、モデルのパフォーマンスを向上させるために利用可能な他の情報を取得しようとします。たとえば、ImageNet を使用して COCO オブジェクト検出モデルを改善します。まず、COCO データセットでモデルをトレーニングし、次にこのモデルを使用して ImageNet の疑似ラベルを生成し (元の ImageNet ラベルは破棄します)、最後に疑似ラベル付きの ImageNet データセットとラベル付き COCO データセットを組み合わせて新しいモデルをトレーニングします。自己教師学習は、よく使用されるもう一つの事前トレーニング方法です。自己教師学習の目的は、高レベルの特徴を学習することだけではありません。代わりに、モデルがより良く学習し、さまざまなタスクやデータセットに対してより堅牢になることを期待しています。 2. 研究の動機 著者らは、以下の問題を解決したいと考えています。
3. 設定 1. データセットとモデル
2. データ拡張 すべての実験では、検出とセグメンテーションに、強度の異なる 4 つの強化戦略が使用されます。 4 つの戦略は、強度の低いものから高いものの順にランク付けされています。1) Augment-S1: これは、水平反転とスケーリング クロッピングを含む標準的な「反転とクロッピング」拡張操作です。 2) Augment-S2: これには、論文「AutoAugment: データからの拡張戦略の学習」で使用されている AutoAugment のほか、反転や切り取りが含まれます。 3) Augment-S3: 大規模なスケーリング、AutoAugment、反転、切り抜きなどの機能が含まれます。ズーム範囲はAugment-S1より広くなります。 4) Augment-S4: 論文「RandAugment: 検索空間を縮小した実用的な自動データ拡張」で提案された RandAugment と、反転と切り取り、大規模なスケーリング操作を組み合わせたものです。ここでのズームレベルは Augment-S2/S3 と同じです。 3. 事前トレーニング 事前トレーニングの有効性を研究するために、著者らは ImageNet の事前トレーニング済みチェックポイントを使用しました。評価用のアーキテクチャとして EfficientNet-B7 を使用します。このモデルでは、次の 2 つの異なるチェックポイントを設定しました。1) ImageNet: AutoAugment を使用してチェックポイントで EfficientNet-B7 をトレーニングし、ImageNet で 84.5% のトップ 1 精度を達成しました。 2) ImageNet++: 論文「Noisy Student による自己トレーニングにより ImageNet 分類が改善されます。この方法では、追加の 3 億枚のラベルなし画像が使用され、86.9% のトップ 1 精度が達成されます。」で提案された Noisy Student 法を使用して、チェックポイントで EfficientNet-B7 をトレーニングします。ランダム初期化によるトレーニングの結果は、Rand Init としてマークされます。 4. 自己トレーニング 自己トレーニングは、Noisy Student メソッドに基づいており、次の 3 つのステップで構成されます。
IV. 実験 1. 拡張とラベル付きデータセットのサイズが事前トレーニングに与える影響 著者らは、教師あり事前トレーニングに ImageNet を使用し、ラベル付き COCO データセットのサイズを変化させて、事前トレーニングが結果に与える影響を調査しました。実験では、ラベル付きデータのサイズを変更するだけでなく、異なる強調強度のデータセットも使用し、EfficientNet-B7をバックボーンネットワークとするRetinaNeモデルをトレーニングに使用します。著者らは、次のことを観察しました。
私の意見: ImageNet でトレーニングされたモデルのほとんどは、非常に強力な拡張方法を使用していません。データが高度に拡張されると、モデルが正しく収束しない可能性があります。実際には、モデルが拡張に対して過剰適合することがあり、これには適切な詳細な調査が必要です。 2. 拡張とラベル付きデータセットのサイズが自己学習に与える影響 著者らは、同じモデル (EfficientNet-B7 バックボーンを備えた RetinaNet 検出器) と同じタスク (COCO データセット オブジェクト検出) を使用して、自己トレーニングの影響を調査しました。著者らは、自己トレーニングに ImageNet データセットを使用します (この場合、ImageNet の元のラベルは破棄されます)。著者らは次のようなことを観察した。
ただし、ImageNet++ 事前トレーニングを使用する場合、ランダム初期化と ImageNet 事前トレーニングを使用する場合と比較して、ゲインは比較的小さくなります。これには何か特別な理由があるのでしょうか? はい、ImageNet++ の初期化は、追加の 3 億枚のラベルなし画像が使用されるチェックポイントから取得されます。 3. 自己教師あり事前トレーニングと自己トレーニング 教師あり ImageNet 事前トレーニングでは、最大のデータセットや大量のデータ拡張でのトレーニング パフォーマンスが低下します。しかし、自己教師あり事前トレーニングはどうでしょうか? 自己教師あり学習 (ラベルなしの事前トレーニング) の主な目的は、より多様なタスクやデータセットに転送できる一般的な表現を構築することです。自己教師学習の効果を研究するために、著者らは完全な COCO データセットと最高レベルの拡張を使用しました。目標は、ランダム初期化と、SOTA 自己教師アルゴリズムを使用して事前トレーニングされたモデルを比較することです。私たちは実験で SimCLR のチェックポイントを使用し、その後 ImageNet で微調整します。 SimCLR は ResNet-50 のみを使用するため、RetinaNet 検出器のバックボーン ネットワークは ResNet-50 に置き換えられます。結果は次のとおりです。 この場合、自己教師あり事前トレーニングはトレーニングに悪影響を及ぼしますが、自己トレーニングによってパフォーマンスは向上することがわかります。 5. 何を学びましたか? 1. 事前学習と一般的な特徴表現 事前トレーニング(教師ありおよび自己教師あり)が必ずしもより良い結果につながるわけではないことがわかりました。実際には、事前トレーニングは自己トレーニングに比べて常にパフォーマンスが低下します。これはなぜでしょうか? ImageNet の事前トレーニング済みモデルは、COCO データセットでのオブジェクト検出のパフォーマンスが低いのはなぜでしょうか? 自己教師あり事前トレーニングによる表現の学習でパフォーマンスが向上しないのはなぜでしょうか? 事前トレーニングでは、手元のタスクを理解できず、適応できない可能性があります。分類の問題は、物体検出の問題よりもはるかに簡単です。分類タスクで事前トレーニングされたネットワークは、オブジェクト検出タスクに必要なすべての情報を取得しますか? 私がよく言うのは、これらのタスクが互いのサブセットであっても、異なるタスクには異なるレベルの粒度が必要だということです。 2. 合同訓練 著者らが指摘するように、自己トレーニング パラダイムの利点の 1 つは、教師あり学習と自己トレーニングの目標を共同でトレーニングできるため、それらの間の不一致の問題を解決できることです。タスク間の違いによって生じる不一致問題を解決するために、ImageNet と COCO の 2 つのデータセットを共同でトレーニングするなどの共同トレーニング方法も検討できます。著者は実験で自己トレーニングと同じパラメータ設定を使用し、ImageNet での事前トレーニングでは +2.6AP のゲインを得られるが、ランダム初期化と共同トレーニングを使用すると +2.9AP というより大きなゲインを得られることを発見しました。さらに、事前トレーニング、共同トレーニング、自己トレーニングはすべて付加的です。同じ ImageNet データセットを使用した場合、ImageNet 事前トレーニングでは +2.6AP のゲインが達成され、事前トレーニング + ジョイント トレーニングではさらに +0.7AP のゲインが達成され、事前トレーニング + ジョイント トレーニング + セルフ トレーニングでは +3.3AP のゲインが達成されます。 3. タスク調整の重要性 上で見たように、パフォーマンスを向上させるにはタスクの適応が非常に重要です。論文「Objects365: 物体検出のための大規模で高品質なデータセット」では、どちらも境界ボックスでラベル付けされているにもかかわらず、Open Images データセットで事前トレーニングを行うと COCO のパフォーマンスが低下するという同様の結果が指摘されています。つまり、事前トレーニングが実際に結果に利益をもたらすためには、タスクを同じにするだけでなく、ラベル付けも同じにする必要があります。同時に、著者は他の 2 つの興味深い現象を指摘しています。
4. 自己トレーニングの拡張性、汎用性、柔軟性 著者らが実施したすべての実験から、次の結論を導き出すことができます。
スケーラビリティの点では、ラベル付けされたデータが多く、モデルが優れている場合、自己トレーニングのパフォーマンスが向上することが示されています。 5. 自己トレーニングの限界 自己トレーニングにはメリットもありますが、いくつかの制限もあります。
VI. 結論 論文「事前トレーニングと自己トレーニングの再考」では、事前トレーニング、共同トレーニング、タスク適応、普遍的表現に関する多くの基本的な疑問が提起されています。これらの問題を解決することは、数十億のパラメータを持つモデルを構築することよりも重要であり、ディープ ニューラル ネットワークによって行われた決定についてより優れた直感を得るのに役立ちます。 |
<<: 人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?
>>: 人工知能の未来は人類にとって何を意味するのでしょうか?
概要:ほんの数日前、ビッグ アイヴァンが携帯電話でソーシャル メディアをちょっとチェックしたとき、信...
[[248958]]今週末、インターネットは再び混乱に陥った。ジャック・マーが2年かけて準備してきた...
ディープニューラルネットワークは、数学モデルを使用して画像やその他のデータを処理する多層システムであ...
サスペンスやSF作品では、ぼやけた写真がコンピューターの画面に表示され、捜査官が画像を強調するように...
科学者たちは地震を正確に予測できる人工知能(AI)システムを開発した。これは自然災害に備え、人命を救...
最近は寒波が次々と襲来し、ダウンジャケットは冬を過ごすための必需品となっています。浙江大学は、暖かい...
量子コンピューティングと人工知能の融合により、大きな期待と可能性を秘めた研究の最前線である量子人工知...
概要2014年にWeChatが紅包機能を開始した後、多くの企業が独自の紅包機能の開発を開始しました。...
シーメンスとマイクロソフトは協力し、人間と機械のコラボレーションを強化し、生産性を向上させるように設...
2017年、『エコノミスト』誌は、データが石油を上回り、世界で最も価値のある資源になったと宣言しまし...