自己教師学習の効率限界を突破！ Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じて学習された表現は、分類パフォーマンスにおいて教師あり学習に追いつき、場合によっては教師あり学習を上回ることさえあります。この傾向により、視覚タスクのための大規模なデータ駆動型教師なし学習も可能になります。

自己教師学習の実験的パフォーマンスは驚くべきものですが、ほとんどの自己教師学習方法は非常に「非効率的」であり、通常、完全に収束するには数百のトレーニングエポックが必要です。

最近、Ma Yi教授とチューリング賞受賞者のYann LeCun氏のチームは、新しい自己教師学習法であるExtreme-Multi-Patch Self-Supervised-Learning（EMP-SSL）を発表し、効率的な自己教師学習の鍵は各画像インスタンス内の画像パッチの数を増やすことであることを証明しました。

論文リンク: https://arxiv.org/pdf/2304.03977.pdf

コードリンク: https://github.com/tsb0601/EMP-SSL

この方法は、ブランチ間の重み共有、特徴の正規化、出力の量子化、勾配停止などの自己教師あり学習における一般的なヒューリスティック手法に依存せず、トレーニング時間を 2 桁短縮します。

実験結果によると、提案手法は、たった 1 回のトレーニングエポックで、CIFAR-10 データセットで 85.1%、CIFAR-100 データセットで 58.5%、Tiny ImageNet で 38.1%、ImageNet-100 で 58.5% の精度に収束できることが示されています。

トレーニングエポック数を 10 に増やすと、この方法は CIFAR-10 で 91.5%、CIFAR-100 で 70.1%、Tiny ImageNet で 51.5%、ImageNet-100 で 78.9% を達成できます。

さらに、研究結果では、他のベースライン手法と比較して、EMP-SSL はトレーニングデータのドメイン外転送パフォーマンスがかなり優れていることも示されています。

馬怡教授は、1995 年に清華大学でオートメーションと応用数学の二重学士号を取得し、1997 年にカリフォルニア大学バークレー校で電気電子工学の修士号を取得し、2000 年に数学の修士号と電気電子工学の博士号を取得しました。

馬怡教授は2018年にカリフォルニア大学バークレー校の電気工学およびコンピュータサイエンス学部に着任しました。今年1月には香港大学のデータサイエンス研究所の学部長に就任し、最近では香港大学のコンピューティング学部の学部長に就任しました。

彼の主な研究分野は、3D コンピュータービジョン、高次元データ用の低次元モデル、スケーラビリティ最適化、機械学習です。最近の研究テーマには、大規模な 3D ジオメトリの再構築とインタラクション、低次元モデルとディープネットワークの関係などがあります。

EMP-SSL

全体的なプロセス

他の SSL 方式と同様に、EMP-SSL も画像の拡張ビューから結合埋め込みを取得します。拡張ビューは固定サイズの画像パッチです。

このタイプのアプローチには 2 つの目標があります。

1. 同じ画像の 2 つの異なる強化画像の表現はより近くなるはずです。

2. 表現空間は、折りたたまれた自明な空間であってはなりません。つまり、データの重要な幾何学的構造またはランダム構造を保持する必要があります。

これまでの研究では、主にこれら 2 つの特性を実現するためのさまざまな戦略と異なるヒューリスティック手法が検討され、画像パッチの共起を学習することで、ますます優れたパフォーマンスが達成されてきました。

画像パッチの共起の学習をより効率的にするために、研究者らは EMP-SSL の自己教師学習における画像パッチの数を極限まで増やしました。

まず、入力画像はランダムに切り取られて n 個の固定サイズの画像ブロックに分割され (重複は許可されます)、次に標準的なデータ拡張技術を使用して画像ブロックが強化されます。

強化された画像ブロックごとに、埋め込みと投影がそれぞれ 2 つのネットワークを通じて取得されます。埋め込みネットワークは比較的深いネットワーク (ResNet-18 など) であり、投影ネットワークはより小さく、完全に接続された 2 つの層のみで構成されています。この 2 つが一緒になってエンコーダーを構成します。

トレーニング中、モデルは表現の崩壊を回避するために Total Coding Rate (TCR) 正規化手法を使用します。

研究者たちはまた、同じ画像からの異なる画像パッチの表現が変化しないこと、つまり表現空間内でそれらが可能な限り近くなることを望んでおり、そのため、強化された画像の表現と、同じ画像内のすべての強化された画像パッチの平均表現との間の距離が最小限に抑えられるはずであり、そのためのトレーニング目標は次のようになります。

ここで、Z は異なる強化画像ブロックの平均表現を表し、D は距離関数 (コサイン類似度) です。つまり、D の値が大きいほど、2 つの類似性が高くなります。

この目的関数は、最大レート削減の変形、または共分散ベースの SSL 方式の一般化バージョンとして考えることができます。n を 2 に設定するのは一般的な 2 ビュー自己教師学習法ですが、n を大きく設定して画像ブロック寄与の学習速度を上げることもできます。

機能満載のモデル

研究者らは、入力画像の表現をすべての画像ブロックの埋め込み平均として定義しましたが、埋め込み表現に等差数列や局所性が多く含まれていればパフォーマンスは向上し、投影はより安定するはずだと考える研究もありますが、この結論にはまだ厳密な証明が欠けています。

建築

研究者らは、自己教師あり学習でよく使用される単純なネットワークアーキテクチャ形式を採用しようとしました。つまり、EMP-SSL では、予測ネットワーク、モメンタムエンコーダー、無関心演算子、停止勾配は必要ありません。

これらの方法はいくつかの自己教師学習法で有効であることが示されていますが、その有効性は次の研究で検討する必要があります。この論文では、提案された自己教師学習法の有効性に主に焦点を当てています。

実験結果

1エポックの自己教師学習

他の最先端の自己教師学習方法と比較すると、EMP-SSL がデータセットを 1 回しか見たことがない場合でも、完全収束に近い SOTA パフォーマンスに収束できることがわかります。

結果は、提案された方法が、現在の SSL 方法の収束を改善するだけでなく、オンライン学習、増分学習、ロボット学習などのコンピュータービジョンの他の分野でも大きな可能性を秘めていることを示しています。

標準データセットへの高速収束

研究者らは、CIFAR-10、CIFAR-100、Tiny ImageNet、ImageNet-100 などの標準データセットで、提案された目的関数の収束速度の効率性を検証しました。

たった 1 エポックのトレーニングで、EMP-SSL は 20 個の画像パッチの設定で 80.6% の精度を達成し、200 個の画像パッチの設定で 82.6% の精度を達成したことがわかります。

10 エポック後、EMP-SSL は 90% 以上に収束し、CIFAR-10 データセットで最も先進的な自己教師学習方法となりました。30 エポック後、EMP-SSL の精度は現在のすべての方法を上回り、93% を超えました。

時間効率に関しては、共同埋め込み自己教師学習では、画像パッチの数が増えるとトレーニング時間が長くなる可能性があります。

研究者らは、実験に 2 つの A100 GPU を使用して、各手法が CIFAR で指定されたパフォーマンスに到達するまでにかかった時間を比較しました。

実験結果から、CIFAR-10 データセットでは、EMP-SSL は収束するために必要なトレーニングエポックが大幅に少なくなるだけでなく、実行時間も短くなることがわかります。

この利点は、より複雑な CIFAR-100 データセットではさらに顕著になります。以前の方法ではより多くのトレーニングエポックが必要で、収束に時間がかかりますが、EMP-SSL では、良好な結果を得るために必要なトレーニングエポックはわずかです。

表現の視覚化

研究者らは、t-SNE マップの結果を使用して、わずか数エポックのトレーニングにもかかわらず、EMP-SSL が意味のある表現を学習したことを実証しました。

CIFAR-10 トレーニングセットで学習された表現マップでは、EMP-SSL は 200 個の画像パッチを使用して 10 エポックにわたってトレーニングされ、他の SOTA 方法は 1000 エポックにわたってトレーニングされ、各色は異なるカテゴリを表します。

EMP-SSL によって学習されたさまざまなカテゴリの表現は、より適切に分離され、より構造化されていることがわかります。他の SOTA 手法と比較して、EMP-SSL によって学習された特徴は、より洗練された低次元構造を示しています。

最も驚くべきことは、これらすべての構造がわずか 10 エポックのトレーニングで学習されることです。

画像パッチ番号アブレーション実験

研究者らはまた、目的関数における画像パッチの数 n に関するアブレーション実験を実施し、収束プロセスにおけるこのパラメータの重要性を実証しました。

<<: ヘルスケアの革命: アジア太平洋地域におけるスマートホーム技術の台頭

>>: ガートナー: CIO がビッグモデルを選択するための 6 つの基準と 5 つの主な導入方法

Google Cloud、パンデミック対策のAIモデル構築に向けCOVID-19データセットをリリース

ブログ

ニューロモルフィック・コンピューティングが私たちを AI の新しい時代へと導くのはいつでしょうか?

ブログ

自己教師学習の効率限界を突破！ Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

EMP-SSL

実験結果

Google Cloud、パンデミック対策のAIモデル構築に向けCOVID-19データセットをリリース

AIのおかげで、これら5つの業界の求人需要は大幅な成長傾向を示すだろう

注目に値する5つの高度なコード補完サービス

Java プログラミングスキル - データ構造とアルゴリズム「ヒープソート」

ニューロモルフィック・コンピューティングが私たちを AI の新しい時代へと導くのはいつでしょうか?

推薦する

2019年に人工知能をマスターするには？世界のAI専門家が答えを教えます

自動運転の利点は明らかだ。政治協商会議委員の李延宏氏：大規模な商業利用には政策革新が必要

中山大学のリン・ジン氏は、視覚的意味理解の新しいトレンドについて説明しました。表現学習から知識と因果の融合まで。

人工知能は2018年にこれら5つの業界に革命を起こすだろう

インタビュー必読: 4 つの典型的な電流制限アルゴリズムの説明

米陸軍は航空機、戦車、VR訓練にデジタルツインプロジェクトを導入している

古典的なJavaアルゴリズムの筆記試験問題を分析する

未来はここにあります。人工知能がもたらすリスクをどう軽減できるでしょうか?

セマンティックAIとデータ管理の5つのトレンド

ディープラーニングにおける正規化技術の包括的な概要

ローコードプラットフォームに関する不完全な推奨事項!

Midjourney 5.2 がリリースされました!オリジナルの絵画から3Dシーンを生成し、無限の宇宙を無限に拡大します

13Bモデルはあらゆる面でGPT-4を圧倒しますか？この裏にあるトリックは何でしょうか?