自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じて学習された表現は、分類パフォーマンスにおいて教師あり学習に追いつき、場合によっては教師あり学習を上回ることさえあります。この傾向により、視覚タスクのための大規模なデータ駆動型教師なし学習も可能になります。

自己教師学習の実験的パフォーマンスは驚くべきものですが、ほとんどの自己教師学習方法は非常に「非効率的」であり、通常、完全に収束するには数百のトレーニングエポックが必要です。

最近、Ma Yi教授とチューリング賞受賞者のYann LeCun氏のチームは、新しい自己教師学習法であるExtreme-Multi-Patch Self-Supervised-Learning(EMP-SSL)を発表し、効率的な自己教師学習の鍵は各画像インスタンス内の画像パッチの数を増やすことであることを証明しました。

論文リンク: https://arxiv.org/pdf/2304.03977.pdf

コードリンク: https://github.com/tsb0601/EMP-SSL

この方法は、ブランチ間の重み共有、特徴の正規化、出力の量子化、勾配停止などの自己教師あり学習における一般的なヒューリスティック手法に依存せず、トレーニング時間を 2 桁短縮します。

実験結果によると、提案手法は、たった 1 回のトレーニング エポックで、CIFAR-10 データセットで 85.1%、CIFAR-100 データセットで 58.5%、Tiny ImageNet で 38.1%、ImageNet-100 で 58.5% の精度に収束できることが示されています。

トレーニング エポック数を 10 に増やすと、この方法は CIFAR-10 で 91.5%、CIFAR-100 で 70.1%、Tiny ImageNet で 51.5%、ImageNet-100 で 78.9% を達成できます。

さらに、研究結果では、他のベースライン手法と比較して、EMP-SSL はトレーニング データのドメイン外転送パフォーマンスがかなり優れていることも示されています。

馬怡教授は、1995 年に清華大学でオートメーションと応用数学の二重学士号を取得し、1997 年にカリフォルニア大学バークレー校で電気電子工学の修士号を取得し、2000 年に数学の修士号と電気電子工学の博士号を取得しました。

馬怡教授は2018年にカリフォルニア大学バークレー校の電気工学およびコンピュータサイエンス学部に着任しました。今年1月には香港大学のデータサイエンス研究所の学部長に就任し、最近では香港大学のコンピューティング学部の学部長に就任しました。

彼の主な研究分野は、3D コンピューター ビジョン、高次元データ用の低次元モデル、スケーラビリティ最適化、機械学習です。最近の研究テーマには、大規模な 3D ジオメトリの再構築とインタラクション、低次元モデルとディープ ネットワークの関係などがあります。

EMP-SSL

全体的なプロセス

他の SSL 方式と同様に、EMP-SSL も画像の拡張ビューから結合埋め込みを取得します。拡張ビューは固定サイズの画像パッチです。

このタイプのアプローチには 2 つの目標があります。

1. 同じ画像の 2 つの異なる強化画像の表現はより近くなるはずです。

2. 表現空間は、折りたたまれた自明な空間であってはなりません。つまり、データの重要な幾何学的構造またはランダム構造を保持する必要があります。

これまでの研究では、主にこれら 2 つの特性を実現するためのさまざまな戦略と異なるヒューリスティック手法が検討され、画像パッチの共起を学習することで、ますます優れたパフォーマンスが達成されてきました。

画像パッチの共起の学習をより効率的にするために、研究者らは EMP-SSL の自己教師学習における画像パッチの数を極限まで増やしました。

まず、入力画像はランダムに切り取られて n 個の固定サイズの画像ブロックに分割され (重複は許可されます)、次に標準的なデータ拡張技術を使用して画像ブロックが強化されます。

強化された画像ブロックごとに、埋め込みと投影がそれぞれ 2 つのネットワークを通じて取得されます。埋め込みネットワークは比較的深いネットワーク (ResNet-18 など) であり、投影ネットワークはより小さく、完全に接続された 2 つの層のみで構成されています。この 2 つが一緒になってエンコーダーを構成します。

トレーニング中、モデルは表現の崩壊を回避するために Total Coding Rate (TCR) 正規化手法を使用します。

研究者たちはまた、同じ画像からの異なる画像パッチの表現が変化しないこと、つまり表現空間内でそれらが可能な限り近くなることを望んでおり、そのため、強化された画像の表現と、同じ画像内のすべての強化された画像パッチの平均表現との間の距離が最小限に抑えられるはずであり、そのためのトレーニング目標は次のようになります。

ここで、Z は異なる強化画像ブロックの平均表現を表し、D は距離関数 (コサイン類似度) です。つまり、D の値が大きいほど、2 つの類似性が高くなります。

この目的関数は、最大レート削減の変形、または共分散ベースの SSL 方式の一般化バージョンとして考えることができます。n を 2 に設定するのは一般的な 2 ビュー自己教師学習法ですが、n を大きく設定して画像ブロック寄与の学習速度を上げることもできます。

機能満載のモデル

研究者らは、入力画像の表現をすべての画像ブロックの埋め込み平均として定義しましたが、埋め込み表現に等差数列や局所性が多く含まれていればパフォーマンスは向上し、投影はより安定するはずだと考える研究もありますが、この結論にはまだ厳密な証明が欠けています。

建築

研究者らは、自己教師あり学習でよく使用される単純なネットワーク アーキテクチャ形式を採用しようとしました。つまり、EMP-SSL では、予測ネットワーク、モメンタム エンコーダー、無関心演算子、停止勾配は必要ありません。

これらの方法はいくつかの自己教師学習法で有効であることが示されていますが、その有効性は次の研究で検討する必要があります。この論文では、提案された自己教師学習法の有効性に主に焦点を当てています。

実験結果

1エポックの自己教師学習

他の最先端の自己教師学習方法と比較すると、EMP-SSL がデータセットを 1 回しか見たことがない場合でも、完全収束に近い SOTA パフォーマンスに収束できることがわかります。

結果は、提案された方法が、現在の SSL 方法の収束を改善するだけでなく、オンライン学習、増分学習、ロボット学習などのコンピューター ビジョンの他の分野でも大きな可能性を秘めていることを示しています。

標準データセットへの高速収束

研究者らは、CIFAR-10、CIFAR-100、Tiny ImageNet、ImageNet-100 などの標準データセットで、提案された目的関数の収束速度の効率性を検証しました。

たった 1 エポックのトレーニングで、EMP-SSL は 20 個の画像パッチの設定で 80.6% の精度を達成し、200 個の画像パッチの設定で 82.6% の精度を達成したことがわかります。

10 エポック後、EMP-SSL は 90% 以上に収束し、CIFAR-10 データセットで最も先進的な自己教師学習方法となりました。30 エポック後、EMP-SSL の精度は現在のすべての方法を上回り、93% を超えました。

時間効率に関しては、共同埋め込み自己教師学習では、画像パッチの数が増えるとトレーニング時間が長くなる可能性があります。

研究者らは、実験に 2 つの A100 GPU を使用して、各手法が CIFAR で指定されたパフォーマンスに到達するまでにかかった時間を比較しました。

実験結果から、CIFAR-10 データセットでは、EMP-SSL は収束するために必要なトレーニング エポックが大幅に少なくなるだけでなく、実行時間も短くなることがわかります。

この利点は、より複雑な CIFAR-100 データセットではさらに顕著になります。以前の方法ではより多くのトレーニング エポックが必要で、収束に時間がかかりますが、EMP-SSL では、良好な結果を得るために必要なトレーニング エポックはわずかです。

表現の視覚化

研究者らは、t-SNE マップの結果を使用して、わずか数エポックのトレーニングにもかかわらず、EMP-SSL が意味のある表現を学習したことを実証しました。

CIFAR-10 トレーニング セットで学習された表現マップでは、EMP-SSL は 200 個の画像パッチを使用して 10 エポックにわたってトレーニングされ、他の SOTA 方法は 1000 エポックにわたってトレーニングされ、各色は異なるカテゴリを表します。

EMP-SSL によって学習されたさまざまなカテゴリの表現は、より適切に分離され、より構造化されていることがわかります。他の SOTA 手法と比較して、EMP-SSL によって学習された特徴は、より洗練された低次元構造を示しています。

最も驚くべきことは、これらすべての構造がわずか 10 エポックのトレーニングで学習されることです。

画像パッチ番号アブレーション実験

研究者らはまた、目的関数における画像パッチの数 n に関するアブレーション実験を実施し、収束プロセスにおけるこのパラメータの重要性を実証しました。

<<:  ヘルスケアの革命: アジア太平洋地域におけるスマートホーム技術の台頭

>>:  ガートナー: CIO がビッグモデルを選択するための 6 つの基準と 5 つの主な導入方法

ブログ    
ブログ    

推薦する

順序保存回帰: リソース利用を最大化するアルゴリズム

[[205069]] 1. 数学的な定義順序保存回帰は回帰アルゴリズムの一種です。基本的な考え方は、...

297 件の論文すべてを 1 つの記事で読むことができます。中国科学院が「拡散モデルに基づく画像編集」に関する初のレビューの出版を主導

この記事では、画像編集の最先端の手法を包括的に研究し、技術的なルートに基づいて 3 つの主要なカテゴ...

CV の世界における 3D ビジョンの究極の実現: コンピューターがこの 3 次元の世界を「見る」方法

携帯電話を開くと顔がロック解除されます。VR と AR 技術は、このような仮想でありながら現実のシー...

...

「モノのインターネット +」の考え方は、産業のアップグレードにどのように役立つのでしょうか?

モノのインターネットは、いくつかの自動化ツールを通じて確立された指示に従って対象オブジェクトを接続し...

OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能

OpenAI の CLIP モデルは、画像とテキスト カテゴリのマッチングに非常に優れていますが、元...

SQL クエリ エンジンの自然言語として GPT を使用する方法

翻訳者 |李睿レビュー | Chonglou 今日では、 ChatGPTのような生成AI技術のおかげ...

Amazon クラウド テクノロジーにより、Yidiantianxia は AIGC の波の中で新しいマーケティング パラダイムを構築できるようになりました。

生成的 人工知能 それがもたらす熱狂は継続し、すべての人の思考を刺激し続けます。今日の「百モデル戦争...

Google は人工知能の分野で「堀」を持っていないのでしょうか?

少し前、匿名の人物が、Google 社内の研究者による研究メモを Discord プラットフォームに...

AIとRPA:両者の連携方法と、ビジネスに両方が必要な理由

ゴールドマン・サックスのレポートによると、AI は世界の労働生産性を年間 1% 以上向上させ、202...

3つの側面での共同の取り組みにより、人工知能はスマート交通の発展に貢献します。

[[442361]]都市化の継続的な進展と自動車保有数の急速な増加により、我が国の交通発展は困難な...

Google の Transformer が NeurIPS 2021 で 4 つの SOTA 賞を受賞

[[440180]] Google の Vision Transformer に関する新しい取り組み...

劉玉樹:人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...

ビッグデータに責任を負わせないでください。スモールデータをうまく活用する方が効果的かもしれません。

誰もがビッグ データについて語っていますが、大規模なデータ セットを処理するにはより多くのストレージ...