何開明は2年ぶりに新たな論文を発表した。大規模な視覚モデルへの道を開くこの論文には、1つの数式も含まれていない。

何開明は2年ぶりに新たな論文を発表した。大規模な視覚モデルへの道を開くこの論文には、1つの数式も含まれていない。

[[435016]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

大きな神話は多くありませんが、論文が発表されるたびに、間違いなく世間に波紋が広がります。

前回の第一著者論文から2年が経ち、何開明氏は再び第一著者として最新の研究を発表しました。

それは依然として視覚分野の研究であり、依然として何開明のシンプルさへのアプローチです。

シンプルさ: 論文全体を通して単一の公式は存在しません。

効果的: 凝った作りではなく、非常に巧妙で、最もシンプルな方法を使用して絶妙な美しさを表現します。

世界が震撼: 「CVPR 2022 最優秀論文候補が選出されました」

そこで、何開明氏の新作は、

マスクオートエンコーダはスケーラブルな視覚学習器です

どのようなアイデアや研究成果があるのでしょうか?

CVのための自己教師あり学習スキーム

この論文では、コンピューター ビジョン用のマスク オートエンコーダ (MAE) を提案します。

—NLP テクニックに似た自己教師型アプローチ。

操作は簡単です。入力画像のランダムなパッチをマスクし、欠落しているピクセルを再構築します

コアとなるデザインは2つあります。

1 つは、高比率マスク入力画像を備えた非対称エンコーダ/デコーダ アーキテクチャです。

まず、エンコード/デコードのアーキテクチャを見てみましょう。

図に示すように、エンコーダーは可視パッチのみを操作するViT であり、その後、事前トレーニング中の画像再構成タスクのみを担当する軽量エンコーダーが使用されます。

具体的には、まず画像を重複しないブロックに均等に分割し、次にブロックをランダムにサンプリングします。

75% のマスキング率を例にとると、最初に入力画像内のランダム ブロックの 75% をマスクし、エンコーダーは可視の 25% ブロック サブセットのみで実行されるため、非常に大きなエンコーダーを非常に少ない計算とビデオ メモリでトレーニングできます。

次に、デコーダーは可視トークンとマスク トークンを組み合わせ、すべてのトークンに位置埋め込みを追加して、各マスク パッチのピクセル値を予測することで画像信号を再構築します。

これにより、事前トレーニング中にデコーダーがエンコーダーから独立し、非常に軽量なデコーダーで実験できるようになり、事前トレーニング時間が大幅に短縮されます。

もう 1 つの特徴は、入力画像の大部分がマスクされている場合でも、自己教師ありタスクが非常にうまく機能することです。

たとえば、ランダム パッチの80%をマスクすると、次のようになります。

左端の列は入力画像、中央の列はMAE法の再構成効果、右端の列は元の画像の効果です。

再構成された画像におけるさまざまなマスキング比率のパフォーマンス比較は次のとおりです。

これら 2 つの設計を組み合わせると、その結果を使用して大規模なモデルをトレーニングできます。

トレーニング速度が3倍以上になり、精度も向上します。

さらに、このソリューションに基づく大規模モデルは優れた一般化能力を備えています。

たとえば、ImageNet-1K データのみを使用する場合、ViT-Huge モデルは 87.8% の精度を達成します。

COCOデータセットでのパフォーマンスは以下のとおりです。再構築効果は明確ではありませんが、基本的なセマンティクスは正しいです。

研究者らはMAE転移学習のパフォーマンスも評価した。

結果は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどの下流タスクにおける教師あり事前トレーニングよりも優れています。

比較すると、ランダム マスキング 75%、ブロック全体マスキング 50%、グリッド マスキング 50% の 3 つのサンプリング方法の中で、ランダム マスキング 75% で再構成された画像の品質が最も優れていることがわかります。

これらの研究結果に基づいて、最後に何開明氏のチームも見解を述べた。

一方、拡張性に優れたシンプルなアルゴリズムがディープラーニングの中核をなしています。

コンピューター ビジョンでは、自己教師あり学習が進歩しているにもかかわらず、実践的な事前トレーニングは依然として教師ありで行う必要があります。

この研究では、著者らは、オートエンコーダが ImageNet および転移学習タスクにおいて非常に強力なスケーラビリティの利点を示したことを発見しました。

このため、著者は、CV における自己教師あり学習は現在、 NLP と同様の方向に進んでいる可能性があると考えています。

一方、著者らは、画像と言語は性質の異なる信号であり、この違いは慎重に扱う必要があると指摘している。

画像は、言葉の視覚的な類似物に意味的に分解されることなく、単に光として記録されたものです。

オブジェクトを削除するのではなく、意味セグメントを構成しない可能性のあるランダムなブロックを削除します。再構築されたピクセルも意味的なエンティティではありません。

研究チーム

この論文の研究チームはFacebook AI Research Institute (FAIR) から来ており、チームのメンバーはそれぞれ数々の賞を受賞しており、まさにドリームチームです。

今回は、数名の退役軍人に加え、中国人の顔ぶれについても詳しくお話ししましょう。

Xinlei Chen は浙江大学でコンピューターサイエンスの学士号を取得し、その後カーネギーメロン大学で博士号を取得しました。彼女は UCLA、Google Cloud、MSR でインターンをしてきました。

[[435023]]

Xie Saining は上海交通大学の ACM クラスを卒業し、その後カリフォルニア大学サンディエゴ校でコンピューターサイエンスの博士号を取得しました。Google と DeepMind でインターンをしました。

[[435024]]

ヤンハオ・リーは北京大学でコンピューターサイエンスの学士号を取得し、その後同大学に残って修士号を取得しました。

[[435025]]

最後にもう一度、He Kaiming 氏を紹介したいと思います。

著者の一人は何開明で、皆さんもよくご存知だと思います。 Mask R-CNNの主提案者として、トップカンファレンスで最優秀論文賞を4回受賞。

[[435026]]

何開明さんは2003年に広東省の大学入学試験でトップの成績を収め、清華大学に入学し、楊振寧さんが創設した物理学部の基礎科学クラスに入学した。

修士課程と博士課程の間、何開明氏は香港中文大学のマルチメディア研究所に通い、そこで後にセンスタイムの創設者となる唐暁氏に指導を受けました。

この期間中、He Kaiming は Microsoft Research Asia でもインターンをしました。Sun Jianの指導の下、彼は ResNet 研究を第一著者として発表し、一躍有名になり、2016 CVPR Best Paper Award を受賞しました。

同年、何開明氏はヤン・ルカン氏(2019年チューリング賞受賞者)が率いるフェイスブック人工知能研究所に加わり、ロス・ガーシック氏、ピオトル・ダラー氏ら本研究のベテランたちとともにAI研究分野におけるFAIRのドリームチームを結成した。

さらに素晴らしいのは、何開明氏が若くして有名になったにもかかわらず、ここ数年間も研究に打ち込み続け、常に新たな驚きをもたらしてきたことだ。

彼の新たな研究成果の多くは、さらに発展して発展につながるようなものだ。

今回もMAEはそんな続編として見られています。

MAEについてどう思いますか?

論文リンク
https://arxiv.org/abs/2111.06377

<<:  清華大学は、大規模な事前トレーニングなしで効率的なNLP学習フレームワークTLMを提案

>>:  中国科学院とディープマインドが協力し、ディープラーニングを使って脳が顔を認識する仕組みを解明

ブログ    
ブログ    
ブログ    

推薦する

Microsoft AI の面接の質問はどれくらい難しいですか?サンプルロールはこちら

ビッグデータ概要編纂者:張南星、魏青、銭天培マイクロソフトのような大企業は、どのような AI 人材を...

図: ページ置換アルゴリズム

[[398509]]この記事はWeChatの公開アカウント「Jingyu」から転載したもので、著者は...

...

中国と米国の差を縮め、人工知能開発の主導権を徐々に握る

60年以上の発展を経て、人工知能は人々の仕事や日常生活に入り込み、影響を与えており、新たな一般技術と...

...

RustベースのZedエディタがオープンソース化され、OpenAIとGitHub Copilotのサポートが組み込まれました

ティム・アンダーソンノアが編集制作:51CTO テクノロジースタック(WeChat ID:blog)...

AIの「ショートカット」がシミュレーションを数十億倍高速化

[[314916]]シミュレーターは、NASA がエアロゾル モデルを使用してオーストラリアの火災に...

...

デジタルトランスフォーメーションにおけるAIビッグモデルの現状と役割を客観的に見る

「デジタル変革における AI ビッグモデルの役割は、『データ中心のビジネス変革の 3 つのパラダイム...

人工知能業界を理解するにはどうすればいいのでしょうか?まず知っておくべき知識は何でしょうか?

人工知能の発展を理解したい場合、または人工知能の基本的な応用を理解したい場合は、まずいくつかの基本的...

回帰問題に最適な機械学習アルゴリズムを選択する

あらゆる種類の機械学習 (ML) の問題に取り組む場合、選択できるさまざまなアルゴリズムがあります。...

A*、ダイクストラ、BFS 経路探索アルゴリズムの視覚的な説明

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Ruijie NetworksとMidea Smartは戦略的提携を結び、スマート小売端末の商業化と普及に取り組んでいます。

6月30日、瑞傑ネットワークス株式会社(以下、瑞傑ネットワークス)と合肥美的智能科技有限公司(以下...

Google Cloud データベースに AI 機能が追加

Google Cloud は、顧客による人工知能アプリケーションの開発を促進するために、BigQue...

ロボットは独自の言語を作り、将来的には自律的にコミュニケーションできるようになるのでしょうか?

[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...