Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Google Brain の Visual Transformer チーム (ViT) がレトロなものを作りました。

彼らは畳み込みニューラルネットワーク(CNN)やトランスフォーマーを使用せず、初期の AI ビジョンタスクで採用された多層パーセプトロン(MLP)構造のみに依存して SOTA に近いパフォーマンスを達成し、ImageNet 画像分類タスクで 87.94% の精度を達成しました。

このアーキテクチャはMLP-Mixerと呼ばれ、2 つの異なるタイプの MLP レイヤーを使用します。これは、チャネル ミキシング(ビット単位の操作)に 1×1 畳み込みを使用し、文字ミキシング(クロス ビット操作) に完全な受容野とパラメータ共有を備えた単一チャネルの深い畳み込みを使用する特別な CNN と見ることができます

JFT-300Mデータセットで事前トレーニングされ、224解像度に微調整されたMixer-H/14バージョンは、 86.32%の精度を達成しました。これは、SOTAモデルViT-H/14よりもわずか0.3%低いですが、実行速度は2.2倍です。

論文の宛先:
https://arxiv.org/abs/2105.01601

プロジェクトアドレス:
https://github.com/google-research/vision_transformer/tree/linen

<<:  seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

>>:  映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

一人称視点でガンダムを運転する? !コックピットに直接座り、VRを操作して材料を掴む。掘削機よりも柔軟。

日本のアニメに詳しい友人なら、間違いなくメカウォーズにも詳しいでしょう。たとえば、最も人気があり愛さ...

リスト発表:海雲捷雲の田良氏が「2021年科学技術影響力のある人物賞」を受賞

著名なIT技術メディア51CTOが主催する第16回中国企業年次選考活動「IT印象:イノベーションの活...

動物や人間には学習の臨界期があり、ディープニューラルネットワークにも臨界期がある。

[[409851]] 0 はじめにこの記事で議論されている問題は、ICLR 2019の記事「CRI...

...

世の中には、ほとんどコードを必要としない強力で古典的なアルゴリズムやプロジェクト事例にはどのようなものがありますか?

今日は、コードが非常に少ないけれども、非常にクールでクラシックな 4 つのアルゴリズムまたはプロジェ...

...

AIOpsを始める前に知っておくべきこと

AIOps は、その優れたパフォーマンスにより、業界で幅広い注目と支持を集めています。AIOps が...

...

独立サイトへのアクセス数が10万を超えました。YidiantianxiaのKreadoAIのサポートにより、海外のウィッグ市場でこのように活躍できることがわかりました。

近年、ウィッグ業界は海外進出のホットな分野として、国際市場で急速に台頭してきました。 Statist...

...

...

Meili United が VALSE カンファレンスで「ファッションをグラフィックで説明」する画像アルゴリズムの体験を共有する方法

最近、第7回ビジョンと学習セミナー(VALSE)が厦門大学で成功裏に終了しました。 VALSE は ...

データが増えるほど、AIの意思決定モデルは脆弱になる

データは、人工知能システムを構築するために必要な重要なインフラストラクチャです。データは、AI シス...