Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Google Brain の Visual Transformer チーム (ViT) がレトロなものを作りました。

彼らは畳み込みニューラルネットワーク(CNN)やトランスフォーマーを使用せず、初期の AI ビジョンタスクで採用された多層パーセプトロン(MLP)構造のみに依存して SOTA に近いパフォーマンスを達成し、ImageNet 画像分類タスクで 87.94% の精度を達成しました。

このアーキテクチャはMLP-Mixerと呼ばれ、2 つの異なるタイプの MLP レイヤーを使用します。これは、チャネル ミキシング(ビット単位の操作)に 1×1 畳み込みを使用し、文字ミキシング(クロス ビット操作) に完全な受容野とパラメータ共有を備えた単一チャネルの深い畳み込みを使用する特別な CNN と見ることができます

JFT-300Mデータセットで事前トレーニングされ、224解像度に微調整されたMixer-H/14バージョンは、 86.32%の精度を達成しました。これは、SOTAモデルViT-H/14よりもわずか0.3%低いですが、実行速度は2.2倍です。

論文の宛先:
https://arxiv.org/abs/2105.01601

プロジェクトアドレス:
https://github.com/google-research/vision_transformer/tree/linen

<<:  seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

>>:  映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

ブログ    
ブログ    

推薦する

ロボット危機:私たちの仕事はより困難に…

[[412010]]ロボット、つまり自動化と AI の総称は、私たちの周りにはどこにでもあります。...

説明書不要で様々な家具や家電製品に使用できる初の具現化3Dグラフィックモデルシステム

最近はロボットが家事のすべてを担うようになりました。ポットを使えるスタンフォードのロボットが登場した...

2020年のトレンドの方向性: 産業用インターネットの人工知能アプリケーションが基礎となる

年末が近づくにつれ、多くの研究機関が2020年のトレンド予測を発表しています。これらの予測の多くは、...

人工知能はディープラーニングへと移行しており、強力なコンピューティングパワーの構築は重要な指標となっている

報告によると、人工知能の最大の課題の 1 つは、認識率と精度が低いことです。精度を向上させるには、モ...

...

...

自動運転のための多視点視覚認識の理解

出力次元の観点から、視覚センサーに基づく知覚方法は、2D知覚と3D知覚に分けられます。視覚システムは...

マイクロソフトがML.NETクロスプラットフォーム機械学習フレームワークをオープンソース化し、AIをさらに一歩前進させる

現地時間5月7日、米国シアトルでMicrosoft Buildカンファレンスが開催され、マイクロソフ...

...

...

MITは、Natureの表紙に掲載され、非コード領域のDNA変異を予測するディープラーニングフレームワークを設計した。

人間の細胞にはそれぞれ多数の遺伝子が含まれていますが、いわゆる「コーディング」DNA配列は、ヒトゲノ...

nn.Module クラスに基づく線形回帰モデルの実装

[[411355]]前回はシーケンシャルモデルを紹介しましたが、ほとんどの場合、ニューラルネットワー...

LK-99は今もメロンを生産中:元のサンプルは韓国エネルギー技術研究所に届けられ、薄膜プロセスは最後の懸案

中国科学院物理研究所とプリンストン大学による2本の否定的な論文の発表により、LK-99に対する人々の...

...

AIがデータ統合の状況をどう変えるのか

生成 AI は統合の状況を変えています。 チームの経済性、速度、プロジェクト構造、配信モデルについて...