Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Google Brain の Visual Transformer チーム (ViT) がレトロなものを作りました。

彼らは畳み込みニューラルネットワーク(CNN)やトランスフォーマーを使用せず、初期の AI ビジョンタスクで採用された多層パーセプトロン(MLP)構造のみに依存して SOTA に近いパフォーマンスを達成し、ImageNet 画像分類タスクで 87.94% の精度を達成しました。

このアーキテクチャはMLP-Mixerと呼ばれ、2 つの異なるタイプの MLP レイヤーを使用します。これは、チャネル ミキシング(ビット単位の操作)に 1×1 畳み込みを使用し、文字ミキシング(クロス ビット操作) に完全な受容野とパラメータ共有を備えた単一チャネルの深い畳み込みを使用する特別な CNN と見ることができます

JFT-300Mデータセットで事前トレーニングされ、224解像度に微調整されたMixer-H/14バージョンは、 86.32%の精度を達成しました。これは、SOTAモデルViT-H/14よりもわずか0.3%低いですが、実行速度は2.2倍です。

論文の宛先:
https://arxiv.org/abs/2105.01601

プロジェクトアドレス:
https://github.com/google-research/vision_transformer/tree/linen

<<:  seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

>>:  映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

ブログ    
ブログ    
ブログ    

推薦する

ChatGPTはどんどん怠惰になり、代わりにPUA人間を学習しました

GPT-4 が最近少し「怠惰」になっていることにお気づきでしょうか。現在、GPT-4 は常に特定のタ...

AIがビジネスプロセスとインテリジェントセキュリティをサポートする方法

今年初め以来、ChatGPT のような生成型人工知能 (AI) ツールが世界を席巻しています。それは...

...

知っておきたい!AI を活用したサイバー犯罪対策に機械学習を活用する方法

[51CTO.com クイック翻訳] 今日のインターネット時代において、ネットワーク セキュリティは...

アルゴリズムの練習: 数独の基本解法

数独は紙とペンを使って遊ぶ論理ゲームです。プレイヤーは、9×9 のボード上の既知の数字に基づいて残り...

AMiner が発表: 2022 年に世界で最も影響力のある人工知能学者「AI 2000」

2022年1月25日、人工知能分野で世界で最も影響力のある学者の2022年リスト「AI 2000」...

2020 年に慈善活動を変える主要なテクノロジー トレンドのリスト

チャリティーは常に実行速度が遅いことで知られています。慈善団体が社会、経済、環境の変化に対応するには...

AIガバナンスがリスクを軽減しながら利益を獲得する方法

[[389556]] AI ガバナンスは、データ プライバシー、アルゴリズムのバイアス、コンプライア...

...

...

...

人工知能業界では無視できない技術分野「ナレッジグラフ」

[[384932]] 2012 年に、Google は Metaweb から派生した Knowle...

Google Gemini がゲームを逆転!マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート

Google がゲームを撤回しました! Gemini が API を公開してから1 週間も経たないう...

3つの主要なSQL ServerアルゴリズムのI/Oコストの簡単な分析

1. ネストループ結合アルゴリズム:考え方は非常に単純かつ直接的です。関係 R の各タプル r を、...

低速自動運転と高速自動運転に関する議論

前回の記事「自動運転車に「道路を認識」させる方法」では、主に自動運転車における高精度地図の重要性につ...