ImageNet の最高スコアを更新しましょう! Google Brain 中国研究者がスーパートランスフォーマーをリリース

ImageNet の最高スコアを更新しましょう! Google Brain 中国研究者がスーパートランスフォーマーをリリース

[[408123]]

最近、Google Brain チームは Vision Transformer (ViT) の高度なバージョンである ViT-G/14 を発表しました。これは、最大 20 億のパラメータを持つ CV モデルです。30 億枚の画像でトレーニングした後、ImageNet の最高精度記録である 90.45% を更新しました。ViT が達成した以前の最高精度記録は 88.36% でした。それだけでなく、ViT-G/14 は、Google が以前に提案した Meta Pseduo Labels モデルも上回っています。

Vision Transformer モデルのスケーリングルール

複数のベンチマークにおいて、ImageNet、ImageNet-v2、VTAB-1k、ViT-G/14 が新記録を樹立しました。

たとえば、複数の写真を使用した認識チャレンジでは、精度が 5 パーセントポイント以上向上しました。次に研究者らは、アーキテクチャのスケーリング法則を見つけるためにモデルの複数の小型バージョンをトレーニングし、パフォーマンスが NLP に使用される Transformer モデルと同様にべき乗関数に従うことを観察しました。

2017 年に Google によって初めて導入された Transformer アーキテクチャは、すぐに NLP 向けの最も人気のあるディープラーニング モデル設計となり、OpenAI の GPT-3 が最も有名になりました。 OpenAI が昨年発表した研究では、これらのモデルのスケーリング ルールが説明されています。

OpenAI は、トレーニング データの量と処理能力を変えながら、さまざまなサイズのいくつかの比較可能なモデルをトレーニングすることで、モデルの精度を評価するためのべき乗法則関数を開発しました。さらに、OpenAI は、モデルが大きいほどパフォーマンスが向上するだけでなく、計算効率も高くなることを発見しました。

NLP モデルとは異なり、ほとんどの SOTA CV ディープラーニング モデルは畳み込みニューラル ネットワーク アーキテクチャ (CNN) を使用します。 CNN は、2012 年に CNN モデルが ImageNet コンテストで優勝したことで有名になりました。

Transformer が最近 NLP で成功したことから、研究者たちは視覚の問題におけるそのパフォーマンスに注目し始めています。たとえば、OpenAI は GPT-3 に基づく画像生成システムを構築しました。

Google はこの分野で非常に積極的に活動しており、2020 年後半には独自の JFT-300M データセットを使用して 6 億パラメータの ViT モデルをトレーニングしました。

△ 昨年10月、Google BrainチームはVision Transformer(ViT)をリリースしました。

新しい ViT-G/14 モデルは、約 30 億枚の画像を含むアップグレードされたデータセットである JFT-3B を使用して事前トレーニングされています。

研究チームは、ViT アーキテクチャを改良し、メモリ使用量を増やして、モデルが単一の TPUv3 コアに収まるようにしました。研究者らは、事前トレーニング済みモデルに少数ショットと微調整を加えた転移学習を使用して、ViT-G/14 およびその他の小規模モデルのパフォーマンスを評価しました。これらの調査結果を使用して、NLP ルールに似たスケーリング ルールが作成されました。

べき乗法則によれば、計算、モデル、データを増やすことで精度が向上します。

小型モデルでは精度が障害となる可能性があります。

大規模なデータセットにより、大規模なモデルの作成が容易になります。

現在、ViT-G/14 は ImageNet リーダーボードで 1 位を獲得しています。以下のトップ 8 つのモデルも Google の研究者によって作成され、10 番目のモデルは Facebook のものです。

著者チーム

この論文のチームメンバーは、以前にViTモデルを発表した4人のメンバーで、そのうちの筆頭著者はXiaohua Zhaiです。

[[408124]]

https://sites.google.com/site/xzhai89/home

Xiaohua Zhai は現在、Google Brain の研究員です。彼の研究分野はディープラーニングとコンピュータービジョンです。関心分野には、表現学習、転移学習、自己教師学習、生成モデル、クロスモーダル知覚などがあります。

翟小花氏の個人ウェブサイトに掲載された情報によると、翟小花氏は2009年に南京大学で学士号を取得し、2014年に北京大学でコンピューターサイエンスの博士号を取得した。

さらに、論文の著者であるアレクサンダー・コレスニコフ氏は Google Brain の研究者でもあり、彼の研究分野には人工知能、機械学習、ディープラーニング、コンピュータービジョンなどが含まれます。

彼はオーストリア科学技術研究所 (IST Austria) を卒業し、自然画像の弱教師付きセグメンテーションと教師なしモデリングに関する博士論文を執筆しました。

[[408125]]

もう一人の著者である Neil Houlsby は、機械学習、人工知能、コンピューター ビジョン、自然言語処理に焦点を当てています。

[[408126]]

4 番目の著者である Lucas Beyer 氏は独学のハッカーであり研究者でもあり、ロボットが世界を理解し、人間がディープラーニングを理解できるようにすることに専念しています。

<<:  AIがコンピューティングをエッジに押し上げる

>>:  これらの不気味な「偽人間」は人工知能の新時代の到来を告げる

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

異常検出のためのいくつかのグラフ分割アルゴリズム

セキュリティ分野では、アカウント取引の異常や異なるイベント間の相関関係など、さまざまなシナリオで「グ...

人工知能が注目を集め、ロボットキャスターが生放送の「新参者」に

北京ビジネスデイリー(陳偉記者) 知能ロボットは記者、シェフ、囲碁の達人になった後、最近は生放送業界...

自動運転システムのテストに関する簡単な説明

1. 自動運転システムレベルテストの基本理論1.1 自動運転テストシナリオの構成1.1.1 フレーム...

トレンド | 今後 10 年間の機械学習研究のホットスポット

[[248597]]人工知能が注目されています。技術革新は経済成長の根本的な原動力です。これらの技術...

広告および推奨システムに機械学習モデルを導入するための 2 つのアーキテクチャ

広告および推奨システムは、機械学習の最も成熟した応用分野です。では、広告システムや推奨システムでは、...

コンピュータビジョンにおけるステレオビジョンと奥行き知覚の例

人工知能と画像処理の魅力的な世界では、これらの概念は、機械が人間の目と同じように私たちの周りの三次元...

...

人工知能は人間の生活水準をどのように向上させることができるのでしょうか?

米国を例にとると、10年後には、成人一人当たり人工知能ビジネスから年間13,500ドルの利益を得るこ...

在庫 | 今年の世界の AI 事情

​​​ [[253255]]​​ 1. 2018 年の世界の AI 業界の発展は非常に爆発的でした。...

従来のプログラマーはどのように AI を変革し、学習するのでしょうか?アリババは最前線のアルゴリズムチームが開発したコアAI技術をオープンソース化

次のような疑問を持ったことはありませんか?人工知能は非常に人気があります。従来のプログラマーとして、...

...

...

機械学習アルゴリズムの実践 - Platt SMO と遺伝的アルゴリズム最適化 SVM

[[206589]]序文以前、SVMの双対問題を最適化するために、単純なSMOアルゴリズムを実装し...

マイクロソフトが第1四半期の業績報告を発表: AIサービスの需要が事業成長を牽引

マイクロソフトは10月25日、2024年第1四半期の財務報告を発表した。AI製品とクラウド事業の成長...

中国初の真のAI入力方式が発表され、未来の入力方式を革新する

入力がキーボードに別れを告げ、音声、表現、動作が入力方法になると、どのような魔法のような体験になるの...