Apple: 画像モデルの事前トレーニングに言語モデルの自己回帰アプローチを使用する

Apple: 画像モデルの事前トレーニングに言語モデルの自己回帰アプローチを使用する

1. 背景

GPTなどの大規模モデルの登場後、言語モデルのTransformer +自己回帰モデリング法、つまり次のトークンを予測する事前トレーニングタスクは大きな成功を収めました。では、この自己回帰モデリング手法は、視覚モデルでより良い結果を達成できるのでしょうか?今回紹介する記事は、Appleが最近公開したTransformer + 自己回帰事前学習に基づく視覚モデルのトレーニングに関する記事です。この作業について詳しく紹介します。

写真

論文タイトル: 大規模自己回帰画像モデルのスケーラブルな事前トレーニング

ダウンロードアドレス: https://arxiv.org/pdf/2401.08541v1.pdf

オープンソースコード: https://github.com/apple/ml-aim

2. モデル構造

全体的なモデル構造はTransformerを採用し、最適化ターゲットは言語モデルにおける次のトークン予測を採用しています。モデル構造に関しては、主に 3 つの変更点があります。まず、ViTの双方向アテンションと比較して、この記事ではGPTの一方向アテンションを使用します。つまり、各位置の要素は前の要素とのアテンションのみを計算できます。

写真

次に、プレフィックスが導入されます。Transformer の前に、複数のプレフィックス トークンが入力に追加されます。これらのトークンは双方向アテンションを使用します。この主な機能は、事前トレーニングと下流のアプリケーション間の一貫性を確保することです。下流では、ViT に似た双方向アテンション方式が使用されます。事前トレーニングでは、プレフィックス双方向アテンションを追加して、モデルを下流のタスクに適応させます。

写真

最後に、モデルの最終出力の MLP レイヤーが最適化されます。元の事前トレーニング方法では、通常、MLP レイヤーを破棄し、下流の微調整で新しい MLP を使用して、事前トレーニングされた MLP が事前トレーニング タスクに偏りすぎて下流のタスクのパフォーマンスが低下するのを防ぎます。この論文では、各パッチに独立した MLP を使用しています。画像の全体的な表現については、各パッチが一般的なプーリングではなく注意力で融合されることが保証されており、これにより、下流のタスクでの事前トレーニング済み MLP ヘッドの使いやすさが向上します。

最適化の目的に関して、この論文では 2 つの方法を試しました。1 つ目は、パッチ ピクセルを直接フィッティングし、予測に MSE を使用する方法です。 2 つ目は、画像パッチを事前にトークン化し、分類タスクに変換して、クロスエントロピー損失を使用することです。しかし、記事中のその後のアブレーション実験では、2 番目の方法でもモデルを正常にトレーニングできるものの、その効果はピクセル粒度 MSE に基づく方法ほど良くないことがわかりました。

3. 実験結果

記事の実験部分では、この自己回帰ベースの画像モデルの効果と、各部分が効果に与える影響を詳細に分析します。

まず、トレーニングが進むにつれて、下流の画像分類タスクはますます効果的になり、この事前トレーニング方法が確かに優れた画像表現情報を学習できることを示しています。

写真

トレーニング データに関して言えば、小さなデータ セットでトレーニングすると、オーバーフィッティングが発生します。DFN-2B を使用する場合、初期検証セットの損失は大きくなりますが、明らかなオーバーフィッティングの問題はありません。

写真

この記事では、モデルの各モジュールの設計方法に関する詳細なアブレーション実験分析も行っています。

写真

最終的な効果比較では、AIM は非常に良好な結果を達成し、この自己回帰事前トレーニング方法が画像にも適用可能であり、大規模な画像モデルのその後の事前トレーニングの主要な方法になる可能性があることも検証されました。

写真

<<:  ナレッジグラフをビッグモデルの仲間にしよう

>>:  同社はコストバランスに苦戦しており、AI部門で猛烈な採用を行い、他の部門では人員削減を行っている。

ブログ    

推薦する

X-Dreamerは2Dと3D生成のギャップを埋め、高品質のテキストから3D生成を実現します。

近年、事前学習済みの拡散モデル[1, 2, 3]の開発により、テキストから3Dコンテンツへの自動作成...

アイデアこそが王様!メンサ国際元会長が2021年の人工知能の応用を総括

[[443263]]人工知能の将来の発展の方向性を真に理解するには、まだ長い道のりが残っています。 ...

AdobeなどがAIを活用しアニメキャラクターのポーズ移行を実現する新タイプの「パペットアニメーション」を提案

人形アニメーションの制作は、クリエイターの手描きに頼るアニメーションと比べると、非常に手間のかかる作...

Metaがオープンソース「AIアベンジャーズアライアンス」の結成を主導、AMDと他の同盟国が800億ドルでOpenAI Nvidiaと戦う

今日、MetaとIBMが主導し、50を超えるテクノロジー企業、大学、機関が共同でAIアライアンスを設...

コードを超高速で変更! GPT-3に編集機能とテキスト挿入機能が追加され、AIがあなたに代わって詩を書くことができる

いつもトラブルを起こしているAI分野の花形研究機関OpenAIが最近また別のことをしました。GPT-...

CatBoost: XGBoost よりも優れた GBDT アルゴリズム

[[242113]] [51CTO.com クイック翻訳] インターネット アルゴリズムには、推奨シ...

危険信号:Google AIはマスクを着用した女性を口をテープで塞いでいる女性と認識

FuninUSA によれば、Microsoft、Google、IBM のビジョン システムが現実世界...

生成型人工知能とは何かについて話しましょう

ジェネレーティブ AI は、これまでビジネス パーソンに依存していたモデルをアルゴリズム担当者が生成...

AI モデルに新たな革命が起こるのでしょうか?脳の記憶は回転するのでしょうか?過去と未来は実際には「直交」した空間である

人間も他の動物も、目覚めるたびに過去の記憶を整理し、新しい記憶を迎える準備をします。私たちは、以前の...

私の国はAI医療機器の標準化を加速しています

今年は、新たに改訂された「医療機器監督管理条例」の実施初年度であり、企業の主な責任がより顕著になり、...

...

[技術的な詳細] 自動化プラットフォームの将来はどうなるのでしょうか? IBM Cloud Pak for Business Automationのコンポーネントを詳しく見る

数十年にわたる開発を経て、工場現場、銀行支店、製油所など、ほとんどの業界で自動化が見られるようになり...

BEVFusionを超えて!高速かつシンプルなBEV統合展開ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

俳優の顔の交換、AIデート、モザイク除去…2020年のAI界の注目トピックトップ10を振り返る

[[373822]] 2020年が終わりを迎えました。今年、人工知能(AI)分野は浮き沈みに富み、常...

黄仁勲のNVIDIAの1兆ドル規模のビジネスを管理するクレイジーな方法:計画なし、レポートなし、階層なし

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...