最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

本日は、あらゆるアスペクト比と解像度で動作する Transformer モデルである NaViT を紹介します。

コンピューター ビジョン モデルで処理する前に、画像を固定解像度にサイズ変更することは一般的ですが、最適ではありません。

Vision Transformer (ViT) などのモデルは柔軟なシーケンスベースのモデリングを提供するため、入力シーケンスの長さは変化する可能性があります。

本論文では、研究者らはNaViT(ネイティブ解像度ViT)のこの利点を活用し、トレーニング中にシーケンスパッキングを使用して、任意の解像度とアスペクト比の入力コンテンツを処理しました。

研究者らは、モデルを柔軟に使用しながら、大規模な教師ありおよび対照的な画像とテキストの事前トレーニングによってトレーニング効率が向上することも実証しました。

NaViT は、画像やビデオの分類、オブジェクトの検出、セマンティック セグメンテーションなどの標準的なタスクに効率的に適用でき、堅牢性と公平性のベンチマークの両方で優れた結果を実現します。

推論時には、入力解像度の柔軟性を利用して、テスト時間とパフォーマンスのトレードオフをスムーズに制御できます。

研究者たちは、NaViT はほとんどのコンピューター ビジョン モデルで使用されている標準的な CNN 設計の入力およびモデリング パイプラインからの脱却を示し、ViT の有望な方向性を示していると考えています。

下の図に示すように、NaViT は事前トレーニング (左) 中に優れた計算効率を発揮し、下流の微調整 (中央) にも使用できます。

また、単一の NaViT を複数の解像度に適用して、パフォーマンスと推論コストのバランスを実現できます (右図)。

写真

ディープ ニューラル ネットワークは通常、入力のバッチでトレーニングされ、実行されることを理解します。

ハードウェア上で効率的に処理するということは、バッチの形状が固定されることを意味し、それはコンピューター ビジョン アプリケーションの画像サイズが固定されることを意味します。

これと、畳み込みニューラル ネットワークの歴史的なアーキテクチャ上の制限が相まって、研究者は画像のサイズを変更するか、固定サイズにパディングするようになりました。

しかし、どちらのアプローチにも欠点があります。前者はパフォーマンスを低下させ、後者は非効率的です。

ImageNet、LVIS、WebLI は、それぞれ分類、検出、Web 画像データセットの代表的な例です。アスペクト比を分析すると、次の図に示すように、ほとんどの画像は通常正方形ではないことがわかります。

写真

言語モデリングでは、固定シーケンス長の制限は多くの場合、例のパッキングによって回避されます。つまり、複数の異なる例のトークンが 1 つのシーケンスに結合され、言語モデルのトレーニングを大幅に高速化できます。

研究者らは、画像をパッチ(ラベル)のシーケンスとして表示することで、ビジョントランスフォーマーも同じパラダイムの恩恵を受けることができることを発見しました。研究者らはこれを Patch n' Pack と呼んでいます。

この技術を使用すると、視覚トランスフォーマーを元の解像度の画像でトレーニングできます。

サンプル パッケージ化により、アスペクト比を維持しながら可変解像度の画像を作成できるため、トレーニング時間が短縮され、パフォーマンスと柔軟性が向上します。

研究者らは、Patch n'Pack をサポートするためのデータの前処理とモデリングに必要な変更を実証しました。

写真

NaViT の研究者が使用する基本アーキテクチャは、必要な変更を加えた Vanilla ViT に準拠しています。

さらに、研究者らはViTにいくつかの小さな改良を加えました。

研究者らは、分類用の JFT-4B と対照的な言語画像用の WebLI の 2 つの設定で NaViT を事前トレーニングしました。

通常、JFT では、トレーニング前に画像が切り取られます。どちらの場合も、画像は正方形にサイズ変更されます。

特に明記しない限り、すべての NaViT モデルはこれらの操作なしで事前トレーニングされ、元のアスペクト比が維持されます。

NaViT は FLAX ライブラリを使用し、JAX で実装され、Scenic で構築されています。

ここで研究者らは2つの異なるタイプのトレーニングを実施しました。

分類事前トレーニングと対照事前トレーニング。

写真

上の図は、パフォーマンスを向上させるシーケンス パッケージングによって実装された連続トークン破棄戦略を示しています。

研究者らは、論文で紹介されている因数分解された埋め込みとその設計上の選択を評価します。

彼らは絶対的なパフォーマンスだけでなく、トレーニング プログラム外の解決策への外挿にも重点を置いています。

これをテストするために、研究者らはNaViT-B/16モデルをJFTでR∼U(160, 352)の解像度で20万ステップトレーニングした。

研究者らは埋め込み変数を変更せずに、ViT-B/16 と 256 の固定解像度でトレーニングされた ViT-B/16 を比較し、さまざまな解像度でパフォーマンスを評価しました。

同じ数の画像について、位置埋め込みの標準的な補間が新しい解像度で評価されました。

下の図はテスト結果を示しています。

因数分解アプローチは、特に高解像度への一般化が難しいベースライン ViT および Pix2struct の学習済み 2D 埋め込みよりも優れていることは明らかです。

NaViT は、アスペクト比が非常に高く、重要な情報が画像の中心から外れている画像が多数含まれる ImageNet-A でも優れたパフォーマンスを発揮します。

写真

次の図は、NaViT-L/16 または ViT-L/16 を使用して評価された公平性関連信号でトレーニングされたアノテーターの精度を示しています。

左: NaViT はより優れた表現を提供し、注釈者の精度を向上させます。

右: NaViT で元のアスペクト比を使用すると、画像のサイズを正方形に変更する場合と比べてパフォーマンスが向上します。

写真

研究者らは、ビジュアルトランスフォーマーにシーケンスパッキングを単純に適用した「Patch n' Pack」によって、トレーニングの効率が大幅に向上することを示した。結果として得られる NaViT モデルは、推論時に複数の解像度に適用でき、低コストで新しいタスクに適応できます。

Patch n'Pack により、適応コンピューティングやトレーニングと推論の効率を向上させる新しいアルゴリズムなど、固定形状が必要であるためにこれまでは不可能だったさまざまな研究が可能になります。

詳細な研究については原著論文を参照してください。私の能力に限界があるため、この記事の翻訳に誤りがあった場合は深くお詫び申し上げます。

<<:  人工知能によりデータセンターのコストと制御ニーズが増加

>>:  GPT-4は本当に愚かになったことが研究で証明される:数学的能力は3か月で劇的に低下し、コーディング能力も低下した

ブログ    

推薦する

AI.com ドメインが ChatGPT から X.ai にリダイレクトされました

AI.com ドメイン名は、もともと今年 2 月に OpenAI によって購入され、ChatGPT ...

機械学習を使用してデータクレンジングを自動化する方法

調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス...

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

[[234940]]過去2年間、世界のIT大手は人工知能の分野で展開してきました。GoogleはD...

...

GPT-4を粉砕せよ! Google DeepMind CEOが明かす:次世代の大規模モデルはAlphaGoと統合される

Googleは本当に全力を尽くしています。 AlphaGoとGPT-4に似た大規模モデルを組み合わせ...

...

製薬業界を覆すAIは「仕掛け」か「希望」か?

人工知能 (AI) は、過去 10 年ほどの間に SF の世界から現実の世界へと移行し、地球上のほぼ...

...

...

マイクロソフトによるニュアンスの買収が大きな意味を持つ理由

[[394293]]マイクロソフトは最近、音声認識と人工知能による会話サービスを主に提供するNuan...

ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

え、まだNeRFを知らないの? NeRF は、今年コンピューター ビジョン分野で最も注目されている ...

Microsoft XiaoIceが第7世代にアップグレードされ、ユーザーの権限を強化するアバターフレームワークがリリースされました

[51CTO.comよりオリジナル記事] 8月15日、マイクロソフト(アジア)インターネットエンジニ...

とんでもないことだ! UniVision: BEV 検出と Occ 共同統合フレームワーク、デュアルタスク SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人間と人工知能がどのように関係を築くか

人間関係を構築するのに優れているのは人間か人工知能か?実際、この革新的な技術は長い間存在していました...