最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

本日は、あらゆるアスペクト比と解像度で動作する Transformer モデルである NaViT を紹介します。

コンピュータービジョンモデルで処理する前に、画像を固定解像度にサイズ変更することは一般的ですが、最適ではありません。

Vision Transformer (ViT) などのモデルは柔軟なシーケンスベースのモデリングを提供するため、入力シーケンスの長さは変化する可能性があります。

本論文では、研究者らはNaViT（ネイティブ解像度ViT）のこの利点を活用し、トレーニング中にシーケンスパッキングを使用して、任意の解像度とアスペクト比の入力コンテンツを処理しました。

研究者らは、モデルを柔軟に使用しながら、大規模な教師ありおよび対照的な画像とテキストの事前トレーニングによってトレーニング効率が向上することも実証しました。

NaViT は、画像やビデオの分類、オブジェクトの検出、セマンティックセグメンテーションなどの標準的なタスクに効率的に適用でき、堅牢性と公平性のベンチマークの両方で優れた結果を実現します。

推論時には、入力解像度の柔軟性を利用して、テスト時間とパフォーマンスのトレードオフをスムーズに制御できます。

研究者たちは、NaViT はほとんどのコンピュータービジョンモデルで使用されている標準的な CNN 設計の入力およびモデリングパイプラインからの脱却を示し、ViT の有望な方向性を示していると考えています。

下の図に示すように、NaViT は事前トレーニング (左) 中に優れた計算効率を発揮し、下流の微調整 (中央) にも使用できます。

また、単一の NaViT を複数の解像度に適用して、パフォーマンスと推論コストのバランスを実現できます (右図)。

写真

ディープニューラルネットワークは通常、入力のバッチでトレーニングされ、実行されることを理解します。

ハードウェア上で効率的に処理するということは、バッチの形状が固定されることを意味し、それはコンピュータービジョンアプリケーションの画像サイズが固定されることを意味します。

これと、畳み込みニューラルネットワークの歴史的なアーキテクチャ上の制限が相まって、研究者は画像のサイズを変更するか、固定サイズにパディングするようになりました。

しかし、どちらのアプローチにも欠点があります。前者はパフォーマンスを低下させ、後者は非効率的です。

ImageNet、LVIS、WebLI は、それぞれ分類、検出、Web 画像データセットの代表的な例です。アスペクト比を分析すると、次の図に示すように、ほとんどの画像は通常正方形ではないことがわかります。

写真

言語モデリングでは、固定シーケンス長の制限は多くの場合、例のパッキングによって回避されます。つまり、複数の異なる例のトークンが 1 つのシーケンスに結合され、言語モデルのトレーニングを大幅に高速化できます。

研究者らは、画像をパッチ（ラベル）のシーケンスとして表示することで、ビジョントランスフォーマーも同じパラダイムの恩恵を受けることができることを発見しました。研究者らはこれを Patch n' Pack と呼んでいます。

この技術を使用すると、視覚トランスフォーマーを元の解像度の画像でトレーニングできます。

サンプルパッケージ化により、アスペクト比を維持しながら可変解像度の画像を作成できるため、トレーニング時間が短縮され、パフォーマンスと柔軟性が向上します。

研究者らは、Patch n'Pack をサポートするためのデータの前処理とモデリングに必要な変更を実証しました。

写真

NaViT の研究者が使用する基本アーキテクチャは、必要な変更を加えた Vanilla ViT に準拠しています。

さらに、研究者らはViTにいくつかの小さな改良を加えました。

研究者らは、分類用の JFT-4B と対照的な言語画像用の WebLI の 2 つの設定で NaViT を事前トレーニングしました。

通常、JFT では、トレーニング前に画像が切り取られます。どちらの場合も、画像は正方形にサイズ変更されます。

特に明記しない限り、すべての NaViT モデルはこれらの操作なしで事前トレーニングされ、元のアスペクト比が維持されます。

NaViT は FLAX ライブラリを使用し、JAX で実装され、Scenic で構築されています。

ここで研究者らは2つの異なるタイプのトレーニングを実施しました。

分類事前トレーニングと対照事前トレーニング。

写真

上の図は、パフォーマンスを向上させるシーケンスパッケージングによって実装された連続トークン破棄戦略を示しています。

研究者らは、論文で紹介されている因数分解された埋め込みとその設計上の選択を評価します。

彼らは絶対的なパフォーマンスだけでなく、トレーニングプログラム外の解決策への外挿にも重点を置いています。

これをテストするために、研究者らはNaViT-B/16モデルをJFTでR∼U(160, 352)の解像度で20万ステップトレーニングした。

研究者らは埋め込み変数を変更せずに、ViT-B/16 と 256 の固定解像度でトレーニングされた ViT-B/16 を比較し、さまざまな解像度でパフォーマンスを評価しました。

同じ数の画像について、位置埋め込みの標準的な補間が新しい解像度で評価されました。

下の図はテスト結果を示しています。

因数分解アプローチは、特に高解像度への一般化が難しいベースライン ViT および Pix2struct の学習済み 2D 埋め込みよりも優れていることは明らかです。

NaViT は、アスペクト比が非常に高く、重要な情報が画像の中心から外れている画像が多数含まれる ImageNet-A でも優れたパフォーマンスを発揮します。

写真

次の図は、NaViT-L/16 または ViT-L/16 を使用して評価された公平性関連信号でトレーニングされたアノテーターの精度を示しています。

左: NaViT はより優れた表現を提供し、注釈者の精度を向上させます。

右: NaViT で元のアスペクト比を使用すると、画像のサイズを正方形に変更する場合と比べてパフォーマンスが向上します。

写真

研究者らは、ビジュアルトランスフォーマーにシーケンスパッキングを単純に適用した「Patch n' Pack」によって、トレーニングの効率が大幅に向上することを示した。結果として得られる NaViT モデルは、推論時に複数の解像度に適用でき、低コストで新しいタスクに適応できます。

Patch n'Pack により、適応コンピューティングやトレーニングと推論の効率を向上させる新しいアルゴリズムなど、固定形状が必要であるためにこれまでは不可能だったさまざまな研究が可能になります。

詳細な研究については原著論文を参照してください。私の能力に限界があるため、この記事の翻訳に誤りがあった場合は深くお詫び申し上げます。

<<: 人工知能によりデータセンターのコストと制御ニーズが増加

>>: GPT-4は本当に愚かになったことが研究で証明される：数学的能力は3か月で劇的に低下し、コーディング能力も低下した

ブログ

李開復と張亜琴が重要な対談を行い、トップAI専門家が未来について議論し、200万人のネットユーザーがオンラインで視聴した。

最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

李開復と張亜琴が重要な対談を行い、トップAI専門家が未来について議論し、200万人のネットユーザーがオンラインで視聴した。

外国企業が人間の介入を必要としないAI犬訓練機を開発

協働ロボットはインダストリー4.0戦略の成功の核心です

ドローン技術の飛躍的進歩とアプリケーションの革新が2017年に新たな時代を告げるかもしれない

人工知能は倫理的なジレンマに直面しており、将来の発展には法の支配が必要である

ハッカーが、さまざまなネットワーク攻撃コードを自動生成できる悪質なAIツールFraudGPTを公開

AIデータストレージデバイスを選択するための6つの重要な要素

推薦する

単語ベクトル計算とテキスト分類ツール fastText の応用原理と実践

12の性能項目で1位を獲得、GPT-4に最も近い中国最大級のモデルが登場！いよいよ本格的に営業開始です！

中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

トップ 10 の AI フレームワークとリポジトリのレビュー、その長所と短所の分析

今後3年間で、人工知能は全国の小売業界に影響を与える大きな嵐となるでしょう。排除されてしまうのでしょうか？

アマゾンとファーウェイの機械学習面接を経験すると、試験官はこれらの答えを聞きたがっていることが判明

人工知能は進歩しすぎているのでしょうか?この記事を読めば、誰もが人工知能の歴史を理解できる

GPT-4はあなたよりも質問をするのが得意です。大きなモデルを繰り返し使用して、人間との対話の障壁を打ち破りましょう。

AIドローンレースが人間のチャンピオンに勝利、ネイチャー誌が表紙：AlphaGoの成果を現実世界にもたらす

ほんの数行の Python コードで、将来の子供がどのような外見になるかを予測できますか?強力な人工知能

[ビッグガイがやってくるエピソード4] データ駆動型の製品意思決定とインテリジェンス

1 つの記事で理解する: 「コンピュータービジョン」とは一体何でしょうか?