最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

本日は、あらゆるアスペクト比と解像度で動作する Transformer モデルである NaViT を紹介します。

コンピューター ビジョン モデルで処理する前に、画像を固定解像度にサイズ変更することは一般的ですが、最適ではありません。

Vision Transformer (ViT) などのモデルは柔軟なシーケンスベースのモデリングを提供するため、入力シーケンスの長さは変化する可能性があります。

本論文では、研究者らはNaViT(ネイティブ解像度ViT)のこの利点を活用し、トレーニング中にシーケンスパッキングを使用して、任意の解像度とアスペクト比の入力コンテンツを処理しました。

研究者らは、モデルを柔軟に使用しながら、大規模な教師ありおよび対照的な画像とテキストの事前トレーニングによってトレーニング効率が向上することも実証しました。

NaViT は、画像やビデオの分類、オブジェクトの検出、セマンティック セグメンテーションなどの標準的なタスクに効率的に適用でき、堅牢性と公平性のベンチマークの両方で優れた結果を実現します。

推論時には、入力解像度の柔軟性を利用して、テスト時間とパフォーマンスのトレードオフをスムーズに制御できます。

研究者たちは、NaViT はほとんどのコンピューター ビジョン モデルで使用されている標準的な CNN 設計の入力およびモデリング パイプラインからの脱却を示し、ViT の有望な方向性を示していると考えています。

下の図に示すように、NaViT は事前トレーニング (左) 中に優れた計算効率を発揮し、下流の微調整 (中央) にも使用できます。

また、単一の NaViT を複数の解像度に適用して、パフォーマンスと推論コストのバランスを実現できます (右図)。

写真

ディープ ニューラル ネットワークは通常、入力のバッチでトレーニングされ、実行されることを理解します。

ハードウェア上で効率的に処理するということは、バッチの形状が固定されることを意味し、それはコンピューター ビジョン アプリケーションの画像サイズが固定されることを意味します。

これと、畳み込みニューラル ネットワークの歴史的なアーキテクチャ上の制限が相まって、研究者は画像のサイズを変更するか、固定サイズにパディングするようになりました。

しかし、どちらのアプローチにも欠点があります。前者はパフォーマンスを低下させ、後者は非効率的です。

ImageNet、LVIS、WebLI は、それぞれ分類、検出、Web 画像データセットの代表的な例です。アスペクト比を分析すると、次の図に示すように、ほとんどの画像は通常正方形ではないことがわかります。

写真

言語モデリングでは、固定シーケンス長の制限は多くの場合、例のパッキングによって回避されます。つまり、複数の異なる例のトークンが 1 つのシーケンスに結合され、言語モデルのトレーニングを大幅に高速化できます。

研究者らは、画像をパッチ(ラベル)のシーケンスとして表示することで、ビジョントランスフォーマーも同じパラダイムの恩恵を受けることができることを発見しました。研究者らはこれを Patch n' Pack と呼んでいます。

この技術を使用すると、視覚トランスフォーマーを元の解像度の画像でトレーニングできます。

サンプル パッケージ化により、アスペクト比を維持しながら可変解像度の画像を作成できるため、トレーニング時間が短縮され、パフォーマンスと柔軟性が向上します。

研究者らは、Patch n'Pack をサポートするためのデータの前処理とモデリングに必要な変更を実証しました。

写真

NaViT の研究者が使用する基本アーキテクチャは、必要な変更を加えた Vanilla ViT に準拠しています。

さらに、研究者らはViTにいくつかの小さな改良を加えました。

研究者らは、分類用の JFT-4B と対照的な言語画像用の WebLI の 2 つの設定で NaViT を事前トレーニングしました。

通常、JFT では、トレーニング前に画像が切り取られます。どちらの場合も、画像は正方形にサイズ変更されます。

特に明記しない限り、すべての NaViT モデルはこれらの操作なしで事前トレーニングされ、元のアスペクト比が維持されます。

NaViT は FLAX ライブラリを使用し、JAX で実装され、Scenic で構築されています。

ここで研究者らは2つの異なるタイプのトレーニングを実施しました。

分類事前トレーニングと対照事前トレーニング。

写真

上の図は、パフォーマンスを向上させるシーケンス パッケージングによって実装された連続トークン破棄戦略を示しています。

研究者らは、論文で紹介されている因数分解された埋め込みとその設計上の選択を評価します。

彼らは絶対的なパフォーマンスだけでなく、トレーニング プログラム外の解決策への外挿にも重点を置いています。

これをテストするために、研究者らはNaViT-B/16モデルをJFTでR∼U(160, 352)の解像度で20万ステップトレーニングした。

研究者らは埋め込み変数を変更せずに、ViT-B/16 と 256 の固定解像度でトレーニングされた ViT-B/16 を比較し、さまざまな解像度でパフォーマンスを評価しました。

同じ数の画像について、位置埋め込みの標準的な補間が新しい解像度で評価されました。

下の図はテスト結果を示しています。

因数分解アプローチは、特に高解像度への一般化が難しいベースライン ViT および Pix2struct の学習済み 2D 埋め込みよりも優れていることは明らかです。

NaViT は、アスペクト比が非常に高く、重要な情報が画像の中心から外れている画像が多数含まれる ImageNet-A でも優れたパフォーマンスを発揮します。

写真

次の図は、NaViT-L/16 または ViT-L/16 を使用して評価された公平性関連信号でトレーニングされたアノテーターの精度を示しています。

左: NaViT はより優れた表現を提供し、注釈者の精度を向上させます。

右: NaViT で元のアスペクト比を使用すると、画像のサイズを正方形に変更する場合と比べてパフォーマンスが向上します。

写真

研究者らは、ビジュアルトランスフォーマーにシーケンスパッキングを単純に適用した「Patch n' Pack」によって、トレーニングの効率が大幅に向上することを示した。結果として得られる NaViT モデルは、推論時に複数の解像度に適用でき、低コストで新しいタスクに適応できます。

Patch n'Pack により、適応コンピューティングやトレーニングと推論の効率を向上させる新しいアルゴリズムなど、固定形状が必要であるためにこれまでは不可能だったさまざまな研究が可能になります。

詳細な研究については原著論文を参照してください。私の能力に限界があるため、この記事の翻訳に誤りがあった場合は深くお詫び申し上げます。

<<:  人工知能によりデータセンターのコストと制御ニーズが増加

>>:  GPT-4は本当に愚かになったことが研究で証明される:数学的能力は3か月で劇的に低下し、コーディング能力も低下した

ブログ    
ブログ    
ブログ    

推薦する

単語ベクトル計算とテキスト分類ツール fastText の応用原理と実践

FastTextは、Facebookが2016年にオープンソース化した単語ベクトル計算およびテキスト...

...

12の性能項目で1位を獲得、GPT-4に最も近い中国最大級のモデルが登場!いよいよ本格的に営業開始です!

中国はいつになったら、極めて強力な一般化能力を持つさまざまな知的存在を創造し、人類の真の助手となるこ...

トップ 10 の AI フレームワークとリポジトリのレビュー、その長所と短所の分析

[51CTO.com クイック翻訳] 人工知能は決して新しいものではありませんが、科学の分野では古く...

今後3年間で、人工知能は全国の小売業界に影響を与える大きな嵐となるでしょう。排除されてしまうのでしょうか?

10 年前、ほとんどの人は、今日では現金やカードを持ち歩かずに携帯電話だけを持って街を歩き回り、買...

アマゾンとファーウェイの機械学習面接を経験すると、試験官はこれらの答えを聞きたがっていることが判明

[[245589]]ジョージ・セイフ氏はこれまで、主にデータサイエンスや機械学習関連の職種を対象に、...

...

人工知能は進歩しすぎているのでしょうか?この記事を読めば、誰もが人工知能の歴史を理解できる

人工知能は常に人々に非常に高級感を与えます。人々に役立つものの意味と価値を理解する必要があります。 ...

GPT-4はあなたよりも質問をするのが得意です。大きなモデルを繰り返し使用して、人間との対話の障壁を打ち破りましょう。

人工知能の分野における最新の開発では、人工的に生成されたプロンプトの品質が、大規模言語モデル (LL...

...

AIドローンレースが人間のチャンピオンに勝利、ネイチャー誌が表紙:AlphaGoの成果を現実世界にもたらす

AIは再び人間の世界チャンピオンを破り、ネイチャー誌の表紙を飾りました。 AlphaGo が前回囲碁...

ほんの数行の Python コードで、将来の子供がどのような外見になるかを予測できますか?強力な人工知能

今回はBaidu Smart Cloudの顔認識機能とPythonを組み合わせて実験してみました。結...

[ビッグガイがやってくるエピソード4] データ駆動型の製品意思決定とインテリジェンス

データと製品を組み合わせるトピック 1 は、データと製品の組み合わせです。Stitch Fix を例...

1 つの記事で理解する: 「コンピューター ビジョン」とは一体何でしょうか?

[[183558]]誰かがあなたにボールを投げてきたら、どうしますか? もちろん、すぐにキャッチす...