論文アドレス: https://arxiv.org/abs/2307.09283 コードアドレス: https://github.com/THU-MIG/RepViT RepViT は確かに他の主流のモバイル ViT アーキテクチャよりも優れていることがわかります。次に、この作品の貢献を見てみましょう。
さて、次に誰もが気にするべきことは、「レイテンシが低くても精度の高いモデルをどのように設計するか」です。 方法
トレーニングレシピの調整まず、この論文では、モバイル デバイスでのレイテンシを測定するためのメトリックを紹介し、トレーニング戦略を既存の軽量 ViT と一致させます。このステップは主にモデル トレーニングの一貫性を確保するためのもので、レイテンシ測定とトレーニング戦略の調整という 2 つの概念が含まれます。 レイテンシーメトリクス 実際のモバイル デバイス上でのモデルのパフォーマンスをより正確に測定するために、著者は、デバイス上のモデルの実際のレイテンシをベースライン メトリックとして直接測定することを選択しました。このメトリックは、主に トレーニング戦略の調整 ここで、MobileNetV3-L のトレーニング戦略は、他の軽量 ViTs モデルに合わせて調整されます。これには、 ブロック設計の最適化次に、一貫したトレーニング設定に基づいて、著者らは最適なブロック設計を検討しました。ブロック設計は CNN アーキテクチャの重要な部分であり、ブロック設計を最適化するとネットワークのパフォーマンスが向上します。 トークンミキサーとチャンネルミキサーを分離 この部分は主に 膨張率を下げて幅を広げる チャネルミキサーでは、元の拡張比は 4 です。つまり、MLP ブロックの隠し次元は入力次元の 4 倍になり、多くの計算リソースを消費し、推論時間に大きな影響を与えます。この問題を緩和するために、拡張比率を 2 に減らすことで、パラメータの冗長性とレイテンシを削減し、MobileNetV3-L のレイテンシを 0.65 ミリ秒に削減できます。その後、ネットワークの幅を広げる、つまり各ステージのチャネル数を増やすことで、Top-1 の精度は 73.5% に向上しましたが、レイテンシはわずか 0.89 ミリ秒にしか増加しませんでした。 マクロアーキテクチャ要素の最適化このステップでは、主にステム、ダウンサンプリング レイヤー、分類子、全体のステージ比などのマクロ アーキテクチャ要素から始めて、モバイル デバイス上の MobileNetV3-L のパフォーマンスをさらに最適化します。これらのマクロアーキテクチャ要素を最適化することで、モデルのパフォーマンスを大幅に向上させることができます。 浅いネットワークは畳み込み抽出器を使用する 写真 ViT は通常、入力画像をステムとして重複しないパッチに分割する「パッチ化」操作を使用します。ただし、このアプローチには、トレーニングの最適化とトレーニング レシピに対する感度に関する問題があります。そのため、著者らは代わりに、多くの軽量 ViT で採用されている早期畳み込みを採用しました。対照的に、MobileNetV3-L は 4 倍ダウンサンプリングにさらに複雑なステムを使用します。その結果、初期のフィルター数は 24 に増加しましたが、合計レイテンシは 0.86 ミリ秒に短縮され、トップ 1 精度は 73.9% に向上しました。 より深いダウンサンプリング層ViT では、空間ダウンサンプリングは通常、別のパッチマージレイヤーを介して実装されます。したがって、ここでは別のより深いダウンサンプリング レイヤーを使用して、ネットワークの深さを増やし、解像度の低下による情報損失を減らすことができます。具体的には、著者らはまず 1x1 畳み込みを使用してチャネル次元を調整し、次に 2 つの 1x1 畳み込みの入力と出力を残差接続を介して接続してフィードフォワード ネットワークを形成します。さらに、ダウンサンプリング層をさらに深くするために RepViT ブロックを前面に追加し、レイテンシ 0.96 ミリ秒でトップ 1 精度を 75.4% に向上しました。 よりシンプルな分類器 軽量 ViT では、分類器は通常、グローバル平均プーリング層とそれに続く線形層で構成されます。対照的に、MobileNetV3-L はより複雑な分類器を使用します。最終ステージにはより多くのチャネルが含まれるようになったため、著者らはこれをグローバル平均プーリング層と線形層で構成される単純な分類器に置き換え、レイテンシを 0.77 ミリ秒に短縮し、トップ 1 の精度を 74.8% にしました。 全体のステージ比率 ステージ比は、異なるステージのブロック数の比率を表し、各ステージでの計算の分散を示します。この論文では、より最適なステージ比 1:1:7:1 を選択し、ネットワークの深さを 2:2:14:2 に増やして、より深いレイアウトを実現しています。このステップにより、レイテンシが 1.02 ミリ秒でトップ 1 の精度が 76.9% に向上します。 マイクロデザインの調整次に、RepViT は、適切な畳み込みカーネル サイズの選択や、スクイーズ アンド エキシビション (SE) 層の位置の最適化など、レイヤーごとのマイクロ設計を通じて軽量 CNN を調整します。どちらのアプローチでもモデルのパフォーマンスを大幅に向上できます。 畳み込みカーネルサイズの選択 CNN のパフォーマンスとレイテンシは通常、畳み込みカーネルのサイズによって影響を受けることはよく知られています。たとえば、MHSA のような長距離コンテキスト依存性をモデル化するために、ConvNeXt は大きな畳み込みカーネルを使用し、パフォーマンスが大幅に向上します。ただし、大規模な畳み込みカーネルは、計算の複雑さとメモリ アクセス コストの点から、モバイル デバイスには適していません。 MobileNetV3-L は主に 3x3 畳み込みを使用し、一部のブロックは 5x5 畳み込みを使用します。著者らはこれを 3x3 畳み込みに置き換え、その結果、トップ 1 精度を 76.9% 維持しながら、レイテンシを 1.00 ミリ秒に短縮できました。 SE層の位置 畳み込みに対する自己注意モジュールの利点の 1 つは、入力に基づいて重みを調整できることです。これは、データ駆動型プロパティとして知られています。チャネル アテンション モジュールとして、SE レイヤーはデータ駆動型プロパティの欠如による畳み込みの制限を補い、より優れたパフォーマンスをもたらします。 MobileNetV3-L は、主に最後の 2 つのステージで、いくつかのブロックに SE レイヤーを追加します。ただし、解像度の低いステージでは、高解像度のステージよりも、SE が提供するグローバル平均プーリング操作による精度の向上が少なくなります。著者らは、すべてのステージで SE レイヤーをクロスブロック方式で使用する戦略を設計し、レイテンシの増加を最小限に抑えながら精度の向上を最大化しました。このステップにより、トップ 1 の精度が 77.4% に向上し、レイテンシが 0.87 ミリ秒に短縮されました。 [実は、Baidu はずっと以前に実験と比較を行っており、この結論に達しています。SE 層は深層層の近くに配置した方が優れています。] ネットワークアーキテクチャ最終的に、上記の改善戦略を統合することで、 実験画像分類検出とセグメンテーション要約するこの論文では、軽量 ViT のアーキテクチャ選択を紹介することで、軽量 CNN の効率的な設計を再検討します。これにより、リソースが制限されたモバイル デバイス向けに設計された軽量 CNN の新しいファミリーである RepViT が誕生しました。さまざまな視覚タスクにおいて、RepViT は既存の最先端の軽量 ViT および CNN を上回り、優れたパフォーマンスとレイテンシを示します。これは、モバイル デバイス向けの純粋に軽量な CNN の可能性を浮き彫りにします。 |
人工知能は人気が高まっており、つい最近までは単なる新興トレンドに過ぎませんでしたが、現在ではこの技術...
Microsoft は最近、「MathVista」と呼ばれる新しいマルチモーダル数学的推論ベンチマー...
最近、偶然にMySQLのページング最適化のテストケースを見ました。テストシナリオを詳しく説明せずに、...
今回の流行期間中、病院や最前線の防疫現場では、体温測定ロボット、消毒ロボット、検査ロボット、咽頭ぬぐ...
[[251517]] 12月4日(浙江オンライン記者曽福全)このほど杭州で開催された浙江脳画像サミ...
【51CTO.comオリジナル記事】 1. はじめに11月1日、BaiduはPaddle Fluid...
[51CTO.com クイック翻訳] 海外メディアの報道によると、誰かが設計しているロボットがあな...
スマートスピーカー、スマートフォン、スマートブレスレット、スマートエアコンなどのデバイスを購入するこ...
前回の記事「AIビッグモデルの解釈、トークンの理解から始める」では、最も基本的な概念である「トークン...
新興テクノロジーが世界を席巻し、前例のない革新、機会、脅威をもたらしています。これらの分野における専...
汎用人工知能と人工知能の未来を探ります。汎用人工知能 (AGI) は、人工知能 (AI) 研究の分野...
次のような経験をしたことはありませんか。求人検索サイトで仕事の希望に関するアンケートに答えると、サイ...