YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー:それはあなたでなければならない

YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー:それはあなたでなければならない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MeituanがYOLOv6をリリースしたのと同じように、YOLO公式チームも新しいバージョンをリリースしました。

YOLOプロジェクトの保守に参加したアレクセイ・ボチコフスキー氏はツイッターで次のように主張した。

YOLOv7 の公式バージョンは、以下のバージョンよりも精度と速度が優れています。

論文では、研究チームはYOLOv7と他のバリアントのパフォーマンスを詳細に比較し、バージョンv7の新しい変更点を紹介しました。

では早速、YOLOv7 がいかに強力であるかを実験結果で見てみましょう。

スピードと精度は他のバリアントを上回ります

この論文では、YOLO の以前のバージョンと最先端の物体検出モデルをベンチマークとして使用して実験が行われました。

次の表は、同じパラメータ設定での YOLOv7 モデルと他のバージョンの比較を示しています。

緑色でマークされたデータは、以前のバージョンと比較してパフォーマンスが向上したことを示しています。以前のバージョンと比較してパラメータ数と計算量が削減され、APも改善されました。

クラウド GPU モデルでも、最新モデルは以前のモデルに比べて計算量とパラメータが削減されながらも、高い AP を維持できます。

YOLOv7 は速度と精度のバランスをうまく取ることができます。

既存の汎用 GPU およびモバイル GPU オブジェクト検出モデルとの比較:

YOLOv7 は、速度(FPS)と精度(AP)の両方において他の物体検出モデルよりも優れています。

例えば、入力解像度が1280の場合、YOLOv7とYOLORを比較すると、YOLOv7-W6の推論速度はYOLOR-P6よりも8fps速く、検出率も1%AP向上しています。

パフォーマンスはどのように向上しますか?

リアルタイム オブジェクト検出モデルのパフォーマンスを向上させるには、多くの場合、次の点から始めます。

1. より高速で強力なネットワーク アーキテクチャ。

2. より効果的な機能統合方法。

3. より正確な検出方法

4. より正確な損失関数

5. より効率的なラベル割り当て方法。

6. より効果的なトレーニング方法。

YOLOv7 は主に 4、5、6 から開始して、より優れたパフォーマンスの検出モデルを設計します。

まず、YOLOv7 は、Extended-ELAN (略して E-ELAN)と呼ばれる効率的な長距離注意ネットワークを拡張します。

大規模 ELAN では、勾配パスの長さやブロック数に関係なく、ネットワークは安定した状態に到達できます。

ただし、計算ブロックが無限に積み重ねられると、この安定した状態が破壊され、パラメータの使用率が低下する可能性があります。

E-ELAN はカーディナリティを拡張シャッフル、マージすることで、元の勾配パスを破壊することなくネットワークの学習能力を向上させることができます。

アーキテクチャの面では、E-ELAN は、遷移層のアーキテクチャを変更せずに、コンピューティング ブロック内のアーキテクチャのみを変更します。

E-ELAN は、元の ELAN 設計アーキテクチャを維持するだけでなく、さまざまなコンピューティング ブロックのグループをガイドして、より多様な機能を学習することもできます。

次に、YOLOv7 はカスケードベースのモデルスケーリング方式を採用します。

モデルのスケーリングとは、モデルのいくつかの属性を調整して、さまざまな推論速度のニーズを満たすさまざまなスケールのモデルを生成することを指します。

ただし、モデル スケーリングを接続ベースのアーキテクチャに適用すると、実行深度が拡大または縮小されると、接続ベースの変換レイヤーの計算ブロックが減少または増加します。

このことから、カスケードベースのモデルでは、異なるスケーリング係数を個別に分析することはできず、一緒に考慮する必要があることが推測できます。

カスケードベースのモデル スケーリング方法は、複合モデル スケーリング方法です。計算ブロックの深度係数をスケーリングするときに、ブロックの出力チャネルの変化も計算されます。

次に、遷移レイヤーは同じ幅係数でスケーリングされ、モデルの初期設計特性が保持され、最適な構造が維持されます。

論文研究では、著者らは計画的に再パラメータ化された畳み込みも設計しました。

RepConv は VGG では優れたパフォーマンスを発揮しますが、ResNet、DenseNet などのアーキテクチャに直接適用すると、精度が大幅に低下します。

これは、RepConv の直接接続(Identity 接続)によって、ResNet の残差と DenseNet の接続が破壊されるためです。

そこで本稿では、直接接続のないRepConv (RepConvN)を使用してネットワーク構造を設計します。

YOLOv7 のラベル割り当てメカニズムでは、ネットワーク予測結果とベンチマークの両方を考慮した上で、ソフトラベル(総合的に考慮して最適化されたラベル)を「ラベルアサイナー」メカニズムに割り当てる必要があります。

次のステップは、「ソフト ラベルを補助ヘッドに割り当てるべきか、それともリード ヘッドに割り当てるべきか」です。

本論文では、次の図の(d)(e)に示すように、リードヘッド予測に基づいて粗いものから細かいものまで階層的なラベルを生成する新しいラベル割り当て方法を提案しており、それぞれリードヘッドと補助ヘッドの学習に使用されます。

図 (d) では、浅い補助ヘッドがリードヘッドがすでに学習した情報を学習し、リードヘッドは学習した残りの情報にさらに集中することができます。

図 e では、粗いラベルと細かいラベルという 2 セットのソフト ラベルが生成されます。補助ヘッドは学習能力が主ヘッドほど優れていないため、学習する必要がある情報を失わないように、補助ヘッドのリコール率を最適化することに重点を置くことが重要です。

現在、YOLOv7 は正式にオープンソース化されています。ご興味のあるパートナーは、以下のリンクをクリックしてください。

<<:  脳コンピューターインターフェースでケーキを食べる

>>:  歯を磨くのが面倒ですか?マイクロロボットは自動的にそれを手伝ってくれ、いつでも歯ブラシとデンタルフロスを交換することもできます。

ブログ    
ブログ    

推薦する

2021年の中国AI音声認識産業の市場現状と発展見通しの分析

2020年、中国のスマート音声市場規模は113.96億元に達し、前年比19.2%増加した。中国のスマ...

Swin TransformerとDCNの融合、変形可能なアテンションTransformerモデルはほとんどのViTを上回る

Transformer は最近、さまざまな視覚タスクで優れたパフォーマンスを発揮しており、受容野によ...

ブロックチェーンとAIを最大限に活用する方法

急速に進化する今日のテクノロジー環境において、成功を目指す企業にとって、常に時代の先を行くことが重要...

現時点で最も包括的なPythonの採用方針

Pythonは、コンパイル速度が超高速なオブジェクト指向プログラミング言語です。誕生から25年が経ち...

Google、開発者の効率向上を支援するAIコード支援ツール「Duet AI for Developers」をリリース

IT Homeは12月14日、GoogleがAI駆動型コード補完・生成ツール「Duet AI for...

効果的なITセキュリティにとってAIと機械学習がますます重要になる理由

セキュリティ専門家の観点から見ると、現在、AI と機械学習を導入する必要性が高まっています。彼らは、...

なぜドローンが5Gの商用利用の第一選択肢なのでしょうか?その理由はこの3点です!

近年、私たちの生活におけるドローンの応用はますます一般的になっています。当初は軍事分野でしたが、その...

ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

従来、パラメータの数が満たすべき方程式の数より多い場合は常に、パラメータ化されたモデルを使用してデー...

オフライン手法の可能性を最大限に引き出すために、武漢大学とKuaishouは分離型ビデオインスタンスセグメンテーションフレームワークDVISを提案した。

ビデオセグメンテーションタスクは、画像セグメンテーションタスクの拡張版です。ビデオ内のすべてのターゲ...

単一画像超解像におけるディープラーニングの応用: SRCNN、知覚損失、SRResNet

[[209375]]単一画像の超解像度では、品質の低下を最小限に抑えながら小さな画像のサイズを拡大...

Google DeepMind共同創設者:2028年までに人類がAGIを達成する可能性は50%

10月31日、テクノロジー系ポッドキャスト「Dwarkesh Patel」によると、Googleの...

...

機械学習と予測アプリケーションに必要な50のAPI

[[231536]] API は、ソフトウェア プログラムを構築するためのプロトコルとツールのセッ...

スパイラルはリアルタイムの機械学習を使用してFacebookのサービスを自動調整します

[51CTO.com クイック翻訳] Facebook を利用する何十億もの人々にとって、私たちのサ...

機械故障診断における人工知能の応用方向

機械の故障診断における人工知能の応用方向を次に示します。 [[342398]] 1. 機械故障診断に...