YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー：それはあなたでなければならない

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

MeituanがYOLOv6をリリースしたのと同じように、YOLO公式チームも新しいバージョンをリリースしました。

YOLOプロジェクトの保守に参加したアレクセイ・ボチコフスキー氏はツイッターで次のように主張した。

YOLOv7 の公式バージョンは、以下のバージョンよりも精度と速度が優れています。

論文では、研究チームはYOLOv7と他のバリアントのパフォーマンスを詳細に比較し、バージョンv7の新しい変更点を紹介しました。

では早速、YOLOv7 がいかに強力であるかを実験結果で見てみましょう。

スピードと精度は他のバリアントを上回ります

この論文では、YOLO の以前のバージョンと最先端の物体検出モデルをベンチマークとして使用して実験が行われました。

次の表は、同じパラメータ設定での YOLOv7 モデルと他のバージョンの比較を示しています。

緑色でマークされたデータは、以前のバージョンと比較してパフォーマンスが向上したことを示しています。以前のバージョンと比較してパラメータ数と計算量が削減され、APも改善されました。

クラウド GPU モデルでも、最新モデルは以前のモデルに比べて計算量とパラメータが削減されながらも、高い AP を維持できます。

YOLOv7 は速度と精度のバランスをうまく取ることができます。

既存の汎用 GPU およびモバイル GPU オブジェクト検出モデルとの比較:

YOLOv7 は、速度(FPS)と精度(AP)の両方において他の物体検出モデルよりも優れています。

例えば、入力解像度が1280の場合、YOLOv7とYOLORを比較すると、YOLOv7-W6の推論速度はYOLOR-P6よりも8fps速く、検出率も1%AP向上しています。

パフォーマンスはどのように向上しますか?

リアルタイムオブジェクト検出モデルのパフォーマンスを向上させるには、多くの場合、次の点から始めます。

1. より高速で強力なネットワークアーキテクチャ。

2. より効果的な機能統合方法。

3. より正確な検出方法

4. より正確な損失関数

5. より効率的なラベル割り当て方法。

6. より効果的なトレーニング方法。

YOLOv7 は主に 4、5、6 から開始して、より優れたパフォーマンスの検出モデルを設計します。

まず、YOLOv7 は、Extended-ELAN (略して E-ELAN)と呼ばれる効率的な長距離注意ネットワークを拡張します。

大規模 ELAN では、勾配パスの長さやブロック数に関係なく、ネットワークは安定した状態に到達できます。

ただし、計算ブロックが無限に積み重ねられると、この安定した状態が破壊され、パラメータの使用率が低下する可能性があります。

E-ELAN はカーディナリティを拡張、シャッフル、マージすることで、元の勾配パスを破壊することなくネットワークの学習能力を向上させることができます。

アーキテクチャの面では、E-ELAN は、遷移層のアーキテクチャを変更せずに、コンピューティングブロック内のアーキテクチャのみを変更します。

E-ELAN は、元の ELAN 設計アーキテクチャを維持するだけでなく、さまざまなコンピューティングブロックのグループをガイドして、より多様な機能を学習することもできます。

次に、YOLOv7 はカスケードベースのモデルスケーリング方式を採用します。

モデルのスケーリングとは、モデルのいくつかの属性を調整して、さまざまな推論速度のニーズを満たすさまざまなスケールのモデルを生成することを指します。

ただし、モデルスケーリングを接続ベースのアーキテクチャに適用すると、実行深度が拡大または縮小されると、接続ベースの変換レイヤーの計算ブロックが減少または増加します。

このことから、カスケードベースのモデルでは、異なるスケーリング係数を個別に分析することはできず、一緒に考慮する必要があることが推測できます。

カスケードベースのモデルスケーリング方法は、複合モデルスケーリング方法です。計算ブロックの深度係数をスケーリングするときに、ブロックの出力チャネルの変化も計算されます。

次に、遷移レイヤーは同じ幅係数でスケーリングされ、モデルの初期設計特性が保持され、最適な構造が維持されます。

論文研究では、著者らは計画的に再パラメータ化された畳み込みも設計しました。

RepConv は VGG では優れたパフォーマンスを発揮しますが、ResNet、DenseNet などのアーキテクチャに直接適用すると、精度が大幅に低下します。

これは、RepConv の直接接続(Identity 接続)によって、ResNet の残差と DenseNet の接続が破壊されるためです。

そこで本稿では、直接接続のないRepConv （RepConvN）を使用してネットワーク構造を設計します。

YOLOv7 のラベル割り当てメカニズムでは、ネットワーク予測結果とベンチマークの両方を考慮した上で、ソフトラベル（総合的に考慮して最適化されたラベル）を「ラベルアサイナー」メカニズムに割り当てる必要があります。

次のステップは、「ソフトラベルを補助ヘッドに割り当てるべきか、それともリードヘッドに割り当てるべきか」です。

本論文では、次の図の(d)と(e)に示すように、リードヘッド予測に基づいて粗いものから細かいものまで階層的なラベルを生成する新しいラベル割り当て方法を提案しており、それぞれリードヘッドと補助ヘッドの学習に使用されます。

図 (d) では、浅い補助ヘッドがリードヘッドがすでに学習した情報を学習し、リードヘッドは学習した残りの情報にさらに集中することができます。

図 e では、粗いラベルと細かいラベルという 2 セットのソフトラベルが生成されます。補助ヘッドは学習能力が主ヘッドほど優れていないため、学習する必要がある情報を失わないように、補助ヘッドのリコール率を最適化することに重点を置くことが重要です。

現在、YOLOv7 は正式にオープンソース化されています。ご興味のあるパートナーは、以下のリンクをクリックしてください。

<<: 脳コンピューターインターフェースでケーキを食べる

>>: 歯を磨くのが面倒ですか?マイクロロボットは自動的にそれを手伝ってくれ、いつでも歯ブラシとデンタルフロスを交換することもできます。

YOLOv7の速度と精度は他のバリアントを上回っている、とマスターABがツイート、ネットユーザー：それはあなたでなければならない

スピードと精度は他のバリアントを上回ります

パフォーマンスはどのように向上しますか?

アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

新しいヘルスケアソリューション: ヘルスケアにおける AI と IoT が認知症患者をどのように支援できるか

モバイルデバイスにディープラーニングを導入: モバイルデバイスにおける Mogujie のディープラーニング最適化の実践

人工知能のトップ10の応用シナリオ

2024年のデジタル変革のトレンド

Java プログラミングスキル - データ構造とアルゴリズム「動的プログラミングアルゴリズム」

機械読解とは何ですか?これは自然言語処理とどのような関係があるのでしょうか?

人工知能の実装によるIoTセキュリティの最適化

推薦する

2021年の中国AI音声認識産業の市場現状と発展見通しの分析

Swin TransformerとDCNの融合、変形可能なアテンションTransformerモデルはほとんどのViTを上回る

ブロックチェーンとAIを最大限に活用する方法

現時点で最も包括的なPythonの採用方針

Google、開発者の効率向上を支援するAIコード支援ツール「Duet AI for Developers」をリリース

効果的なITセキュリティにとってAIと機械学習がますます重要になる理由

なぜドローンが5Gの商用利用の第一選択肢なのでしょうか?その理由はこの3点です！

ニューラルネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

オフライン手法の可能性を最大限に引き出すために、武漢大学とKuaishouは分離型ビデオインスタンスセグメンテーションフレームワークDVISを提案した。

単一画像超解像におけるディープラーニングの応用: SRCNN、知覚損失、SRResNet

Google DeepMind共同創設者：2028年までに人類がAGIを達成する可能性は50％

機械学習と予測アプリケーションに必要な50のAPI

スパイラルはリアルタイムの機械学習を使用してFacebookのサービスを自動調整します

機械故障診断における人工知能の応用方向