YOLOはまだ死んでいません! YOLOv9がリリースされました:パフォーマンスと速度SOTA〜

YOLOはまだ死んでいません! YOLOv9がリリースされました:パフォーマンスと速度SOTA〜

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

今日のディープラーニング手法は、モデルの予測結果が実際の状況に最も近くなるように、最も適切な目的関数を設計することに重点を置いています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。既存の方法では、入力データがレイヤーごとに特徴抽出および空間変換されると、多くの情報が失われるという事実が無視されています。この記事では、ディープ ネットワークを介してデータを転送する際の重要な問題、つまり情報のボトルネックと可逆機能について詳しく説明します。これに基づいて、ディープ ネットワークが複数の目的を達成するために必要なさまざまな変更に対応するために、プログラム可能な勾配情報 (PGI) の概念が提案されています。 PGI は、目的関数を計算するための対象タスクの完全な入力情報を提供し、ネットワークの重みを更新するための信頼性の高い勾配情報を取得します。さらに、勾配パス計画に基づく新しい軽量ネットワーク アーキテクチャである Generalized Efficient Layer Aggregation Network (GELAN) が設計されました。

GELAN のアーキテクチャは、軽量モデルで PGI を使用することで優れた結果を示します。提案された GELAN と PGI は MS COCO データセットで検証され、その結果、GELAN は従来の畳み込み演算子のみを使用した深さ方向の畳み込みに基づく最先端の方法よりも優れたパラメータ利用を実現できることがわかりました。 PGIは軽量モデルから大型モデルまで、さまざまなモデルに使用できます。これを使用すると完全な情報を取得できるため、ゼロからトレーニングされたモデルは、大規模なデータセットを使用して事前にトレーニングされた最先端のモデルよりも優れた結果を達成できます。

論文アドレス: https://arxiv.org/pdf/2402.13616

コードリンク: https://github.com/WongKinYiu/yolov9

優れたパフォーマンス

下の図に示すように、MS COCO データセットでのリアルタイム オブジェクト検出器の比較では、GELAN および PGI ベースのオブジェクト検出方法は、オブジェクト検出パフォーマンスの点で、ゼロからトレーニングされたこれまでのすべての方法を上回っています。精度の点では、この新しい方法は、大規模なデータセットで事前トレーニングされた RT DETR よりも優れており、パラメータの利用の点では、深層畳み込み設計に基づく YOLO MS よりも優れています。

貢献

  1. 既存のディープニューラルネットワークのアーキテクチャを可逆関数の観点から理論的に分析し、これまで説明が困難であった多くの現象を説明することに成功しました。この解析に基づいてPGIと補助可逆分岐も設計され、優れた結果が得られました。
  2. 設計された PGI は、ディープ スーパービジョンが極めてディープなニューラル ネットワーク アーキテクチャにしか使用できないという問題を解決し、新しい軽量アーキテクチャを日常業務に実際に適用できるようにします。
  3. 設計された GELAN は、従来の畳み込みのみを使用して、最先端の技術に基づく深層畳み込み設計よりも高いパラメータ利用率を実現できると同時に、軽量、高速、正確という大きな利点を示します。
  4. 提案された PGI と GELAN を組み合わせると、MS COCO データセットにおける YOLOv9 のオブジェクト検出パフォーマンスは、あらゆる面で既存のリアルタイム オブジェクト検出器を大幅に上回ります。

方法

PGI および関連するネットワーク アーキテクチャと方法

下の図に示すように、YOLOv9 で提案された (a) パス集約ネットワーク (PAN)、(b) 可逆列 (RevCol)、(c) 従来の深層監視、および (d) プログラム可能な勾配情報 (PGI)。

PGI は 3 つの主要コンポーネントで構成されています。

  1. メインブランチ: 推論のためのアーキテクチャ。
  2. 補助可逆ブランチ: メインブランチが後方に転送するための信頼性の高い勾配を生成します。
  3. マルチレベルの補助情報: メイン ブランチを制御して、計画可能なマルチレベルのセマンティック情報を学習します。

GELANアーキテクチャ

下図に示すように、YOLOv9で提案された(a)CSPNet、(b)ELAN、(c)GELAN。これは CSPNet を模倣し、ELAN を GELAN に拡張して、あらゆるコンピューティング ブロックをサポートできるようにします。

結果の比較

既存技術との比較

次の表は、YOLOv9 と、最初からトレーニングされた他のリアルタイム オブジェクト検出器との比較を示しています。全体的に、既存の方法の中で最もパフォーマンスが良い方法は、軽量モデルの場合は YOLO MS-S、中型モデルの場合は YOLO MS、一般モデルの場合は YOLOv7 AF、大型モデルの場合は YOLOv8-X です。軽量モデルと中規模モデルのYOLO MSと比較すると、YOLOv9はパラメータが約10%少なく、計算量が5〜15%少ないですが、それでもAPは0.4〜0.6%向上しています。 YOLOv7 AF と比較すると、YOLOv9-C はパラメータが 42% 少なく、計算量が 21% 少ないですが、AP は同じ (53%) です。 YOLOv8-X と比較すると、YOLOv9-X はパラメータが 15% 少なく、計算が 25% 少なく、AP が 1.7% 大幅に向上しています。上記の比較結果は、YOLOv9 があらゆる面で既存の方法よりも大幅な改善を達成したことを示しています。

最先端のリアルタイム物体検出器との比較

比較対象のすべての方法では、RT DETR、RTMDet、PP-YOLOE など、ImageNet を事前トレーニング済みの重みとして使用します。ゼロからのトレーニングアプローチを使用する YOLOv9 は、明らかに他の方法のパフォーマンスを上回ります。

結果を視覚化する

特徴マップ(可視化結果):   PlainNet、ResNet、CSPNet、GELAN によって異なる深度で出力されるランダムな初期重み。 100 層を超えると、ResNet はターゲット情報を含めるのに十分に難読化されたフィードフォワード出力を生成し始めます。ここで提案されている GELAN は、150 番目の層でもかなり完全な情報を保持でき、200 番目の層でも十分な識別能力を備えています。

GELAN および YOLOv9 (GELAN + PGI) の PAN 特徴マップ (視覚化結果):バイアスウォームアップ 1 ラウンド後。 GELAN は当初、ある程度の分岐がありましたが、PGI の可逆分岐を追加した後、ターゲット オブジェクトに焦点を合わせることができるようになりました。

さまざまなネットワーク アーキテクチャのランダム初期重み出力特徴マップの視覚化結果:   (a) 入力画像、(b) PlainNet、(c) ResNet、(d) CSPNet、(e) 提案された GELAN。図からわかるように、異なるアーキテクチャでは、損失を計算するために目的関数に提供される情報の程度が異なりますが、私たちのアーキテクチャは最も完全な情報を保持し、目的関数を計算するための最も信頼性の高い勾配情報を提供できます。

結論は

この論文では、情報ボトルネック問題と、軽量ニューラル ネットワークには深い監視メカニズムが適していないという問題を解決するために PGI を使用することを提案します。効率的で軽量なニューラル ネットワークである GELAN を設計しました。物体検出に関しては、GELAN はさまざまなコンピューティング モジュールと深度設定で強力かつ安定したパフォーマンスを示します。実際、さまざまな推論デバイスに適したモデルに幅広く拡張できます。上記の 2 つの問題に対処するために、PGI を導入することで、軽量モデルとディープ モデルの両方で精度の大幅な向上を実現できます。 PGIとGELANを組み合わせて設計されたYOLOv9は、強力な競争力を示しています。その優れた設計により、YOLOv8 と比較して、ディープ モデルのパラメータ数が 49%、計算量が 43% 削減され、MS COCO データセットで 0.6% の AP 改善が達成されます。

オリジナルリンク: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw

<<: 

>>: 

ブログ    
ブログ    

推薦する

CESの半導体大手:自動運転のオープンな競争と5Gの秘密の競争

[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...

...

...

中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

3D ポートレート合成は、常に AIGC の注目を浴びている分野です。 NeRF と 3D 対応 ...

南京大学の周志華氏と清華大学の胡世民氏が学者候補に選出されました!コンピュータ分野合計7名

[[414852]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

コンテンツ管理と AI – ContentOps の未来

人工知能 (AI) は、退屈な日常的な作業を一つずつこなして世界を席巻しています。 AI を使用して...

人工知能開発の動向

ケビン・ケリー氏は「人工知能は人類社会を混乱させる次のものだ」と語った。 2020年は、全世界が前例...

10年前、古典的なword2vec論文が今日のNeurIPSタイムテスト賞を受賞しました

NeurIPS は世界で最も権威のある AI 学術会議の 1 つです。正式名称は Neural In...

...

Think2Drive: 自動運転のための初のモデルベース RL 手法 (上海交通大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

アルゴリズム分析への正しいアプローチ

[この一連のブログ投稿では、一般的なデータ構造と対応するアルゴリズムを分析および要約し、各ブログ投稿...

Hacker News のホットな話題: 利用できるパッケージが非常に多いにもかかわらず、プログラマーは依然としてアルゴリズムを学ぶ必要があるのでしょうか?

さまざまなアルゴリズムの実装やソフトウェア パッケージがオープン ソースで利用できる世界において、ア...

GAN が「思考を偽装」してネイチャー誌に登場: 初の合成神経活動データ

[[436236]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...