ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む

YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上経ち、ついに YOLOv9 が登場しました。

YOLO は、画像の全体的な情報に基づいて予測を行うオブジェクト検出システムであることがわかっています。ジョセフ・レドモン、アリ・ファルハディらが2015年に第一世代のモデルを提案して以来、この分野の研究者らはYOLOを何度も更新・反復し、モデルのパフォーマンスはますます強力になってきました。

今回、YOLOv9は中国・台湾の中央研究院、台北理工大学などにより共同開発され、関連論文「プログラム可能な勾配情報を用いて学びたいことを学ぶ」が公開されました。

論文アドレス: https://arxiv.org/pdf/2402.13616.pdf

GitHub アドレス: https://github.com/WongKinYiu/yolov9

今日のディープラーニング手法は、モデルの予測結果が実際の状況に最も近くなるように、最も適切な目的関数をどのように設計するかに重点を置いています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法では、入力データがレイヤーごとに特徴抽出および空間変換されると、多くの情報が失われるという事実が無視されています。

したがって、YOLOv9 は、ディープネットワークを介してデータが送信されるときにデータ損失が発生する重要な問題、つまり情報のボトルネックと可逆機能について詳しく調べます。

研究者らは、ディープネットワークが複数の目標を達成するために必要なさまざまな変化に対処するために、プログラム可能な勾配情報 (PGI)の概念を提案しました。 PGI は、対象タスクの目的関数を計算するための完全な入力情報を提供できるため、ネットワークの重みを更新するための信頼性の高い勾配情報を取得できます。

さらに、研究者らは、勾配経路計画に基づく新しい軽量ネットワークアーキテクチャ、つまりGeneralized Efficient Layer Aggregation Network (GELAN)を設計しました。このアーキテクチャは、PGI が軽量モデルで優れた結果を達成できることを示しています。

研究者らは、MS COCO データセットに基づく物体検出タスクで提案された GELAN と PGI を検証しました。結果は、GELAN が、深層畳み込みに基づいて開発された SOTA 方式と比較して、従来の畳み込み演算子のみを使用して、より優れたパラメータ利用を達成することを示しています。

PGIの場合、適応性が非常に高く、軽量モデルから大型モデルまで様々なモデルに使用できます。これを使用して完全な情報を取得できるため、ゼロからトレーニングされたモデルは、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できます。下の図 1 にいくつかの比較結果を示します。

YOLOv7、YOLOv4、Scaled-YOLOv4、DPTの開発に参加したAlexey Bochkovskiy氏は、新しくリリースされたYOLOv9を高く評価し、YOLOv9は畳み込みベースやトランスフォーマーベースのターゲット検出器よりも優れていると述べました。

写真

出典: https://twitter.com/alexeyab84/status/1760685626247250342

別のネットユーザーは、YOLOv9 は新しい SOTA リアルタイムターゲット検出器のように見え、独自のカスタムトレーニングチュートリアルが進行中であると述べました。

出典: https://twitter.com/skalskip92/status/1760717291593834648

一部の「勤勉な」ネットユーザーは、すでに YOLOv9 モデルに pip サポートを追加しています。

出典: https://twitter.com/kadirnar_ai/status/1760716187896283635

次にYOLOv9の詳細を見てみましょう。

問題の説明

通常、ディープニューラルネットワークの収束の難しさは、勾配消失や勾配飽和などの従来のディープニューラルネットワークに存在する要因によるものと考えられています。しかし、現代のディープニューラルネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープニューラルネットワークでは収束が遅い、または収束効果が乏しいという問題が残っています。では、この問題の本質は何でしょうか?

研究者らは、情報ボトルネックの詳細な分析を通じて、問題の根本的な原因を推測しました。非常に深いネットワークから勾配が最初に渡された直後に、目標を達成するために必要な大量の情報が失われるのです。この推論を検証するために、研究者らは、初期重みを持つ異なるアーキテクチャを持つ深層ネットワーク上でフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深層層での物体検出に必要な重要な情報を多く失っています。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、トレーニング後に得られる精度と確かに正の相関関係があります。研究者らはさらに、上記の問題の原因に対処するために可逆的なネットワークベースの方法を設計しました。

方法の紹介

プログラム可能な勾配情報 (PGI)

この研究では、図3(d)に示すように、新しい補助監視フレームワークであるProgrammable Gradient Information (PGI)を提案しました。

PGIは主に（1）主枝、（2）補助可逆枝、（3）多段階補助情報の3つの部分から構成されます。

PGI の推論プロセスではメインブランチのみが使用されるため、追加の推論コストは必要ありません。
補助的な可逆ブランチは、ニューラルネットワークの深化によって発生する問題に対処するためのものです。ネットワークの深化により情報のボトルネックが発生し、損失関数が信頼性の高い勾配を生成できなくなります。
マルチレベル補助情報は、特に複数の予測ブランチと軽量モデルを備えたアーキテクチャにおいて、深い監視によってもたらされるエラー蓄積の問題に対処することを目的としています。

GELANネットワーク

さらに、この研究では、新しいネットワークアーキテクチャ GELAN も提案されました (下図参照)。具体的には、研究者らは、2 つのニューラルネットワークアーキテクチャ CSPNet と ELAN を組み合わせて、軽量、推論速度、精度を考慮した一般化効率的レイヤー集約ネットワーク (GELAN) を設計しました。研究者らは、もともと畳み込み層のスタックのみを使用していた ELAN の機能を、任意の計算ブロックを使用できる新しいアーキテクチャに一般化しました。

実験結果

YOLOv9 の性能を評価するために、本研究ではまず YOLOv9 をゼロからトレーニングした他のリアルタイム物体検出器と総合的に比較しました。結果を以下の表 1 に示します。

この研究では、ImageNet の事前トレーニング済みモデルも比較に含められており、その結果が下の図 5 に示されています。注目すべきは、従来の畳み込みを使用する YOLOv9 が、パラメータ利用の点では、深い畳み込みを使用する YOLO MS よりも優れていることです。

アブレーション実験

YOLOv9 の各コンポーネントの役割を探るために、本研究では一連のアブレーション実験を実施しました。

この研究では、まずGELANの計算ブロックに対してアブレーション実験を実施しました。以下の表 2 に示すように、この研究では、ELAN の畳み込み層を異なる計算ブロックに置き換えることで、システムが良好なパフォーマンスを維持できることがわかりました。

次に、異なるサイズの GELAN の ELAN ブロック深度と CSP ブロック深度に関するアブレーション実験を実施しました。結果を以下の表 3 に示します。

PGIに関しては、研究者らはそれぞれ、バックボーンネットワークとネック上の補助可逆枝とマルチレベル補助情報の除去研究を実施しました。表4にすべての実験の結果を示します。表 4 からわかるように、PFH はディープモデルにのみ効果的ですが、本論文で提案されている PGI はさまざまな組み合わせで精度を向上させることができます。

研究者らはさらに、異なるサイズのモデルに PGI と深い監督を実装し、結果を比較しました。その結果は表 5 に示されています。

図6は、ベースラインYOLOv7からYOLOv9-Eまでコンポーネントを徐々に追加した結果を示しています。