ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む

ターゲット検出のための新しいSOTA:YOLOv9がリリースされ、新しいアーキテクチャが従来の畳み込みに新たな命を吹き込む

YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上経ち、ついに YOLOv9 が登場しました。

YOLO は、画像の全体的な情報に基づいて予測を行うオブジェクト検出システムであることがわかっています。ジョセフ・レドモン、アリ・ファルハディらが2015年に第一世代のモデルを提案して以来、この分野の研究者らはYOLOを何度も更新・反復し、モデルのパフォーマンスはますます強力になってきました。

今回、YOLOv9は中国・台湾の中央研究院、台北理工大学などにより共同開発され、関連論文「プログラム可能な勾配情報を用いて学びたいことを学ぶ」が公開されました。

論文アドレス: https://arxiv.org/pdf/2402.13616.pdf

GitHub アドレス: https://github.com/WongKinYiu/yolov9

今日のディープラーニング手法は、モデルの予測結果が実際の状況に最も近くなるように、最も適切な目的関数をどのように設計するかに重点を置いています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法では、入力データがレイヤーごとに特徴抽出および空間変換されると、多くの情報が失われるという事実が無視されています。

したがって、YOLOv9 は、ディープ ネットワークを介してデータが送信されるときにデータ損失が発生する重要な問題、つまり情報のボトルネックと可逆機能について詳しく調べます。

研究者らは、ディープネットワークが複数の目標を達成するために必要なさまざまな変化に対処するために、プログラム可能な勾配情報 (PGI)の概念を提案しました。 PGI は、対象タスクの目的関数を計算するための完全な入力情報を提供できるため、ネットワークの重みを更新するための信頼性の高い勾配情報を取得できます。

さらに、研究者らは、勾配経路計画に基づく新しい軽量ネットワーク アーキテクチャ、つまりGeneralized Efficient Layer Aggregation Network (GELAN)を設計しました。このアーキテクチャは、PGI が軽量モデルで優れた結果を達成できることを示しています。

研究者らは、MS COCO データセットに基づく物体検出タスクで提案された GELAN と PGI を検証しました。結果は、GELAN が、深層畳み込みに基づいて開発された SOTA 方式と比較して、従来の畳み込み演算子のみを使用して、より優れたパラメータ利用を達成することを示しています。

PGIの場合、適応性が非常に高く、軽量モデルから大型モデルまで様々なモデルに使用できます。これを使用して完全な情報を取得できるため、ゼロからトレーニングされたモデルは、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できます。下の図 1 にいくつかの比較結果を示します。

YOLOv7、YOLOv4、Scaled-YOLOv4、DPTの開発に参加したAlexey Bochkovskiy氏は、新しくリリースされたYOLOv9を高く評価し、YOLOv9は畳み込みベースやトランスフォーマーベースのターゲット検出器よりも優れていると述べました。

写真

出典: https://twitter.com/alexeyab84/status/1760685626247250342

別のネットユーザーは、YOLOv9 は新しい SOTA リアルタイムターゲット検出器のように見え、独自のカスタムトレーニングチュートリアルが進行中であると述べました。


出典: https://twitter.com/skalskip92/status/1760717291593834648

一部の「勤勉な」ネットユーザーは、すでに YOLOv9 モデルに pip サポートを追加しています。

出典: https://twitter.com/kadirnar_ai/status/1760716187896283635

次にYOLOv9の詳細を見てみましょう。

問題の説明

通常、ディープ ニューラル ネットワークの収束の難しさは、勾配消失や勾配飽和などの従来のディープ ニューラル ネットワークに存在する要因によるものと考えられています。しかし、現代のディープニューラルネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープニューラルネットワークでは収束が遅い、または収束効果が乏しいという問題が残っています。では、この問題の本質は何でしょうか?

研究者らは、情報ボトルネックの詳細な分析を通じて、問題の根本的な原因を推測しました。非常に深いネットワークから勾配が最初に渡された直後に、目標を達成するために必要な大量の情報が失われるのです。この推論を検証するために、研究者らは、初期重みを持つ異なるアーキテクチャを持つ深層ネットワーク上でフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深層層での物体検出に必要な重要な情報を多く失っています。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、トレーニング後に得られる精度と確かに正の相関関係があります。研究者らはさらに、上記の問題の原因に対処するために可逆的なネットワークベースの方法を設計しました。

方法の紹介

プログラム可能な勾配情報 (PGI)

この研究では、図3(d)に示すように、新しい補助監視フレームワークであるProgrammable Gradient Information (PGI)を提案しました。

PGIは主に(1)主枝、(2)補助可逆枝、(3)多段階補助情報の3つの部分から構成されます。

  • PGI の推論プロセスではメイン ブランチのみが使用されるため、追加の推論コストは必要ありません。
  • 補助的な可逆ブランチは、ニューラル ネットワークの深化によって発生する問題に対処するためのものです。ネットワークの深化により情報のボトルネックが発生し、損失関数が信頼性の高い勾配を生成できなくなります。
  • マルチレベル補助情報は、特に複数の予測ブランチと軽量モデルを備えたアーキテクチャにおいて、深い監視によってもたらされるエラー蓄積の問題に対処することを目的としています。

GELANネットワーク

さらに、この研究では、新しいネットワーク アーキテクチャ GELAN も提案されました (下図参照)。具体的には、研究者らは、2 つのニューラル ネットワーク アーキテクチャ CSPNet と ELAN を組み合わせて、軽量、推論速度、精度を考慮した一般化効率的レイヤー集約ネットワーク (GELAN) を設計しました。研究者らは、もともと畳み込み層のスタックのみを使用していた ELAN の機能を、任意の計算ブロックを使用できる新しいアーキテクチャに一般化しました。

実験結果

YOLOv9 の性能を評価するために、本研究ではまず YOLOv9 をゼロからトレーニングした他のリアルタイム物体検出器と総合的に比較しました。結果を以下の表 1 に示します。

この研究では、ImageNet の事前トレーニング済みモデルも比較に含められており、その結果が下の図 5 に示されています。注目すべきは、従来の畳み込みを使用する YOLOv9 が、パラメータ利用の点では、深い畳み込みを使用する YOLO MS よりも優れていることです。

アブレーション実験

YOLOv9 の各コンポーネントの役割を探るために、本研究では一連のアブレーション実験を実施しました。

この研究では、まずGELANの計算ブロックに対してアブレーション実験を実施しました。以下の表 2 に示すように、この研究では、ELAN の畳み込み層を異なる計算ブロックに置き換えることで、システムが良好なパフォーマンスを維持できることがわかりました。

次に、異なるサイズの GELAN の ELAN ブロック深度と CSP ブロック深度に関するアブレーション実験を実施しました。結果を以下の表 3 に示します。

PGIに関しては、研究者らはそれぞれ、バックボーンネットワークとネック上の補助可逆枝とマルチレベル補助情報の除去研究を実施しました。表4にすべての実験の結果を示します。表 4 からわかるように、PFH はディープ モデルにのみ効果的ですが、本論文で提案されている PGI はさまざまな組み合わせで精度を向上させることができます。

研究者らはさらに、異なるサイズのモデルに PGI と深い監督を実装し、結果を比較しました。その結果は表 5 に示されています。

図6は、ベースラインYOLOv7からYOLOv9-Eまでコンポーネントを徐々に追加した結果を示しています。

視覚化

研究者らは情報ボトルネックの問題を調査し、それを視覚化しました。図 6 は、さまざまなアーキテクチャでランダムな初期重みをフィードフォワードとして使用して得られた特徴マップの視覚化結果を示しています。

図 7 は、PGI がトレーニング中により信頼性の高い勾配を提供でき、更新に使用されるパラメータが入力データとターゲットの関係を効果的に捉えられるかどうかを示しています。

より技術的な詳細については、元の記事をお読みください。

<<:  ソフトウェア開発に GenAI モデルを安全に使用する手順

>>:  安定した拡散3がリリースされ、ソラと同じ技術を使用して、テキストがついに文字化けしなくなりました

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

自動運転シナリオのビデオから生成された初のマルチビュー世界モデル | DrivingDiffusion: BEV データとシミュレーションの新しいアイデア

著者の個人的な考え自動運転の分野では、BEV ベースのサブタスク/エンドツーエンド ソリューションの...

...

...

「ハードコア」AIが私たちの家庭に導入されるまでにはどれくらいの時間がかかるのでしょうか? 最先端技術には依然としてブレークスルーが必要

お腹が空いたら、キッチンロボットがミシュランレストランの基準に匹敵するステーキを調理します。運転した...

人工知能はどのようにして新しい世界を創造するのでしょうか?

AI は時間の経過とともにさらに賢くなり、パワーを増していきます。私たちの多くにとって、人工知能 ...

AIのマインドリーディングがサミットであなたを驚かせる!モデルが脳波を翻訳し、人間の思考がスクリーンに映し出される|NeurIPS 2023

今日、私たちの AI は何ができるでしょうか? AI による描画、AI による作曲、AI による動画...

AI言語モデルにおける幻覚バイアスのリスク

音声アシスタントからチャットボットまで、人工知能 (AI) はテクノロジーとのやり取りの方法に革命を...

ロボット犬の悩み:ネットセレブの研修生になるのは簡単だが、ビジネスの研修生になるのは難しい

ニュージーランドの広大な草原で、羊の群れがのんびりと散歩しながら草を食べており、その後ろを牧羊犬が追...

AIが脳波を80%以上の精度で解読!あなたの目の中で最も美しいtaを高度に復元します

千人の人々の目には千のハムレットがいる。主観的な違いにより、人間には何千万通りもの異なる美的嗜好が存...

DeepMind: 人工知能と神経科学を組み合わせて好循環を実現

最近の人工知能の進歩は目覚ましいものがあります。人工システムは、アタリのビデオゲーム、古代のボードゲ...

ディープマインド主任科学者:私は機械知能よりも人間の知能が引き起こす災害を心配している

ディープマインドの主任研究科学者であり、ロンドン大学ユニバーシティ・カレッジのコンピューターサイエン...

AIと情報サービスが出会うとき:百度脳産業イノベーションフォーラムが成都であなたを待っています

注目の人工知能がインターネットの「伝統的なプロジェクト」情報サービスと出会うと、業界にどのような A...

企業にとって重要なAI技術のトレンド

[[428061]]マッキンゼー・アンド・カンパニーが2020年に実施した人工知能に関する世界的な調...

2020 年の企業向け最高の AI プラットフォーム

企業は長年にわたり、業務と分析を手作業で処理してきましたが、その結果、人件費と事務処理が増加し、最適...

自動運転システムにおけるエッジコンピューティング技術

エッジ コンピューティングは、ネットワークのエッジでコンピューティングを実行する新しいコンピューティ...