注釈付きビデオの 1 フレームでセグメント機能を学習し、完全な監視パフォーマンスを実現できます。 Huake、時系列行動検出における新たなSOTAを達成

注釈付きビデオの 1 フレームでセグメント機能を学習し、完全な監視パフォーマンスを実現できます。 Huake、時系列行動検出における新たなSOTAを達成

ビデオ内の興味深い部分を見つけるにはどうすればいいですか?時間的アクションローカリゼーション (TAL)はよく使用される方法です。

ビデオコンテンツを使用してモデルを構築した後、ビデオ全体を自由に検索できます。

華中科技大学とミシガン大学の共同チームは最近、この技術において新たな進歩を遂げました。

以前は、TAL でのモデリングはフラグメント レベルまたはインスタンス レベルでしたが、現在はビデオの1 フレームだけで実現でき、その効果は完全な監視に匹敵します。

華中科技大学のチームは、ポイント注釈によって監視される時間的動作検出のための HR-Pro と呼ばれる新しいフレームワークを提案しました。

マルチレベルの信頼性伝播を通じて、HR-Pro はより識​​別力の高いセグメント レベルの機能と、より信頼性の高いインスタンス レベルの境界を学習できます。

HR-Pro は、セグメントレベルとインスタンスレベルの両方のポイント注釈から信頼性の高い手がかりを効果的に伝播できる 2 つの信頼性を考慮したステージで構成されており、これにより、ネットワークはより識別力の高いセグメント表現とより信頼性の高い提案を学習できるようになります。

複数のベンチマーク データセットでの広範な実験により、HR-Pro は既存の方法を大幅に上回り、最先端の結果を達成し、そのアプローチの有効性とポイント注釈の可能性を実証しました。

完全な監督に匹敵するパフォーマンス

下の図は、THUMOS14 テスト ビデオでのタイミング動作検出における HR-Pro と LACP の比較を示しています。

HR-Pro は、具体的には、より正確なアクション インスタンス検出を実現します。

  • 「ゴルフスイング」動作の場合、HR-Pro は動作セグメントと背景セグメントを効果的に区別し、LACP では処理が難しい誤検知の予測を軽減します。
  • 円盤投げ動作では、HR-Pro は LACP よりも完全なセグメントを検出しましたが、LACP は非識別動作セグメントでの活性化値が低かったです。

データセットのテスト結果もこの直感的な感覚を裏付けています。

THUMOS14 データセットの検出結果を視覚化すると、インスタンスレベルの完全性学習後に高品質の予測と低品質の予測の差が大幅に増加することがわかります。

(左側はインスタンスレベルの完全性学習前の結果、右側は学習後の結果を示しています。横軸と縦軸はそれぞれ時間と信頼性スコアを表しています。)

全体的に、一般的に使用されている 4 つのデータセットでは、HR-Pro のパフォーマンスは、最も高度なポイント スーパーバイズ方式を大幅に上回っています。THUMOS14 データセットの平均 mAP は 60.3% に達し、これは以前の SoTA 方式 (53.7%) よりも 6.5% 高く、一部の完全スーパーバイズ方式に匹敵する結果を達成できます。

下の表の THUMOS14 テスト セットにおける従来の最先端の方法と比較すると、IoU しきい値が 0.1 ~ 0.7 の場合、HR-Pro は平均 mAP 60.3% を達成します。これは、従来の最先端の方法である CRRC-Net よりも 6.5% 高い値です。

また、HR-Pro は、AFSD などの競合する完全教師あり方式と同等のパフォーマンスを達成できます (IoU しきい値が 0.3 ~ 0.7 の場合、平均 mAP は 51.1% 対 52.0%)。

△ THUMOS14データセットにおけるHR-Proと従来のSOTA手法の比較

HR-Pro は、さまざまなベンチマーク データセットにおける一般性と優位性の点でも既存の方法を大幅に上回り、GTEA、BEOID、ActivityNet 1.3 でそれぞれ 3.8%、7.6%、2.0% の改善を達成しました。

△ GTEAと他のデータセットにおけるHR-Proと従来のSOTA手法の比較

では、HR-Pro はこれをどのように実現するのでしょうか?

学習は2つの段階に分かれています

研究チームは、フラグメントレベルで信頼性の高いフラグメントメモリモジュールを導入し、クロスアテンション法を使用して他のフラグメントに伝播する、マルチレベルの信頼性の高い伝播方法を提案しました。インスタンスレベルでは、フラグメントとインスタンスを関連付けて信頼性の異なる提案を生成するポイント教師付き提案生成を提案し、インスタンスレベルでの提案の信頼性と境界をさらに最適化しました。

HR-Pro のモデル構造を下図に示します。時間的動作検出は、セグメント レベルでの識別学習インスタンス レベルでの完全性学習という 2 段階の学習プロセスに分かれています。

ステージ1: クリップレベルの識別学習

研究チームは信頼性を考慮したセグメントレベルの識別学習を導入し、各カテゴリの信頼性の高いプロトタイプを保存し、これらのプロトタイプ内の信頼性の高い手がかりをビデオ内およびビデオ間の方法を通じて他のセグメントに伝播することを提案しました。

フラグメントレベルでの信頼性の高いプロトタイピング

フラグメントレベルで信頼性の高いプロトタイプを構築するために、チームは、データセット全体の特徴情報を活用できるように、さまざまな動作の信頼性の高いプロトタイプ mc (c = 1、2、…、C) を格納するオンラインで更新されるプロトタイプメモリを作成しました。

研究チームは、ポイント注釈付きのフラグメント機能を使用してプロトタイプを初期化することを選択しました。

次に、研究者は疑似ラベル付けされた行動セグメント機能を使用して、各カテゴリのプロトタイプを次のように更新しました。

フラグメントレベルの信頼性を考慮した最適化

信頼性の高いプロトタイプの特徴情報をセグメントレベルで他のセグメントに転送するために、研究チームは信頼性を考慮した注意ブロック (RAB) を設計しました。これは、プロトタイプ内の信頼性の高い情報をクロスアテンションを通じて他のセグメントに注入することで、セグメント特徴の堅牢性を高め、識別力の低いセグメントへの注意を高めます。

より識別力のあるフラグメントの特徴を学習するために、チームは信頼性を考慮したフラグメント比較損失も構築しました。

フェーズ2: インスタンスレベルの完全性学習

インスタンスレベルの動作の時間的構造を完全に調査し、提案のスコアランキングを最適化するために、インスタンスレベルのアクション完全性学習を導入します。

このアプローチは、信頼性の高いインスタンス プロトタイプによって導かれるインスタンス レベルの機能学習を通じて、提案の信頼スコアと境界を改善することを目的としています。

インスタンスレベルの信頼性の高いプロトタイピング

トレーニング中にポイント注釈のインスタンスレベルの事前情報を活用するために、チームはポイント注釈に基づいて異なる信頼性の提案を生成する提案生成方法を提案しました。

信頼性スコアとポイント注釈に対する時間的位置に基づいて、これらの提案は次の 2 つのタイプに分類できます。

  • 信頼性の高い提案(RP): 各カテゴリの各ポイントについて、そのポイントを含み、最も信頼性の高い提案。
  • 肯定的な提案(PP): 残りのすべての候補提案。

肯定的なサンプルと否定的なサンプルの数のバランスを確保するために、研究チームは、カテゴリに依存しない注目度スコアが事前定義された値を下回るクリップを否定的な提案 (NP) にグループ化しました。

インスタンスレベルの信頼性を考慮した最適化

各提案の完全性スコアを予測するために、研究チームは、敏感な境界の提案機能をスコア予測ヘッド φs に入力しました。

肯定的/否定的な提案と信頼できる提案間の IoU は、提案の完全性スコアの予測を監視するためのガイドとして使用されます。

より正確な境界動作提案を得るために、研究者は各PPにおける提案の開始領域の特徴と終了領域の特徴を回帰予測ヘッドφrに入力し、提案の開始時間と終了時間のオフセットを予測しました。

より洗練された提案を得るためにさらに計算が行われ、その洗練された提案が信頼できる提案と一致することが期待されます。



つまり、HR-Pro は、ほとんど注釈を付けなくても良好な結果を達成できるため、ラベルの取得コストが大幅に削減されます。同時に、強力な一般化機能を備えているため、実際の展開とアプリケーションに有利な条件が提供されます。

これを踏まえて、著者は、HR-Pro が行動分析、ヒューマン コンピュータ インタラクション、運転分析の分野で幅広い応用の見通しを持つと予測しています。

論文アドレス: https://arxiv.org/abs/2308.12608

<<:  大規模モデルの無限ストリーミング入力推論が 46% 上昇しました。国内オープンソースアクセラレーション「ファミリーバケット」が複数ラウンドの会話の長さの制限を突破

>>:  ロボットが家事の仕事を代行:人間のデモンストレーション動画を見るだけで、10時間でコーヒーの淹れ方を学ぶ

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人気のLlama 2は1週間で15万回以上ダウンロードされ、誰かがRust実装をオープンソース化した。

数日前、Meta は Llama 2 の無料商用バージョンをリリースし、AI コミュニティに大きなセ...

AIビッグモデルにおける言語の不平等:英語は最も安価、他の言語ははるかに高価

7月31日、ユーザーが使用する言語が大規模言語モデル(LLM)のコストに大きな影響を与え、英語話者と...

テレンス・タオ:初心者はAIツールを使って専門家レベルのタスクを実行すべきではないし、GPTは専門家にとってあまり役に立たない

著名な数学者テレンス・タオ氏はここ数か月、ChatGPTなどの大規模モデルAIツールを使用して数学の...

GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク

論文タイトル: GauHuman: 単眼の人間動画からの関節型ガウス分布スプラッティング論文ダウンロ...

AIは世界を席巻しており、すべての関係者がアプリケーションの導入に力を入れており、競争は激化している。

テンセントが最近テスラの株式5%を購入したというニュースは業界で大きな話題を呼び、人工知能(AI)分...

完全なグラフが利用できない場合にグラフディープラーニングを使用するにはどうすればよいでしょうか?

多様体学習は、2000 年に有名な科学雑誌 Science で初めて提案されて以来、情報科学の分野に...

セキュリティとインテリジェンス: 銀行における IoT の導入と応用

人工知能 (AI) 対応ソリューションの機能からスマート デバイスによるモビリティの向上まで、コネク...

マイクロソフトがOpenAIを救わなければならない理由

CEO を雇い、チームを雇い、CEO を復帰させ、取締役会に加わらせる - Microsoft はO...

人工知能が普及せず、自動運転に支障?

今回の世界経済サイクルが底を打つにつれ、過去2年間の多くのホットスポットが「衰退」し、「閉鎖」し始め...

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

NLP は人工知能を刺激的な新時代へと導きます。現在、人工知能分野で最もホットな話題は、大規模モデ...

...

企業が AIoT に細心の注意を払うべきなのはなぜでしょうか?

[[401594]]過去 100 年間の最大の技術革新を思い起こすと、すぐに何が思い浮かびますか?...

機械学習の問題に適した事前トレーニング済みモデルを選択する方法

[[264482]]この記事では転移学習とは何か、どのように使用するのかを簡単に紹介します。転移学習...

...

iPhoneXの顔認識はどのようなデータセキュリティの考え方を誘発するのでしょうか?

[[204618]]今年のAppleカンファレンスでは、iPhone Xの「フロントバン」が観客の...