1 文でビデオクリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

たった 1 文の説明で、長いビデオ内の対応するクリップを見つけることができます。

たとえば、人が階段を降りながら水を飲んでいる場合、新しい方法では、ビデオ画像と足音を照合することで、対応する開始タイムスタンプと終了タイムスタンプをすぐに見つけることができます。

意味的に難しい単語「笑う」でも正確に見つけることができます。

この方法は、 Adaptive Dual-Branch Promotion Network (ADPN) と呼ばれ、清華大学の研究チームによって提案されました。

具体的には、ADPN は、クエリテキストに基づいてビデオから関連するセグメントを見つける、 Temporal Sentence Grounding (TSG)と呼ばれる視覚言語クロスモーダルタスクを完了するために使用されます。

ADPN の特徴は、ビデオ内の視覚的および音声的モダリティの一貫性と補完性を効率的に活用して、ビデオセグメントのローカリゼーションパフォーマンスを向上できることです。

PMI-LOC や UMT などのオーディオを使用する他の TSG 作業と比較して、ADPN メソッドはオーディオモダリティからより大幅なパフォーマンスの向上を実現し、複数のテストで新しい SOTA 結果を達成しました。

この作業は ACM Multimedia 2023 に受け入れられ、完全にオープンソースになりました。

ADPN とは何かを見てみましょう。

1文ポジショニングビデオクリップ

Temporal Sentence Grounding (TSG)は、重要な視覚言語クロスモーダルタスクです。

その目的は、自然言語クエリに基づいて、未編集のビデオ内の意味的に一致するセグメントの開始タイムスタンプと終了タイムスタンプを見つけることであり、そのためには、強力な時間的クロスモーダル推論機能を備えた方法が必要です。

しかし、既存の TSG 手法のほとんどは、RGB、オプティカルフロー、深度などのビデオ内の視覚情報のみを考慮し、ビデオに自然に伴うオーディオ情報は無視しています。

下の図に示すように、オーディオ情報には豊富なセマンティクスが含まれていることが多く、視覚情報と一貫性があり、補完的です。これらの特性は TSG タスクに役立ちます。

△図1

(a) 一貫性: ビデオ映像と足音は、クエリの「階段を降りる」というセマンティクスと一貫して一致しています。(b) 相補性: ビデオ映像内の特定の動作を特定して、クエリの「笑う」というセマンティクスを特定することは困難ですが、笑いの出現は強力な相補的ポジショニングの手がかりを提供します。

そのため、研究者は、視覚と音声の両方のモダリティからより適切に位置特定手がかりを捉えることを目指して、音声強化テンポラル・センテンス・グラウンディング（ATSG）タスクに関する徹底的な研究を行ってきました。しかし、音声モダリティの導入には、次のような課題も伴います。

オーディオとビジュアルのモダリティの一貫性と補完性はクエリテキストに関連付けられているため、オーディオとビジュアルの一貫性と補完性をキャプチャするには、テキスト、ビジュアル、オーディオの 3 つのモダリティの相互作用をモデル化する必要があります。
音声と視覚の間には、情報密度やノイズ強度が異なるなど、大きなモダリティの違いがあり、それが視聴覚学習のパフォーマンスに影響を与えます。

上記の課題に対処するために、研究者らは新しい ATSG 方式「適応型デュアルブランチプロンプトネットワーク」(ADPN)を提案しました。

この方法は、デュアルブランチモデル構造設計を通じて、オーディオとビジョン間の一貫性と補完性を適応的にモデル化し、カリキュラム学習ベースのノイズ除去最適化戦略を使用してオーディオモードノイズの干渉をさらに排除し、ビデオ検索におけるオーディオ信号の重要性を明らかにします。

ADPN の全体構造を下図に示します。

△ 図2: 適応型デュアルブランチプロモーションネットワーク（ADPN）の全体図

主に次の 3 つのデザインが含まれます。

1. デュアルブランチネットワーク構造設計

オーディオノイズはより顕著であり、オーディオには通常TSGタスクに対する冗長な情報が多く含まれていることを考慮すると、オーディオと視覚のモダリティの学習プロセスに異なる重要性を与える必要があります。したがって、この論文では、マルチモーダル学習にオーディオと視覚を使用しながら視覚情報を強化するデュアルブランチネットワーク構造について説明します。

具体的には、図2(a)に示すように、ADPNは視覚情報のみを使用するブランチ（視覚ブランチ）と視覚情報と音声情報の両方を使用するブランチ（ジョイントブランチ）を同時にトレーニングします。

2 つのブランチは類似した構造を持ち、ジョイントブランチではテキストガイドクルーマイニングユニット(TGCM)を追加して、テキスト、ビジュアル、オーディオモダリティの相互作用をモデル化します。トレーニングプロセス中、2 つのブランチは同時にパラメーターを更新し、結合ブランチの結果は推論フェーズでのモデル予測結果として使用されます。

2. テキストガイド付き手がかりマイナー（TGCM）

オーディオとビジュアルのモダリティの一貫性と補完性が特定のテキストクエリに条件付けられていることを考慮して、研究者は、テキスト、ビジュアル、オーディオの 3 つのモダリティ間の相互作用をモデル化する TGCM ユニットを設計しました。

図2(b)を参照すると、TGCMは「抽出」と「伝播」の2つのステップに分かれています。

まず、テキストをクエリ条件として使用し、視覚と聴覚モダリティから関連情報を抽出して統合します。次に、視覚と聴覚モダリティをクエリ条件として使用し、統合された情報をアテンションを通じて視覚と聴覚モダリティに伝播します。最後に、FFNを使用して特徴融合を実行します。

3. コース学習最適化戦略

研究者らは、音声にノイズが含まれており、それがマルチモーダル学習の効果に影響を与えることを観察しました。そのため、ノイズの強度をサンプルの難易度の基準として使用し、最適化プロセスのノイズを除去するためにカリキュラム学習 (CL)を導入しました (図 2(c) を参照)。

彼らは、2 つのブランチの予測出力の差に基づいてサンプルの難易度を評価しました。難しすぎるサンプルは、オーディオにノイズが多すぎて TSG タスクに適していないことを示している可能性が高いと考えたためです。そのため、サンプルの難易度の評価スコアに基づいてトレーニングプロセスの損失関数の項に再重み付けを行い、オーディオノイズによって生じた悪い勾配を排除することを目指しました。

(残りのモデル構造とトレーニングの詳細については、元の論文を参照してください。)

新しいSOTAの複数のテスト

研究者らは、TSGタスクのベンチマークデータセットであるCharades-STAとActivityNet Captionsで実験的評価を実施しました。ベースライン手法との比較は表1に示されています。

ADPN メソッドは SOTA パフォーマンスを達成できます。特に、オーディオ、PMI-LOC、UMT を使用した他の TSG 作業と比較して、ADPN メソッドはオーディオモダリティからより大幅なパフォーマンスの向上を実現しており、これはオーディオモダリティを使用した TSG の促進における ADPN メソッドの優位性を示しています。

△表1: Charades-STAとActivityNet Captionsの実験結果

研究者らはさらに、表 2 に示すように、アブレーション実験を通じて ADPN のさまざまな設計ユニットの有効性を実証しました。

△ 表2: Charades-STAでのアブレーション実験

研究者らは、いくつかのサンプルの予測結果を選択して視覚化し、TGCM の「抽出」ステップにおける「テキストから視覚へ」(T→V) と「テキストから音声へ」(T→A) の注目度分布をプロットしました (図 3 を参照)。

オーディオモダリティの導入により予測結果が改善されることがわかります。「人はそれを笑う」のケースでは、T→Aの注目度重み分布がGround Truthに近いことがわかり、T→Vの注目度重み分布によるモデル予測のミスリードが修正されます。

△ 図3：ケース表示

要約すると、オーディオ強化ビデオセグメントローカリゼーション(ATSG)問題を解決するための新しい適応型デュアルブランチブースティングネットワーク(ADPN)を提案します。

彼らは、視覚ブランチと視聴覚ブランチを共同でトレーニングし、音声と視覚のモダリティ間の情報の違いに対処するための 2 ブランチモデル構造を設計しました。

彼らはまた、テキストセマンティクスをガイドとして使用してテキストとオーディオとビジュアルの相互作用をモデル化するためのテキストガイド手がかりマイニングユニット(TGCM)を提案しました。

最後に、研究者らは、オーディオノイズをさらに除去し、ノイズ強度の尺度としてサンプルの難易度を自己認識的に評価し、最適化プロセスを適応的に調整するためのカリキュラム学習ベースの最適化戦略を設計しました。

彼らはまず、オーディオモダリティのパフォーマンス向上効果をさらに高めるために、ATSG のオーディオの特性について詳細な調査を実施しました。

将来的には、この分野でのさらなる研究を促進するために、ATSG のより適切な評価ベンチマークを構築したいと考えています。