1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

たった 1 文の説明で、長いビデオ内の対応するクリップを見つけることができます。

たとえば、人が階段を降りながら水を飲んでいる場合、新しい方法では、ビデオ画像と足音を照合することで、対応する開始タイムスタンプと終了タイムスタンプをすぐに見つけることができます。

意味的に難しい単語「笑う」でも正確に見つけることができます。

この方法は、 Adaptive Dual-Branch Promotion Network (ADPN) と呼ばれ、清華大学の研究チームによって提案されました。

具体的には、ADPN は、クエリ テキストに基づいてビデオから関連するセグメントを見つける、 Temporal Sentence Grounding (TSG)と呼ばれる視覚言語クロスモーダル タスクを完了するために使用されます。

ADPN の特徴は、ビデオ内の視覚的および音声的モダリティの一貫性補完性を効率的に活用して、ビデオ セグメントのローカリゼーション パフォーマンスを向上できることです。

PMI-LOC や UMT などのオーディオを使用する他の TSG 作業と比較して、ADPN メソッドはオーディオ モダリティからより大幅なパフォーマンスの向上を実現し、複数のテストで新しい SOTA 結果を達成しました。

この作業は ACM Multimedia 2023 に受け入れられ、完全にオープンソースになりました。

ADPN とは何かを見てみましょう。

1文ポジショニングビデオクリップ

Temporal Sentence Grounding (TSG)は、重要な視覚言語クロスモーダルタスクです。

その目的は、自然言語クエリに基づいて、未編集のビデオ内の意味的に一致するセグメントの開始タイムスタンプと終了タイムスタンプを見つけることであり、そのためには、強力な時間的クロスモーダル推論機能を備えた方法が必要です。

しかし、既存の TSG 手法のほとんどは、RGB、オプティカルフロー深度などのビデオ内の視覚情報のみを考慮し、ビデオに自然に伴うオーディオ情報は無視しています。

下の図に示すように、オーディオ情報には豊富なセマンティクスが含まれていることが多く、視覚情報と一貫性があり、補完的です。これらの特性は TSG タスクに役立ちます。

△図1

(a) 一貫性: ビデオ映像と足音は、クエリの「階段を降りる」というセマンティクスと一貫して一致しています。(b) 相補性: ビデオ映像内の特定の動作を特定して、クエリの「笑う」というセマンティクスを特定することは困難ですが、笑いの出現は強力な相補的ポジショニングの手がかりを提供します。

そのため、研究者は、視覚と音声の両方のモダリティからより適切に位置特定手がかりを捉えることを目指して、音声強化テンポラル・センテンス・グラウンディング(ATSG)タスクに関する徹底的な研究を行ってきました。しかし、音声モダリティの導入には、次のような課題も伴います。

  • オーディオとビジュアルのモダリティの一貫性と補完性はクエリ テキストに関連付けられているため、オーディオとビジュアルの一貫性と補完性をキャプチャするには、テキスト、ビジュアル、オーディオの 3 つのモダリティの相互作用をモデル化する必要があります。
  • 音声と視覚の間には、情報密度やノイズ強度が異なるなど、大きなモダリティの違いがあり、それが視聴覚学習のパフォーマンスに影響を与えます。

上記の課題に対処するために、研究者らは新しい ATSG 方式「適応型デュアルブランチプロンプトネットワーク」(ADPN)を提案しました。

この方法は、デュアルブランチモデル構造設計を通じて、オーディオとビジョン間の一貫性と補完性を適応的にモデル化し、カリキュラム学習ベースのノイズ除去最適化戦略を使用してオーディオモードノイズの干渉をさらに排除し、ビデオ検索におけるオーディオ信号の重要性を明らかにします。

ADPN の全体構造を下図に示します。

△ 図2: 適応型デュアルブランチプロモーションネットワーク(ADPN)の全体図

主に次の 3 つのデザインが含まれます。

1. デュアルブランチネットワーク構造設計

オーディオノイズはより顕著であり、オーディオには通常TSGタスクに対する冗長な情報が多く含まれていることを考慮すると、オーディオと視覚のモダリティの学習プロセスに異なる重要性を与える必要があります。したがって、この論文では、マルチモーダル学習にオーディオと視覚を使用しながら視覚情報を強化するデュアルブランチネットワーク構造につ​​いて説明します。

具体的には、図2(a)に示すように、ADPNは視覚情報のみを使用するブランチ(視覚ブランチ)と視覚情報と音声情報の両方を使用するブランチ(ジョイントブランチ)を同時にトレーニングします。

2 つのブランチは類似した構造を持ち、ジョイント ブランチではテキスト ガイド クルー マイニング ユニット(TGCM)を追加して、テキスト、ビジュアル、オーディオ モダリティの相互作用をモデル化します。トレーニング プロセス中、2 つのブランチは同時にパラメーターを更新し、結合ブランチの結果は推論フェーズでのモデル予測結果として使用されます。

2. テキストガイド付き手がかりマイナー(TGCM)

オーディオとビジュアルのモダリティの一貫性と補完性が特定のテキストクエリに条件付けられていることを考慮して、研究者は、テキスト、ビジュアル、オーディオの 3 つのモダリティ間の相互作用をモデル化する TGCM ユニットを設計しました。

図2(b)を参照すると、TGCMは「抽出」と「伝播」の2つのステップに分かれています。

まず、テキストをクエリ条件として使用し、視覚と聴覚モダリティから関連情報を抽出して統合します。次に、視覚と聴覚モダリティをクエリ条件として使用し、統合された情報をアテンションを通じて視覚と聴覚モダリティに伝播します。最後に、FFNを使用して特徴融合を実行します。

3. コース学習最適化戦略

研究者らは、音声にノイズが含まれており、それがマルチモーダル学習の効果に影響を与えることを観察しました。そのため、ノイズの強度をサンプルの難易度の基準として使用し、最適化プロセスのノイズを除去するためにカリキュラム学習 (CL)を導入しました (図 2(c) を参照)。

彼らは、2 つのブランチの予測出力の差に基づいてサンプルの難易度を評価しました。難しすぎるサンプルは、オーディオにノイズが多すぎて TSG タスクに適していないことを示している可能性が高いと考えたためです。そのため、サンプルの難易度の評価スコアに基づいてトレーニング プロセスの損失関数の項に再重み付けを行い、オーディオ ノイズによって生じた悪い勾配を排除することを目指しました。

(残りのモデル構造とトレーニングの詳細については、元の論文を参照してください。)

新しいSOTAの複数のテスト

研究者らは、TSGタスクのベンチマークデータセットであるCharades-STAとActivityNet Captionsで実験的評価を実施しました。ベースライン手法との比較は表1に示されています。

ADPN メソッドは SOTA パフォーマンスを達成できます。特に、オーディオ、PMI-LOC、UMT を使用した他の TSG 作業と比較して、ADPN メソッドはオーディオ モダリティからより大幅なパフォーマンスの向上を実現しており、これはオーディオ モダリティを使用した TSG の促進における ADPN メソッドの優位性を示しています。

△表1: Charades-STAとActivityNet Captionsの実験結果

研究者らはさらに、表 2 に示すように、アブレーション実験を通じて ADPN のさまざまな設計ユニットの有効性を実証しました。

△ 表2: Charades-STAでのアブレーション実験

研究者らは、いくつかのサンプルの予測結果を選択して視覚化し、TGCM の「抽出」ステップにおける「テキストから視覚へ」(T→V) と「テキストから音声へ」(T→A) の注目度分布をプロットしました (図 3 を参照)。

オーディオモダリティの導入により予測結果が改善されることがわかります。 「人はそれを笑う」のケースでは、T→Aの注目度重み分布がGround Truthに近いことがわかり、T→Vの注目度重み分布によるモデル予測のミスリードが修正されます。

△ 図3:ケース表示

要約すると、オーディオ強化ビデオセグメントローカリゼーション(ATSG)問題を解決するための新しい適応型デュアルブランチブースティングネットワーク(ADPN)を提案します。

彼らは、視覚ブランチと視聴覚ブランチを共同でトレーニングし、音声と視覚のモダリティ間の情報の違いに対処するための 2 ブランチ モデル構造を設計しました。

彼らはまた、テキストセマンティクスをガイドとして使用してテキストとオーディオとビジュアルの相互作用をモデル化するためのテキストガイド手がかりマイニングユニット(TGCM)を提案しました。

最後に、研究者らは、オーディオノイズをさらに除去し、ノイズ強度の尺度としてサンプルの難易度を自己認識的に評価し、最適化プロセスを適応的に調整するためのカリキュラム学習ベースの最適化戦略を設計しました。

彼らはまず、オーディオ モダリティのパフォーマンス向上効果をさらに高めるために、ATSG のオーディオの特性について詳細な調査を実施しました。

将来的には、この分野でのさらなる研究を促進するために、ATSG のより適切な評価ベンチマークを構築したいと考えています。

論文リンク: https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
リポジトリリンク: https://github.com/hlchen23/ADPN-MM

<<:  引退した中国人女性のAIによるイラストがWeiboで話題に! 「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

>>: 

ブログ    

推薦する

次世代交通におけるAI世代の影響

次世代の交通手段は、電子機器、持続可能性、経験を設計の中核としており、Gen AI は、想定される次...

...

蜀のAI教育への道はどれほど危険か

19 世紀頃、イギリスの実証主義哲学者で社会学者の H. スペンサーは、「教育論」の中で、イギリスの...

それは大したことだ! Google によれば、人類は 2029 年に不死を達成するそうです。病気も老化も痛みも完全に消え去ります! ?

この世で最も公平なものは、誕生、老い、病気、そして死だと思います。人生においてどれほど偉大な業績を成...

機械学習モデルのパフォーマンスを測定する 10 の指標

大規模モデルは非常に強力ですが、実際の問題を解決するには必ずしも大規模モデルに完全に依存する必要はあ...

適切な AI ユースケースを選択するための 5 つのヒント

多くの企業はまだ AI を導入する準備ができていない可能性があるため、まずは 1 つのプロジェクトか...

...

...

人工知能と機械学習が進化する10の方法

[[411678]]人工知能は現在、多くの CEO にとって最重要課題となっています。この話題は目新...

スマートグリッドの重要性は何ですか?

スマートグリッドは私たちにとってどのような意義があるのでしょうか?実際のところ、私たちはスマートグリ...

...

オープンソースの人工知能ソフトウェア 15 種類、あなたのお気に入りはどれですか?

人工知能は現在最も注目されている科学研究分野の一つです。 IBM、Google、Microsoft、...

2022 年に注目すべき音声技術の 10 大予測

2022年の音声技術に関する主な予測は次のとおりです。 [[434566]] AlexaやSiriの...