1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

たった 1 文の説明で、長いビデオ内の対応するクリップを見つけることができます。

たとえば、人が階段を降りながら水を飲んでいる場合、新しい方法では、ビデオ画像と足音を照合することで、対応する開始タイムスタンプと終了タイムスタンプをすぐに見つけることができます。

意味的に難しい単語「笑う」でも正確に見つけることができます。

この方法は、 Adaptive Dual-Branch Promotion Network (ADPN) と呼ばれ、清華大学の研究チームによって提案されました。

具体的には、ADPN は、クエリ テキストに基づいてビデオから関連するセグメントを見つける、 Temporal Sentence Grounding (TSG)と呼ばれる視覚言語クロスモーダル タスクを完了するために使用されます。

ADPN の特徴は、ビデオ内の視覚的および音声的モダリティの一貫性補完性を効率的に活用して、ビデオ セグメントのローカリゼーション パフォーマンスを向上できることです。

PMI-LOC や UMT などのオーディオを使用する他の TSG 作業と比較して、ADPN メソッドはオーディオ モダリティからより大幅なパフォーマンスの向上を実現し、複数のテストで新しい SOTA 結果を達成しました。

この作業は ACM Multimedia 2023 に受け入れられ、完全にオープンソースになりました。

ADPN とは何かを見てみましょう。

1文ポジショニングビデオクリップ

Temporal Sentence Grounding (TSG)は、重要な視覚言語クロスモーダルタスクです。

その目的は、自然言語クエリに基づいて、未編集のビデオ内の意味的に一致するセグメントの開始タイムスタンプと終了タイムスタンプを見つけることであり、そのためには、強力な時間的クロスモーダル推論機能を備えた方法が必要です。

しかし、既存の TSG 手法のほとんどは、RGB、オプティカルフロー深度などのビデオ内の視覚情報のみを考慮し、ビデオに自然に伴うオーディオ情報は無視しています。

下の図に示すように、オーディオ情報には豊富なセマンティクスが含まれていることが多く、視覚情報と一貫性があり、補完的です。これらの特性は TSG タスクに役立ちます。

△図1

(a) 一貫性: ビデオ映像と足音は、クエリの「階段を降りる」というセマンティクスと一貫して一致しています。(b) 相補性: ビデオ映像内の特定の動作を特定して、クエリの「笑う」というセマンティクスを特定することは困難ですが、笑いの出現は強力な相補的ポジショニングの手がかりを提供します。

そのため、研究者は、視覚と音声の両方のモダリティからより適切に位置特定手がかりを捉えることを目指して、音声強化テンポラル・センテンス・グラウンディング(ATSG)タスクに関する徹底的な研究を行ってきました。しかし、音声モダリティの導入には、次のような課題も伴います。

  • オーディオとビジュアルのモダリティの一貫性と補完性はクエリ テキストに関連付けられているため、オーディオとビジュアルの一貫性と補完性をキャプチャするには、テキスト、ビジュアル、オーディオの 3 つのモダリティの相互作用をモデル化する必要があります。
  • 音声と視覚の間には、情報密度やノイズ強度が異なるなど、大きなモダリティの違いがあり、それが視聴覚学習のパフォーマンスに影響を与えます。

上記の課題に対処するために、研究者らは新しい ATSG 方式「適応型デュアルブランチプロンプトネットワーク」(ADPN)を提案しました。

この方法は、デュアルブランチモデル構造設計を通じて、オーディオとビジョン間の一貫性と補完性を適応的にモデル化し、カリキュラム学習ベースのノイズ除去最適化戦略を使用してオーディオモードノイズの干渉をさらに排除し、ビデオ検索におけるオーディオ信号の重要性を明らかにします。

ADPN の全体構造を下図に示します。

△ 図2: 適応型デュアルブランチプロモーションネットワーク(ADPN)の全体図

主に次の 3 つのデザインが含まれます。

1. デュアルブランチネットワーク構造設計

オーディオノイズはより顕著であり、オーディオには通常TSGタスクに対する冗長な情報が多く含まれていることを考慮すると、オーディオと視覚のモダリティの学習プロセスに異なる重要性を与える必要があります。したがって、この論文では、マルチモーダル学習にオーディオと視覚を使用しながら視覚情報を強化するデュアルブランチネットワーク構造につ​​いて説明します。

具体的には、図2(a)に示すように、ADPNは視覚情報のみを使用するブランチ(視覚ブランチ)と視覚情報と音声情報の両方を使用するブランチ(ジョイントブランチ)を同時にトレーニングします。

2 つのブランチは類似した構造を持ち、ジョイント ブランチではテキスト ガイド クルー マイニング ユニット(TGCM)を追加して、テキスト、ビジュアル、オーディオ モダリティの相互作用をモデル化します。トレーニング プロセス中、2 つのブランチは同時にパラメーターを更新し、結合ブランチの結果は推論フェーズでのモデル予測結果として使用されます。

2. テキストガイド付き手がかりマイナー(TGCM)

オーディオとビジュアルのモダリティの一貫性と補完性が特定のテキストクエリに条件付けられていることを考慮して、研究者は、テキスト、ビジュアル、オーディオの 3 つのモダリティ間の相互作用をモデル化する TGCM ユニットを設計しました。

図2(b)を参照すると、TGCMは「抽出」と「伝播」の2つのステップに分かれています。

まず、テキストをクエリ条件として使用し、視覚と聴覚モダリティから関連情報を抽出して統合します。次に、視覚と聴覚モダリティをクエリ条件として使用し、統合された情報をアテンションを通じて視覚と聴覚モダリティに伝播します。最後に、FFNを使用して特徴融合を実行します。

3. コース学習最適化戦略

研究者らは、音声にノイズが含まれており、それがマルチモーダル学習の効果に影響を与えることを観察しました。そのため、ノイズの強度をサンプルの難易度の基準として使用し、最適化プロセスのノイズを除去するためにカリキュラム学習 (CL)を導入しました (図 2(c) を参照)。

彼らは、2 つのブランチの予測出力の差に基づいてサンプルの難易度を評価しました。難しすぎるサンプルは、オーディオにノイズが多すぎて TSG タスクに適していないことを示している可能性が高いと考えたためです。そのため、サンプルの難易度の評価スコアに基づいてトレーニング プロセスの損失関数の項に再重み付けを行い、オーディオ ノイズによって生じた悪い勾配を排除することを目指しました。

(残りのモデル構造とトレーニングの詳細については、元の論文を参照してください。)

新しいSOTAの複数のテスト

研究者らは、TSGタスクのベンチマークデータセットであるCharades-STAとActivityNet Captionsで実験的評価を実施しました。ベースライン手法との比較は表1に示されています。

ADPN メソッドは SOTA パフォーマンスを達成できます。特に、オーディオ、PMI-LOC、UMT を使用した他の TSG 作業と比較して、ADPN メソッドはオーディオ モダリティからより大幅なパフォーマンスの向上を実現しており、これはオーディオ モダリティを使用した TSG の促進における ADPN メソッドの優位性を示しています。

△表1: Charades-STAとActivityNet Captionsの実験結果

研究者らはさらに、表 2 に示すように、アブレーション実験を通じて ADPN のさまざまな設計ユニットの有効性を実証しました。

△ 表2: Charades-STAでのアブレーション実験

研究者らは、いくつかのサンプルの予測結果を選択して視覚化し、TGCM の「抽出」ステップにおける「テキストから視覚へ」(T→V) と「テキストから音声へ」(T→A) の注目度分布をプロットしました (図 3 を参照)。

オーディオモダリティの導入により予測結果が改善されることがわかります。 「人はそれを笑う」のケースでは、T→Aの注目度重み分布がGround Truthに近いことがわかり、T→Vの注目度重み分布によるモデル予測のミスリードが修正されます。

△ 図3:ケース表示

要約すると、オーディオ強化ビデオセグメントローカリゼーション(ATSG)問題を解決するための新しい適応型デュアルブランチブースティングネットワーク(ADPN)を提案します。

彼らは、視覚ブランチと視聴覚ブランチを共同でトレーニングし、音声と視覚のモダリティ間の情報の違いに対処するための 2 ブランチ モデル構造を設計しました。

彼らはまた、テキストセマンティクスをガイドとして使用してテキストとオーディオとビジュアルの相互作用をモデル化するためのテキストガイド手がかりマイニングユニット(TGCM)を提案しました。

最後に、研究者らは、オーディオノイズをさらに除去し、ノイズ強度の尺度としてサンプルの難易度を自己認識的に評価し、最適化プロセスを適応的に調整するためのカリキュラム学習ベースの最適化戦略を設計しました。

彼らはまず、オーディオ モダリティのパフォーマンス向上効果をさらに高めるために、ATSG のオーディオの特性について詳細な調査を実施しました。

将来的には、この分野でのさらなる研究を促進するために、ATSG のより適切な評価ベンチマークを構築したいと考えています。

論文リンク: https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
リポジトリリンク: https://github.com/hlchen23/ADPN-MM

<<:  引退した中国人女性のAIによるイラストがWeiboで話題に! 「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

>>: 

推薦する

AI研究 | 陸宇:人工知能はオンライン教育を改善する大きな可能性を秘めている

工業情報化部科学技術庁は、感染予防・抑制に努め、感染拡大を阻止するために、「人工知能の力を十分に発揮...

2.5 ~ 4 倍の深さで、より少ないパラメータと計算量で、DeLighT はどうやってそれを実現したのでしょうか?

ディープラーニングはパラメータが多すぎる、モデルが大きすぎる、展開が不便、そしてコンピューティングリ...

...

Baidu Create 2018 ディープラーニング フロンティア テクノロジーと産業応用公開コースのハイライト

[51CTO.com からのオリジナル記事] 中国の開発者が集まる毎年恒例の盛大な集まりである Ba...

メタバース、ドローン、5G…は2022年に投資する価値のあるテクノロジーになるでしょうか?

2022年は活気に満ちた春のニュースとともにやって来ます。新年はどんな機会と課題をもたらすでしょう...

オペレーティングシステムエンジニアリングの観点から見たAIoT

2008年は特別な年でした。前年にはiPhoneが発売され、翌年にはAndroidがリリースされま...

オープンソースの人工知能アルゴリズム 新しいスーパーピクセルサンプリング、ネットワーク深層特徴推定スーパーピクセル

オープンソース AI アルゴリズム 新しいスーパーピクセル サンプリング、ネットワーク ディープ フ...

...

AI専用SoCチップのIP要件の分析

[[386797]]この記事はWeChatの公開アカウント「Smart Computing Chip...

Googleが4月22日に発表したアルゴリズム改善策の分析

Google の中国ウェブマスター ブログにログインすると、4 月 22 日の午後に更新された「品質...

一般的な機械学習アルゴリズム11種の紹介

近年、需要の高さと技術の進歩により、機械学習の人気は大幅に高まっています。 データから価値を生み出す...

李蘭娟氏との対話:人工知能は流行病を「すべて捕捉」し、医療をより正確にする

[[353851]] 「新型コロナウイルス感染症の突然の発生は、厳しい課題、不確実性、状況の進展の複...

...

...

ニューラルネットワークの内部はどのようになっているのでしょうか?

ニューラル ネットワークは錬金術の炉のようなものです。大量のデータを入力すると、魔法のような結果が生...