清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル(LLM)は、単純な自然言語処理から、テキスト、オーディオ、ビデオなどのマルチモーダル分野にまでその範囲を拡大しており、その鍵の1つがビデオグラウンディング(VG)です。

VG タスクの目的は、与えられたクエリ (文章の説明) に基づいて、対象のビデオ セグメントの開始時間と終了時間を特定することです。主な課題は、時間的な境界の位置決めの精度にあります。

清華大学の研究チームは最近、「 LLM4VG 」ベンチマークを発表しました。これは、VGタスクにおけるLLMのパフォーマンスを評価するために特別に設計されたフレームワークです。

このベンチマークでは、2 つの主な戦略が検討されています。1 つ目は、テキスト ビデオ データセット (VidLLM) で直接トレーニングされたビデオ LLM を使用すること、2 つ目は、従来の LLM と事前トレーニング済みのビジョン モデルを組み合わせることです。

最初の戦略では、VidLLM はビデオ コンテンツと VG タスクの指示を直接処理し、テキストからビデオへのトレーニングに基づいて予測を出力します。

2 番目の戦略はより複雑で、LLM と視覚的記述モデルが関係します。これらのモデルは、慎重に設計されたプロンプトを介して VG タスクの指示と統合されたビデオ コンテンツのテキスト説明を生成します。

これらのプロンプトは、VG の指示と与えられた視覚的説明を効果的に組み合わせるように特別に設計されており、これにより LLM はタスクに関するビデオ コンテンツを処理して理解できるようになります。

VidLLM は、ビデオ コンテンツで直接トレーニングされているにもかかわらず、満足のいく VG パフォーマンスを達成するには依然として大きなギャップがあることが観察されています。この発見は、パフォーマンスを向上させるために、より時間的に関連のあるビデオタスクをトレーニングに組み込む必要があることを浮き彫りにしています。

2 番目の戦略は VidLLM よりも優れており、将来の研究の有望な方向性を示しています。この戦略は主に視覚モデルの制限とプロンプトワードの設計によって制限されるため、詳細かつ正確なビデオの説明を生成できるようになると、より洗練されたグラフィカル モデルによって LLM の VG パフォーマンスが大幅に向上します。

要約すると、この研究は、VG タスクへの LLM の適用に関する画期的な評価を提供し、モデルのトレーニングとキューの設計においてより洗練された方法の必要性を浮き彫りにしています。

IT Home は論文の参照アドレスを添付しています: https://arxiv.org/pdf/2312.14206.pdf

<<: 

>>:  NVIDIA: ジェネレーティブ AI はネットワーク セキュリティを効果的に支援し、脆弱性を発見してハッカーの攻撃を予測することができ、実際の人間よりも 20% 以上効率的です。

ブログ    
ブログ    
ブログ    

推薦する

スマートオフィス管理におけるAIの役割

スマート オフィスの概念は新しいものではありませんが、企業のオーナーや管理者が自動化の生産性の価値を...

今後 20 年以内に、完全自動運転のコネクテッドカーが登場するでしょうか?

20 年後の旅行と交通の未来はどうなるでしょうか? おそらく、この質問への答えははるかに複雑です。...

機械学習とデータサイエンスに関するこれらの 10 冊の無料書籍を読みたくないですか?

機械学習とデータサイエンスに関する新しい本を本棚に追加する時期が来ました。KDnuggets 編集者...

「クローズドループ」に向けての運転 | LMDrive: LLM に基づく初のクローズドループ エンドツーエンド自動運転

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

NLP/CVモデルは国境を越えて、ビジュアルトランスフォーマーはCNNを超えるのか?

コンピュータービジョンの分野では、畳み込みニューラルネットワーク (CNN) が常に市場を支配してき...

SLAM の新時代を切り開きましょう! NeRFと3D GS法のレビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Googleは社内でAIを使ったコンピュータチップの開発を試みていることを明らかに

グーグルの人工知能研究責任者ジェフ・ディーン氏によると、同社は人工知能プログラムを搭載したソフトウェ...

NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

非常にリアルで正確に制御可能な 3 次元の顔のモデリングは、デジタル ヒューマン構築における重要な課...

顔認識はどのようにして国民の個人情報を侵害するのでしょうか?犯罪者がアリペイを騙し取るために3D顔モデルを作成

[[360029]]記者 | 趙孟近年、顔認識技術の普及に伴い、国民の個人情報のセキュリティに関する...

「機械学習」CNNを徹底理解

[[212238]]前世紀、科学者は視覚神経のいくつかの特性を発見しました。視神経には局所的な知覚が...

ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI技術のアップグレード:2022年に最も人気のある人工知能技術トップ10

AI人工知能技術は、電子商取引、物流、輸送、工業など、多くの業界で応用されています。人工知能は、あ...

2021年6月の人工知能分野における重要な進展の概要

人工知能は、人間の理論、方法、技術、アプリケーション システムをシミュレート、拡張、拡大するために使...