清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

清華大学がLLM4VGベンチマークを開発:LLMビデオタイミングポジショニングパフォーマンスの評価に使用

12月29日、大規模言語モデル(LLM)は、単純な自然言語処理から、テキスト、オーディオ、ビデオなどのマルチモーダル分野にまでその範囲を拡大しており、その鍵の1つがビデオグラウンディング(VG)です。

VG タスクの目的は、与えられたクエリ (文章の説明) に基づいて、対象のビデオ セグメントの開始時間と終了時間を特定することです。主な課題は、時間的な境界の位置決めの精度にあります。

清華大学の研究チームは最近、「 LLM4VG 」ベンチマークを発表しました。これは、VGタスクにおけるLLMのパフォーマンスを評価するために特別に設計されたフレームワークです。

このベンチマークでは、2 つの主な戦略が検討されています。1 つ目は、テキスト ビデオ データセット (VidLLM) で直接トレーニングされたビデオ LLM を使用すること、2 つ目は、従来の LLM と事前トレーニング済みのビジョン モデルを組み合わせることです。

最初の戦略では、VidLLM はビデオ コンテンツと VG タスクの指示を直接処理し、テキストからビデオへのトレーニングに基づいて予測を出力します。

2 番目の戦略はより複雑で、LLM と視覚的記述モデルが関係します。これらのモデルは、慎重に設計されたプロンプトを介して VG タスクの指示と統合されたビデオ コンテンツのテキスト説明を生成します。

これらのプロンプトは、VG の指示と与えられた視覚的説明を効果的に組み合わせるように特別に設計されており、これにより LLM はタスクに関するビデオ コンテンツを処理して理解できるようになります。

VidLLM は、ビデオ コンテンツで直接トレーニングされているにもかかわらず、満足のいく VG パフォーマンスを達成するには依然として大きなギャップがあることが観察されています。この発見は、パフォーマンスを向上させるために、より時間的に関連のあるビデオタスクをトレーニングに組み込む必要があることを浮き彫りにしています。

2 番目の戦略は VidLLM よりも優れており、将来の研究の有望な方向性を示しています。この戦略は主に視覚モデルの制限とプロンプトワードの設計によって制限されるため、詳細かつ正確なビデオの説明を生成できるようになると、より洗練されたグラフィカル モデルによって LLM の VG パフォーマンスが大幅に向上します。

要約すると、この研究は、VG タスクへの LLM の適用に関する画期的な評価を提供し、モデルのトレーニングとキューの設計においてより洗練された方法の必要性を浮き彫りにしています。

IT Home は論文の参照アドレスを添付しています: https://arxiv.org/pdf/2312.14206.pdf

<<: 

>>:  NVIDIA: ジェネレーティブ AI はネットワーク セキュリティを効果的に支援し、脆弱性を発見してハッカーの攻撃を予測することができ、実際の人間よりも 20% 以上効率的です。

ブログ    
ブログ    
ブログ    

推薦する

EUが「インダストリー5.0」の時代を発表

[[415365]]画像ソース: https://pixabay.com/images/id-358...

ホットトピックのクイックレビュー:ドイツはシステムと技術の複数回の並行開発でAI戦略を強化

世界を見渡すと、各国の社会進歩、産業グレードアップ、国防建設などにおける科学技術の価値がますます明ら...

Microsoft、Spark 向けディープラーニング ライブラリ MMLSpark をオープンソース化

[[207730]] Microsoft は、Apache Spark 用のディープラーニング ライ...

AIに勝てずイ・セドルが引退を発表

[[284089]] AI囲碁プログラム「アルファ碁」を破った唯一の人間である韓国の九段、イ・セドル...

絶えず繰り返されるアルゴリズムとプログラミング技術が若者の発達を促している

人間の進化と発達は、脳の潜在能力を最大限に活用して世界を変えるプロセスです。その中で、インターネット...

機械学習の成功事例5つ

IT リーダーが、人工知能と機械学習を使用してビジネス上の洞察を得る方法を共有します。組織が顧客の好...

...

人工知能がその地位を占める中、あなたは仕事を続けることができるでしょうか?

産業革命の重機からデジタルコンピュータ時代、さらに最近では人工知能の急速な発展に至るまで、技術の進歩...

AIは数分間の記録に基づいて、人がCOVID-19に感染したかどうかを判断できますか?

今日の若者は、「エモ」という言葉をキャッチフレーズとして使うことに慣れているが、本当の「うつ病」が何...

MIT が夢を創るマシン「ドリーム インキュベーター」を開発、インセプションの現実版をカスタマイズ

目が覚めているのと眠っているのを同時に経験したことがありますか?実はここは現実と夢を繋ぐ中継駅なので...

美団は食品配達に「ドローン」を使う予定?テクノロジーは飛躍的な進歩を遂げました!

以前のPC時代では、人々は携帯電話やウェブページを通じて近くのレストランに注文をしていたが、これには...

人工知能は裁判所によって特許発明者とみなされるでしょうか?

人工知能(AI)は、新薬の発見から新しい数学の問題の解決まで、あらゆることを人間が行うのに役立ってお...

3つの主要なSQL ServerアルゴリズムのI/Oコストの簡単な分析

1. ネストループ結合アルゴリズム:考え方は非常に単純かつ直接的です。関係 R の各タプル r を、...

...