AIはビデオを流暢に解釈できますか? Vista-LLaMAはこの「錯覚」の問題を解決します

AIはビデオを流暢に解釈できますか? Vista-LLaMAはこの「錯覚」の問題を解決します

近年、GPT、GLM、LLaMAなどの大規模言語モデルは自然言語処理の分野で大きな進歩を遂げており、ディープラーニング技術に基づいて複雑なテキストコンテンツを理解・生成できるようになりました。しかし、これらの機能をビデオ コンテンツ理解の分野に拡張することは、まったく新しい課題です。ビデオには豊富で多様な視覚情報が含まれているだけでなく、時系列の動的な変化も含まれるため、大規模な言語モデルがビデオから情報を抽出するのはより複雑になります。

この課題に対応するため、 ByteDanceと浙江大学は共同で、信頼性の高いビデオ説明を出力できるマルチモーダル大規模言語モデルであるVista-LLaMAを提案しました。 Vista-LLaMA は、ビデオ コンテンツの複雑さに対処するために特別に設計されており、ビデオ フレームを正確な言語記述に効果的に変換できるため、ビデオ コンテンツの分析と生成の品質が大幅に向上します。

論文ホームページ: https://jinxxian.github.io/Vista-LLaMA/

図1

技術革新の道

ビデオ コンテンツを処理する際に、既存のマルチモーダル ビジョン モデルと言語モデルは通常、ビデオ フレームを一連のビジュアル トークンに変換し、それらを言語トークンと組み合わせてテキストを生成します。しかし、生成されたテキストの長さが長くなるにつれて、ビデオコンテンツの影響は徐々に弱まる傾向があり、生成されたテキストは元のビデオコンテンツからますます逸脱し、いわゆる「幻覚」現象が発生します。

Vista-LLaMA は、ビデオとテキスト間の複雑な相互作用を革新的な方法で処理することにより、従来のビデオ言語モデルの限界を打ち破ります。 Vista-LLaMA の核となる革新性は、視覚トークンと言語トークンを独自の方法で処理することにあります。他のモデルとは異なり、特に長いテキストでは、視覚トークンと言語トークンの間に等距離を維持することで、テキスト生成の偏りを効果的に回避します。この方法により、モデルによるビデオ コンテンツの理解の深さと精度が大幅に向上します。

図2

Vista-LLaMA は、改良された注意メカニズムである視覚等距離トークン注意 (EDVT) を使用します。このメカニズムは、テキスト間の相対位置エンコーディングを保持しながら、視覚トークンとテキスト トークンを処理するときに従来の相対位置エンコーディングを削除します。 EDVT メカニズムは、特定の関数を通じて隠し層の入力を処理し、視覚トークンのソースを効果的に区別します。

具体的には、まず入力をクエリ、キー、値のマッピングに変換し、次にクエリとキーの入力に回転位置エンコーディング (RoPE) を適用し、それぞれ RoPE ありと RoPE なしのアテンション ウェイトを計算します。その後、2 つの注意重みは視覚トークンの有無に応じてマージされ、注意はソフトマックス関数を通じて正規化され、最後に注意重みに基づく線形マッピングを通じて表現が更新され、出力結果が生成されます。この革新により、マルチモーダル大規模言語モデルは、特に複雑なビデオシーンにおいて、ビデオの内容にさらに注意を払うことができ、主要な視覚要素を効果的にキャプチャして、テキスト生成の品質と関連性を向上させることができます。

図3

同時に、このモデルによって導入されたシリアル化されたビジュアルプロジェクターは、ビデオの時系列分析に新しい視点を提供します。現在のビデオフレームを処理するだけでなく、前のフレームの情報も活用できるため、ビデオコンテンツの一貫性と時間的論理が向上します。

ビジュアルプロジェクターの役割は、大規模な言語モデルがビジュアル入力とテキスト入力を融合して処理できるように、ビデオ機能を言語埋め込み空間にマッピングすることです。図 4 に示すように、初期の視覚プロジェクターでは通常、線形レイヤーまたはクエリ トランスフォーマー (Q-Former) を使用して、フレーム機能を言語トークンに直接変換します。しかし、これらの方法では時間的な関係が無視されるため、言語モデルによるビデオの包括的な理解が制限されます。 Vista-LLaMA は、線形投影レイヤーを通じてビジュアル トークンの時間的コンテキストをエンコードするシリアル化されたビジュアル プロジェクターを導入し、ビデオの動的な変化を理解するモデルの能力を強化します。これは、ビデオ コンテンツ分析の品質を向上させるために重要です。

図4

ベンチマーク結果

Vista-LLaMA は、複数のオープンソースのビデオ質問応答ベンチマークで優れたパフォーマンスを発揮します。ビデオ理解と言語生成能力を測定するための重要なベンチマークである NExT-QA および MSRVTT-QA テストで画期的なスコアを達成しました。ゼロショット NExT-QA テストでは、Vista-LLaMA は 60.7% の精度を達成しました。 MSRVTT-QA テストでは、現在のすべての SOTA 方式を上回る 60.5% の精度を達成しました。これらの結果は業界でも先進的なレベルであり、Video-ChatGPT や MovieChat などの他の SOTA モデルを大幅に上回っています。

図5

これらのテスト結果は、ビデオ コンテンツの理解と説明の生成における Vista-LLaMA の効率性と精度を実証しています。Vista-LLaMA はビデオ コンテンツを正確に理解して説明することができ、その強力な一般化能力を実証しています。これらの結果は、Vista-LLaMA が複雑なビデオ コンテンツを理解する能力を実証するだけでなく、マルチモーダル言語処理の分野における Vista-LLaMA の主導的地位を証明しています。

データセット: CineClipQA

図6

Vista-LLaMA とともに、CineClipQA と呼ばれる新しいデータセットが提案されました。

CineClipQA には、さまざまなスタイルと物語技法を持つ 5 つの映画から厳選された 153 のビデオ クリップが含まれています。各クリップは映画のストーリーの 1 つ以上の独自の部分を表現しており、16 個のカスタマイズされた質問が付随しており、合計 2,448 個の質問があります。質問は、システムプロンプトと質問の 2 つの部分に分かれています。

  • システム プロンプトは、現在のビデオ クリップ内の主要なキャラクターに関する基本情報を提供し、必要に応じてキャラクターの最初のアクションに関するプロンプトを提供します。
  • 問題は主に、認識、時間(予測)、空間(相互作用)、意図、知覚の 5 つのカテゴリに分類されます。具体的には、認識には場所と行動に関する質問が含まれます。時間性には、次の行動、前の行動、同時行動、予測された行動に関する質問が含まれます。空間性には、物体と人々の間の空間情報に関する質問が含まれます。意図には、行動の目的に関する 3 つの同様の質問が含まれます。最後に、知覚では感情認識を調べ、「どのように」(方法、態度など) を尋ねます。

この研究では、16 種類すべてについて詳細な説明と対応する例も提供しています。 CineClipQA データセットでは、Vista-LLaMA も優れたパフォーマンスを示しています。

図7

つまり、Vista-LLaMA が長いビデオ コンテンツの処理にもたらす大きな利点は、ビデオ分析の分野に新しいソリューション フレームワークをもたらし、ビデオ処理とコンテンツ作成における人工知能の開発を促進し、将来的にはマルチモーダル インタラクションと自動コンテンツ生成の分野に幅広い機会をもたらすことを告げています。

詳細については、プロジェクトページ[https://jinxxian.github.io/Vista-LLaMA]をご覧ください。

ByteDanceのインテリジェントクリエーションチームについて

知能創造チームは、ByteDanceのオーディオとビデオの革新技術とビジネスミドルプラットフォームであり、コンピュータービジョン、グラフィックス、音声、撮影と編集、特殊効果、クライアントとサーバーエンジニアリングなどの技術分野をカバーしています。ByteDanceの豊富なビジネスシナリオ、インフラストラクチャリソース、良好な技術協力環境の助けを借りて、最先端のアルゴリズム-エンジニアリングシステム-製品のリンク全体のクローズドループを実現し、社内のビジネスラインと外部の協力顧客に、業界最先端のコンテンツ理解、コンテンツ作成、インタラクティブな体験と消費機能、およびさまざまな形式での業界ソリューションを提供することを目指しています。

現在、知能創造チームはByteDance傘下のクラウドサービスプラットフォーム「Volcano Engine」を通じて、企業向けに技術力とサービスを開放している。

<<:  これほどリアルな効果を生み出すために、原作者を何人食べなければならなかったのですか?文生図はビジュアル「盗作」の疑い

>>:  素晴らしい瞬間を振り返りましょう! IEEE Spectrumが2023年の最もホットなAIストーリーをレビュー

推薦する

1 つの記事で RNN (リカレント ニューラル ネットワーク) の基礎を理解する

[[211628]] 1. ニューラルネットワークの基礎ニューラル ネットワークは、あらゆる関数に適...

...

Microsoft Office Family Bucket Edition GPT-4 の価格は月額 30 ドル、Azure は Llama 2 と提携

ここ数カ月、国内外のテクノロジー大手は大規模モデルをめぐって動きを見せているが、OpenAIを所有す...

...

サービスロボット防疫シリーズ:食品の配達、消毒、誘導などにより、感染症の予防と抑制に貢献

新たな流行が猛烈に迫っており、特に河北省の流行は絶えず捜索されており、人々をパニックに陥れています。...

マイクロモード動的顔認識制御システムソリューション

マイクロモードの動的顔認識制御システム、インテリジェントビデオ監視は、元のビデオ監視に基づいてインテ...

自動運転技術が盛んに進歩していますが、実際に道路上で実用化されるまでにはどれくらい時間がかかるのでしょうか?

自動運転の概念は、誕生以来、常に資本家や技術起業家が好む分野のひとつでした。新しいインフラと5G商用...

超大型モデルの登場でAIはゲームオーバーになるのか?ゲイリー・マーカス:道は狭くなっている

最近、人工知能技術は大規模モデルにおいて飛躍的な進歩を遂げています。昨日、Google が提案した ...

MLCommonsがAI安全ワーキンググループを発表

人工知能ベンチマーク組織 MLCommons は、人工知能安全性 (AIS) ワーキング グループの...

IoT、分析、AI – デジタル化の勝利のトリオ

デジタル化が進む世界では、すべてがスピードと個々の顧客ニーズの特定と対応を中心に展開されます。サービ...

Nature: MITの研究者が量子処理と量子通信を組み合わせた巨大原子を作製

量子コンピュータは常に神秘的で「ハイエンド」な存在でした。中国科学院の院士である潘建偉氏はかつて、次...

ビル・ゲイツがダボス会議でAIについて語る: プログラマーはAIを使って生産性を50%向上させた

ダボスで開催された世界経済フォーラムで、マイクロソフトの元社長兼CEOのビル・ゲイツ氏が、ヤフー・フ...

百度AIシティが上海と契約を締結、インテリジェントイノベーションで上海に新たな伝説を刻む

11月27日、百度は上海市政府と戦略的協力枠組み協定を締結した。上海市党委員会書記の李強氏と市党委員...

...

ソフトウェア開発に AI とアジャイル管理を導入するための 9 つのヒント

[51CTO.com クイック翻訳] ご存知のとおり、人工知能 (AI) は 1956 年の誕生以来...