ソラがビデオ世代を爆発させたとき、Metaは中国の著者の主導で、エージェントを使用してビデオを自動的に編集し始めました。

ソラがビデオ世代を爆発させたとき、Metaは中国の著者の主導で、エージェントを使用してビデオを自動的に編集し始めました。

最近、AIビデオの分野は非常に活発になっており、OpenAIが立ち上げた大規模なビデオ生成モデルであるSoraがさらに人気を集めています。ビデオ編集の分野でも、AI、特に大規模モデルを搭載したエージェントがその能力を発揮し始めています。

ビデオ編集に関連するタスクの処理には自然言語が使用されるため、ユーザーは意図を直接伝えることができ、手動による介入が不要になります。しかし、現在、ほとんどのビデオ編集ツールは依然として手動操作に大きく依存しており、カスタマイズされたコンテキストヘルプが不足していることがよくあります。したがって、ユーザーは複雑なビデオ編集の問題を自分で対処することしかできません。

鍵となるのは、共同作業者として機能し、編集プロセスでユーザーを継続的に支援できるビデオ編集ツールをどのように設計するかということです。この記事では、トロント大学、Meta (Reality Labs Research)、カリフォルニア大学サンディエゴ校の研究者が、大規模言語モデル (LLM) の多目的言語機能をビデオ編集に使用することを提案し、手動のビデオ編集プロセスの障害を軽減するための将来のビデオ編集パラダイムを検討しました。

  • 論文タイトル: LAVE: LLM を活用したビデオ編集のためのエージェント支援と言語拡張
  • 論文アドレス: https://arxiv.org/pdf/2402.10294.pdf

具体的には、研究者らは、LLM が提供する一連の言語強化機能を備えたビデオ編集ツール LAVE を紹介しました。 LAVE は、ユーザーの自由形式の言語コマンドを解釈し、ユーザーのクリップ目標を達成するための関連アクションを計画および実行できる LLM ベースの計画および実行エージェントを導入します。エージェントは、概念的な支援(クリエイティブなブレインストーミングやビデオ映像の概要など)と運用上の支援(セマンティックベースのビデオ検索、ストーリーボード作成、クリップのトリミングなど)を提供できます。

これらのエージェントのスムーズな操作を可能にするために、LAVE は視覚言語モデル (VLM) を使用して、ビデオ ビジュアルの言語記述を自動的に生成します。これらの視覚的なナレーションにより、LLM はビデオ コンテンツを理解し、言語能力を使用してユーザーが編集を完了できるように支援できます。さらに、LAVE は、エージェント支援モードと直接操作モードという 2 つのインタラクティブなビデオ編集モードを提供します。デュアル モードにより、ユーザーは柔軟性が得られ、必要に応じてエージェントの操作を改善できます。

LAVEの編集効果は?研究者らは、初心者と経験豊富な編集者を含む 8 人の参加者を対象にユーザー調査を実施し、その結果、参加者は LAVE を使用して満足のいく AI 共同ビデオを制作できることが示されました。

注目すべきは、この研究の著者6人のうち5人が中国人で、筆頭著者でトロント大学コンピューターサイエンスの博士課程の学生であるブライアン・ワン氏、メタ研究科学者のユリアン・リー氏、ザオヤン・ルヴ氏、ヤン・シュー氏、カリフォルニア大学サンディエゴ校の助教授であるハイジュン・シア氏が含まれていることだ。

LAVE ユーザーインターフェース (UI)

まず、下の図 1 に示すように、LAVE のシステム設計を見てみましょう。

LAVE ユーザー インターフェイスは、次の 3 つの主要コンポーネントで構成されています。

  • 自動的に生成された言語の説明付きのビデオクリップを表示する言語拡張ビデオライブラリ。
  • 編集用のメインタイムラインを含むビデオ編集タイムライン。
  • ビデオ クリップ エージェント。これにより、ユーザーは会話エージェントと対話してサポートを受けることができます。

設計ロジックは次のとおりです。ユーザーがエージェントと対話すると、メッセージ交換がチャット UI に表示されます。関連する操作を実行すると、エージェントはビデオ ライブラリとクリップ タイムラインに変更を加えます。さらに、ユーザーは従来の編集インターフェースと同様に、カーソルを使用してビデオライブラリとタイムラインを直接操作できます。

言語強化ビデオライブラリ

言語拡張ビデオ ライブラリの機能を以下の図 3 に示します。

この機能では、従来のツールと同様に、クリップを再生できるだけでなく、各ビデオのセマンティックタイトルや概要などのテキスト説明を自動的に生成する視覚的なナレーションも提供されます。これらのタイトルはクリップを理解して索引付けするのに役立ち、一方、概要は各クリップの視覚的なコンテンツの概要を提供し、ユーザーが独自の編集プロジェクトのストーリーラインを形成するのに役立ちます。各ビデオの下にタイトルと再生時間が表示されます。

さらに、LAVE では、ユーザーがセマンティック言語クエリを使用してビデオを検索することができ、検索されたビデオはビデオ ライブラリに表示され、関連性によって並べ替えられます。この機能は編集エージェントによって実行される必要があります。

ビデオ編集タイムライン

ビデオ ライブラリからビデオを選択して編集タイムラインに追加すると、下の図 2 に示すように、インターフェイスの下部にあるビデオ編集タイムラインに表示されます。タイムライン上の各クリップはボックスで表され、開始フレーム、中間フレーム、終了フレームの 3 つのサムネイル フレームが表示されます。

LAVE システムでは、各サムネイル フレームはクリップ内の 1 秒間の素材を表します。ビデオ ギャラリーと同様に、各クリップにはタイトルと説明が表示されます。 LAVE のクリップ タイムラインには、クリップの順序付けとトリミングという 2 つの主要機能があります。

タイムライン上でクリップを並べ替えることは、ビデオ編集では一般的なタスクであり、一貫性のあるストーリーを作成するために重要です。 LAVE は 2 つのソート方法をサポートしています。LLM ベースのソートはビデオ クリップ エージェントのストーリーボード機能を使用して操作し、手動ソートはユーザーが直接操作して各ビデオ フレームをドラッグ アンド ドロップし、クリップの表示順序を設定することによって行われます。

重要なセグメントを強調表示し、余分なコンテンツを削除するには、ビデオ編集でトリミングも重要です。トリミングする場合、ユーザーはタイムライン内のクリップをダブルクリックします。すると、下の図 4 に示すように、1 秒のフレームを表示するポップアップ ウィンドウが開きます。

ビデオ編集エージェント

LAVE のビデオ編集エージェントは、ユーザーと LLM ベースのエージェント間のやり取りを容易にするチャットベースのコンポーネントです。コマンドライン ツールとは異なり、ユーザーは自由形式の言語を使用してエージェントと対話できます。エージェントは、LLM の言語インテリジェンスを使用してビデオ編集支援を提供し、編集プロセス全体を通じてユーザーをガイドおよび支援するための具体的な応答を提供します。 LAVE のエージェント支援機能はエージェント操作を通じて提供され、各操作ではシステムでサポートされている編集機能を実行します。

全体として、LAVE が提供する機能は、構想や事前計画から実際の編集作業までのワークフロー全体をカバーしていますが、システムは厳密なワークフローを強制するものではありません。ユーザーは、編集の目的に合った機能のサブセットを柔軟に活用できます。たとえば、明確な編集ビジョンと明確に定義されたストーリーラインを持つユーザーは、アイデア創出段階を省略して、すぐに編集作業に進む可能性があります。

バックエンドシステム

この研究では、OpenAI の GPT-4 を使用して、LAVE バックエンド システムの設計を説明します。この設計には、主にエージェントの設計と、LLM によって駆動される編集機能の実装という 2 つの側面が含まれます。

インテリジェントエージェント設計

この研究では、推論、計画、ストーリーテリングを含む LLM (GPT-4) の複数の言語機能を活用して、LAVE エージェントを構築しました。

LAVE エージェントには、計画と実行の 2 つの状態があります。この設定には主に 2 つの利点があります。

  • ユーザーは複数のアクションで構成される高レベルの目標を設定できるため、従来のコマンドライン ツールで必要とされる個々のアクションの詳細を指定する必要がなくなります。
  • 実行前に、エージェントはユーザーに計画を提示し、変更の機会を提供し、ユーザーがエージェントのアクションを完全に制御できるようにします。研究チームは、計画と実行のプロセスを完了するためのバックエンド パイプラインを設計しました。

下の図 6 に示すように、パイプラインはまずユーザー入力に基づいてアクション プランを作成します。次に、プランはテキスト記述から関数呼び出しに変換され、その後対応する関数が実行されます。

LLM駆動型編集機能の実装

ユーザーがビデオ編集タスクを完了できるように、LAVE は主に次の 5 つの LLM 駆動機能をサポートしています。

  • 素材の概要
  • クリエイティブブレインストーミング
  • ビデオ検索
  • ストーリーボード
  • クリップトリミング

最初の 4 つはエージェントからアクセスできます (図 5)。一方、クリップ トリミング機能はタイムラインでクリップをダブルクリックするとアクセスでき、1 秒のフレームを表示するポップアップ ウィンドウが開きます (図 4)。

このうち、言語ベースのビデオ検索はベクトルストレージデータベースを通じて実装され、残りは LLM プロンプトエンジニアリングを通じて実装されます。すべての機能は、ビデオ ライブラリ内の各クリップのタイトルと概要を含む、自動的に生成された生の映像言語の説明に基づいて構築されています (図 3)。研究チームは、これらのビデオのテキストによる説明を「ビジュアルナレーション」と呼んでいます。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  GPT-4 も使用している可能性がある推測的デコードとは何ですか?の過去、現在、応用をまとめた記事

>>: 

ブログ    

推薦する

...

ブロックチェーンにおける主流のコンセンサスアルゴリズムの簡単な分析

プルーフ・オブ・ワーク最も一般的なブロックチェーンのコンセンサス アルゴリズムは、ビットコインのプル...

オイラー誕生!中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

[[255980]]ついに待望の登場です! Alibaba は、主要なオープンソース プロジェクトで...

SurfelGAN でメタバースを作成する車の脳を訓練するためにシムシティを立ち上げるお金がないからですか?

自動運転はディープラーニングの重要な応用分野です。長年にわたる蓄積の結果、現在では科学研究者が AI...

MITとマイクロソフトはAI向けにLeetCodeプログラミング問題集をカスタマイズした

[[407672]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

DeepSpeed ZeRO++: ネットワーク通信を4倍削減し、大規模モデルやChatGPTのようなモデルのトレーニング効率を大幅に向上

大規模な AI モデルがデジタルの世界を変えています。大規模言語モデル (LLM) に基づく Tur...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT を企業の神経系と考えてください。これは、生産工場のあらゆる場所から貴重な情報を収集し...

データサイエンスと人工知能の専門家がプログラミングスキルを向上させる方法

[[379310]]ビッグデータダイジェスト制作出典: medium編集者: Hippoプログラミン...

...

...

人工知能は、電力網とユビキタス電力のIoTの構築と開発にとって重要な方向性となるだろう

[[285204]]現在、モバイルインターネット、ビッグデータ、スーパーコンピューティングなどの新し...

組み込みアルゴリズム CRCチェックアルゴリズム

[[350334]]データ伝送中にエラーが発生することは避けられません。データを受信した後、受信側は...

ファーウェイ成都インテリジェントボディー人工知能サミットフォーラムが成功裏に開催され、ファーウェイは成都の「スマートで美しい成都」の構築を支援

デジタル経済の時代において、クラウド、5G、AI、ビッグデータ、人工知能などの新技術が社会の生産要素...

自然言語処理 (NLP) はコンピューター ビジョン (CV) よりも開発が遅く、より困難です。

[[248743]] 1. 先を行くNLP NLP 開発の歴史は非常に古く、コンピュータが発明され...

...