脚本を書いて、AIが動画を自動編集：編集者の7時間かけて作成した動画を13分で完成

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

カメラの切り替えも自然で、リズムも速かったり遅かったり。このようなハイクオリティな動画を作るには、プロのどのような編集スキルが必要なのでしょうか？

答えは、切る必要はなく、書き方を知っておくだけでよいということです。

たとえば、キリンに関するクリップを編集するには、AI に次のように指示するだけです。

キリンは世界で最も背の高い動物であり、その長い脚と首でよく知られています。

キリンは世界で最も背の高い動物であり、長い脚と首で有名です。

首には茶色のたてがみがあり、頭には毛むくじゃらの角が2本生えています。

首の周りには茶色のたてがみがあり、頭には毛むくじゃらの角が2本生えています。

AIは次の写真を自動編集できます。

まずはキリンの群れの全体像をお見せしましょう。次にカメラは走るキリンに切り替わり、その長い脚と首が披露される。指示に従ってたてがみと角をクローズアップして撮影すれば完成です。

はい、映像を選択してフレームごとに切り替えるのに苦労する必要はもうありません。

頭の中にあるクリエイティブなアイデアを短いテキストに変換するだけで、Write-A-Videoと呼ばれるこのAIがあなたの心を読み取り、素材の選択から編集までワンストップで創作を完了します。

これは北京航空航天大学、清華大学、ハーバード大学、イスラエルのヘルツリーヤ学際研究センターの科学者らが共同で開発した最新のAIアーティファクトで、テーマに沿ったスクリプトのみで動画を生成できる。

テキスト付きのビデオを作成する

さて、材料が準備できたので、Write-A-Video がどのようにビデオを「作成」するかを見てみましょう。

全体のプロセスは3つのステップに分かれています。

最初のステップでは、ユーザーはテキスト形式で入力を行います。 Write-A-Video は文章内のキーワードを抽出します。

2 番目のステップでは、Write-A-Video はキーワードを使用して、素材ライブラリ内で一致する候補クリップを選択します。

テキストとショット間の視覚的セマンティックマッチングには、主にキーワードマッチングと視覚的セマンティックエンベディングの 2 つのステップが含まれます。

まず、AIはスクリプトに従って、キーワードがタグ付けされたすべてのビデオ映像をライブラリから取得します。

ライブラリ内のすべてのビデオは、意味的なマッチングを容易にするためにスナップショットに分割されており、ユーザーは映画の用語を使用して、ビデオ編集の次のステップで AI 作成をガイドできます。

Write-A-Video の作者である北京航空航天大学の王妙教授は、Write-A-Video では、ユーザーが入力テキストで映画用語を使用して、映画のリズムや画像の動きを調整するなど、各シーンのさまざまな視覚スタイルを探索できると述べた。

さらに、ヒストグラムベースのセグメンテーションアルゴリズムが使用されます。HSV カラードメイン内のフレーム間のヒストグラムの差が 80% を超え、追跡された SURF キーポイントの 80% 以上が一致しない場合、アルゴリズムはこれらの 2 つのフレームを境界として使用してショットを分割します。

長すぎるショット (>30 秒) や短すぎるショット (<2 秒) も破棄されます。短いショットは見栄えが悪く、長いショットは効率と変動性が低下するためです。

次に、視覚的セマンティック埋め込みテクノロジーが、取得されたショットごとにマッチングスコアを計算し、最も高いランクのショットが候補ショットとして選択されます。

ここで使用される方法は VSE++ です (論文のアドレスについては記事の最後を参照してください)。このアプローチでは、テキストとショットのリンクなど、モデル間のコンテンツを共同機能空間にエンコードできます。

埋め込み空間では、ショットの10フレームごとに1フレームを抽出し、それとテキストとのコサイン類似度を計算します。最後に平均値を取り、それがショットを選択できるかどうかを判断するための最終スコアになります。

3 番目のステップは、これらのショットを組み合わせてビデオ編集を完了することです。

このステップは、実際には Write-A-Video によるレンズのハイブリッド最適化です。そして、独自の美的基準も持っています。

まず第一に、画像は明るく鮮明でなければなりません。

第二に、カメラがあまり揺れてはいけません。

最後に、途切れ途切れのジャンプカットや矛盾したカメラの動きを避けてください。

Write-A-Video は非常にユーザーフレンドリーであることは特筆に値します。

テキストの追加、削除、文章の移動などのテキスト編集により、対応するショットの検索、カット、並べ替えなどを行うことができます。コードの書き方を知る必要はもちろん、編集スキルを習得する必要もありません。

それだけでなく、下のビデオでは、入力したテキストをナレーションに変換して映画の雰囲気を高めることができることがわかります。

また、ナレーションと映像が完全に同期しており、対応も非常に自然です。バッキンガム宮殿の話になると、カメラは自然とバッキンガム宮殿の門に向けられました。王室衛兵について言及されたとき、写真には王室衛兵がパフォーマンスをしている様子が写っていました。

研究チームによると、市販のフレーム単位のビデオ編集ソフトと比較すると、Write-A-Video を使用すると作成がはるかに速くなるとのことです。

Write-A-Video を使用すると、初心者でもプロの編集者と同等の品質で、はるかに速いスピード (13 分: 7 時間) でビデオ編集タスクを完了できます。

先日終了したSIGGRAPH Asia 2019カンファレンスで、研究チームはWrite-A-Videoの成果を報告し、実演しました。これは国際的な同業者から広く認められました。

北京航空航天と清華大学チームが制作

Write-A-Video の第一著者である Miao Wang 博士は現在、北京航空航天大学の仮想現実技術およびシステム国家重点実験室で研究助手および修士課程の指導者を務めています。

[[283538]]

彼は西安電電大学で学士号を取得し、2016年に清華大学で博士号を取得しました。清華大学では、論文の責任著者である清華大学コンピューターサイエンス学部の胡世民教授の指導を受けました。

論文の著者の一人である楊国偉氏は、このプロジェクトに参加した当時はまだ学部生だった。現在は清華大学コンピューターサイエンス学部で博士号取得を目指している。

他の2人の著者は、フィールズ賞受賞者でハーバード大学教授、中国系アメリカ人数学者のシン・トン・ヤウ氏と、イスラエルのヘルツリーヤ学際研究センター所長のアリエル・シャミール氏である。

<<: 顔認識の急速な発展は落ち着くはずだ

>>: 第四次産業革命：人工知能

ブログ

自動駐車を徹底研究！業界標準の動向、評価指標、システム紹介まであらゆる角度から収集！

脚本を書いて、AIが動画を自動編集：編集者の7時間かけて作成した動画を13分で完成

テキスト付きのビデオを作成する

北京航空航天と清華大学チームが制作

自動駐車を徹底研究！業界標準の動向、評価指標、システム紹介まであらゆる角度から収集！

AIを使ってAIを評価する上海交通大学の新しい大規模モデルは、いくつかのタスクでGPT-4を上回り、モデルデータはオープンソースです

中国が独自開発したプライバシーコンピューティングTEE技術が金融技術製品認証に合格し、アントグループが研究開発をリード

海外メディア：GoogleはマーケティングのためにGeminiをリリースしたが、依然としてGPT-4に遅れをとっている

SQL Serverは最短経路検索アルゴリズムを実装しています

ガートナー 2019 人工知能成熟サイクルのトレンド

自動運転の時代において、ハッカーがあなたの車を破壊し、あなたを殺す方法はいくつあるでしょうか?

ImageNet の最高スコアを更新しましょう! Google Brain 中国研究者がスーパートランスフォーマーをリリース

ロボットはすべてレンガを動かしているのでしょうか?人工知能は失業の波を引き起こすでしょうか？

推薦する

Python による AI 音声クローン作成のエンドツーエンドガイド

史上最も包括的な解釈 | PaddlePaddleモデルライブラリが大幅にアップグレードされ、主流のアルゴリズムモデルをすべてカバーしています

中国の「データブリックス」：AIインフラの構築に真剣に取り組む

マッキンゼー：2024年にGenAIが人工知能のビジネス界を支配する

公安部：「AI顔変え」事件79件を摘発、容疑者515人を逮捕

APOS A5は従業員の健康情報登録管理をインテリジェントに強化します

ディープラーニングにも格闘技カンファレンスがある！ 8つのテクノロジーの巨人：私の学派はAGIを実現できる

WidthFormer: リアルタイム自動運転！変圧器ベースのBEVソリューションの量産を支援

AIの次の目的地：リアルタイムサービス

5秒間のモバイル猫動画でも猫の3Dモデルを再構築できる。Metaは変形した物体をモデリングするための新しいアルゴリズムを提案