携帯電話のビデオの最大の問題は揺れですが、AIだけがそれを救えます

携帯電話のビデオの最大の問題は揺れですが、AIだけがそれを救えます

携帯電話でビデオを撮影するときの最大の問題は何ですか?

振る……

ビデオのジッターは緊急に解決する必要がある大きな問題のようです。

最近の研究では、ビデオのジッターの問題を効果的に解決できる可能性があります。その効果は次の通りです:

写真からわかるように、右側の動画は揺れが大幅に軽減されており、早歩きしながらの撮影でもそれほど眩しく見えません。

混雑した公共の場所で撮影されたビデオと比較すると、右側のアニメーション画像は明らかにはるかに安定しています。

導入

YouTube、Vimeo、Instagram などのオンライン プラットフォームでのビデオ コンテンツの急速な増加に伴い、ビデオの安定化がますます重要になっています。専門的なビデオ安定化装置を使用せずに撮影された携帯電話のビデオは、不安定で視聴に適さないことが多く、ビデオ安定化アルゴリズムにとって大きな課題となります。既存のビデオ安定化方法では、フレーム境界のアクティブなクロッピングが必要になるか、安定化されたフレームに歪みアーティファクトが生成されます。

では、ビデオの揺れの問題を解決し、安定したビデオ撮影効果を生み出すにはどうすればよいでしょうか?国立台湾大学、Google、バージニア工科大学、カリフォルニア大学マーセド校の研究者らは、切り取りを必要としないフルフレームのビデオ安定化アルゴリズムを提案した。

論文の宛先:
出典:http://arxiv.org/pdf/2102.06205.pdf

プロジェクトアドレス:
https://github.com/alex04072000/NeRViS

具体的には、本研究では、密な歪み場を推定することでフルフレームのビデオを安定化するアルゴリズムを提案しました。このアルゴリズムは、隣接するフレームの歪んだコンテンツを融合し、フルフレームの安定化フレームを合成することができます。このアルゴリズムのコア技術は学習ベースのハイブリッド空間融合であり、不正確なオプティカルフローや高速移動する物体によって引き起こされるアーティファクトの影響を軽減できます。研究者らは、NUS および自撮りビデオ データセットでこの方法の有効性を検証しました。さらに、広範囲にわたる実験結果により、提案された方法が従来のビデオ安定化方法よりも優れていることが実証されています。

この研究の主な貢献は次のとおりです。

ニューラル レンダリング技術をビデオ安定化に適用して、フローの不正確さに対する感度を軽減します。

複数のフレームからの情報を特徴レベルと画像レベルの両方で組み合わせるハイブリッド融合メカニズムが提案され、さまざまな設計上の選択がアブレーション研究を通じて体系的に検証されます。

提案された方法は、2 つの公開データセットにおける代表的なビデオ安定化技術と比較して優れたパフォーマンスを実現します。

アルゴリズムの実装

本研究で提案されたビデオ安定化方法は、一般的に 1) 動きの推定、2) 動きのスムージング、3) フレームのワーピングとレンダリングの 3 つの段階に分かれています。この研究では、トリミングなしで高品質のフレームをレンダリングする第 3 段階に焦点を当てています。このアルゴリズムは、特定の動き推定/スムージング技術に依存しません。

実際のカメラ空間から仮想カメラ空間へのワープ フィールドがビデオのすべてのフレームで利用可能であると想定します。与えられた入力ビデオに対して、まず各フレームの画像特徴をエンコードし、特定のターゲットタイムスタンプで隣接するフレームを仮想カメラ空間にワープし、次に特徴を融合して安定したフレームをレンダリングします。

図 3: 複数のフレームを融合するための設計上の選択肢。

フルフレームの安定化ビデオを合成するには、入力された不安定なビデオ内の複数の隣接するフレームの内容を整列させて融合する必要があります。図 3 に示すように、主に 3 つの部分が含まれます。

従来のパノラマ画像ステッチング(または画像ベースのレンダリング)方法では、通常、歪んだ(安定化された)画像を画像レベルで融合します。画像レベルの融合は、位置合わせが正確な場合にはうまく機能しますが、フロー推定が信頼できない場合は混合アーティファクトが発生する可能性があります。

画像は抽象的な CNN 特徴にエンコードされ、特徴空間で融合され、デコーダーは融合された特徴を出力フレームに変換するように学習されます。このアプローチはフローの不正確さに対して堅牢ですが、通常は過度にぼやけた画像が生成されます。

この研究で提案されたアルゴリズムは、これら 2 つの戦略の利点を組み合わせたものです。まず、抽象的な画像特徴を抽出し(式(6))、次に複数のフレーム歪みの特徴を融合する。各ソース フレームについて、融合された特徴マップと個々のワープされた特徴が一緒にデコードされ、出力フレームと関連する信頼度マップが生成されます。最後に、式(8)で生成された画像の加重平均を使用して、最終的な出力フレームを生成します。

歪みと融合

ワープ: 隣接するフレームをワープして、仮想カメラ空間内のターゲット フレームに合わせます。ターゲット フレームからキー フレームへのワープ フィールドと、キー フレームから隣接フレームへの推定オプティカル フローがすでにあるため、フロー ベクトルをリンクすることで、ターゲット フレームから隣接フレームへのワープ フィールドを計算できます。したがって、後方ワーピングを使用すると、隣接するフレーム I_n をターゲット フレームに合わせるようにワープできます。

ターゲット フレーム内の一部のピクセルは、遮蔽または境界の外側にあるため、隣接するフレームでは表示されません。したがって、各隣接フレームの可視性マスク {}∈ω を計算して、ソース フレーム内のピクセルが有効かどうか (1 としてマークされているかどうか) を示します。この研究では、[Sundaram et al. 2010]の方法を使用して、遮蔽されたピクセル(0としてマーク)を識別しました。

融合スペース: 整列したフレームを処理するために、いくつかの融合戦略が検討されます。まず、図3(a)に示すように、画像空間でワープされたカラーフレームを直接ブレンドして、安定した出力フレームを生成します。この画像空間融合方法は、画像ステッチ、ビデオ補間、新しい視点の合成でよく使用されます。

画像空間と特徴空間の最適な融合を組み合わせるために、本研究ではビデオ安定化のためのハイブリッド空間融合メカニズムを提案した(図3(c)) 。特徴空間融合と同様に、この研究ではまず隣接する各フレームから高次元の特徴を抽出し、次にフローを使用して特徴を歪めます。次に、特徴を最適に融合する混合重みを予測するように CNN を学習します。研究者たちは、融合された特徴マップと各隣接フレームの歪んだ特徴を連結して、画像デコーダーの入力を形成します。画像デコーダーは、ターゲット フレームと各隣接フレームの信頼マップを予測することを学習します。最後に、画像空間融合法を使用して、予測重みに従ってすべての予測ターゲット フレームを融合し、最終的な安定したフレームを取得します。

ハイブリッド空間融合と特徴空間融合の主な違いは、画像デコーダーの入力にあります。下の図5(b)の画像デコーダーは、融合された特徴のみを入力として受け取り、出力フレームを予測します。融合された特徴マップには、すでに複数のフレームからの混合情報が含まれています。したがって、画像デコーダーが鮮明な画像コンテンツを合成することが困難になる可能性があります。対照的に、図5(c)の画像デコーダーは、融合された特徴マップに基づいて、歪んだ特徴からターゲットフレームを再構築します。経験的研究により、これによりゴーストやグリッチアーティファクトを回避しながら出力フレームの鮮明度が向上することが判明しました。

図 5: 異なるブレンド スペースの効果。

実験結果

制御変数実験

融合機能。この研究では、画像空間融合、特徴空間融合、ハイブリッド空間融合を使用して提案モデルをトレーニングしました。画像の空間融合については、この研究には、マルチバンド融合とグラフカットという 2 つの従来の融合方法も含まれています。結果は以下の表1に示されています。

定量評価

この研究では、以前に提案されたいくつかの SOTA ビデオ安定化アルゴリズムを使用して提案された方法を評価し、その結果を以下の表 4 に示します。

視覚的な比較

この研究で使用された方法の安定したフレームワークと、Selfie データセットの最先端の方法を以下の図 10 に示します。この方法では、視覚的なアーティファクトが少ないフルフレームの安定化ビデオが生成されます。

図 10: SOTA メソッドとの視覚的な比較。

結果は、本研究で提案された融合方法はフレーム境界の大幅な切り取りの影響を受けず、安定したフレームをレンダリングする際のアーティファクトが DIFRINT よりも大幅に少ないことを示しています。

実行時間分析

この研究では、CPUベースの方法[Grundmann et al. 2011; Liu et al. 2013; Yu and Ramamoorthi 2018]とi7-8550U CPUラップトップの実行時間に関する実験を実施しました。さらに、この研究では、GPU ベースの方法 [Choi and Kweon 2020; Wang et al. 2018; Yu and Ramamoorthi 2020] と Nvidia Tesla V100 GPU での実行時間についても実験しました。テストビデオのフレーム解像度は 854×480 です。結果は以下の表5に示されています。

<<:  レストランロボットの準備はできていますか?それが答えかもしれない

>>:  将来、人工知能に置き換えられない仕事が最も収益性が高くなるでしょう。それがどれか見てみましょう。

ブログ    
ブログ    
ブログ    

推薦する

人工知能の時代、3つの問題が未来を決定づける

学習と進化ご存知のとおり、量子という概念は120年前にドイツの物理学者プランクによって提唱されました...

【就職活動】データサイエンスと機械学習のための最も包括的な面接ガイド

[[234501]]この記事では、データサイエンスと機械学習の面接で遭遇する可能性のあるさまざまな質...

...

...

自動運転車がコーナーを「見通し」できるようにする

自動運転車がその名に恥じない性能を発揮するには、満たすべき要件が数多くありますが、環境の認識と理解が...

Nature: 機械視覚による行動理解と脳神経の間には本質的なつながりがあるのでしょうか?上海交通大学のLu Cewu氏のチームはマッピングモデルを構築した

被験者が特定の行動をとったとき、その脳はそれに対応する安定した脳神経パターンのマッピングを生成するで...

...

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

[[403820]]この記事はWeChat公式アカウント「DATA STUDIO」から転載したもの...

デジタル経済は新たな時代へ:インターネットが主導権を握り、ビッグデータと人工知能が注目の的

[[208505]]強固な経済基盤がなければ、豊かな国と強い国民は実現できません。中国共産党第19回...

機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

01 機械学習アルゴリズム1. 分類アルゴリズムこれは教師あり学習法です。 K 最近傍法、決定木、単...

IDC: 生成型AIへの世界的な支出は2027年に1,430億ドルに達する

IDC は最近、世界中の企業による生成 AI サービス、ソフトウェア、インフラストラクチャへの支出が...

工業情報化部の李英査察官:我が国の人工知能の発展は歴史的な好機を迎えている

[[253791]]工業情報化部情報技術・ソフトウェアサービス局検査官 李英氏李英氏は、一連の措置を...

...

1ペニーに30,000円入るんですか?コーネル大学、人体に埋め込める「ゾウリムシ」センサーを開発

[[323586]]神学者たちは長い間、非常に退屈な問題について議論してきました。それは、「ピンの先...