フレーム補間は、コンピューター ビジョンの分野における重要なタスクです。モデルは、指定された 2 つのフレームに基づいて滑らかな中間画像を予測して合成する必要があります。また、現実世界でも大きな応用価値を持っています。
フレーム補間の一般的な応用シナリオは、フレーム レートが不十分なビデオを改善することです。一部のデバイスには、入力ビデオのフレーム レートをサンプリングする専用のハードウェアが搭載されているため、低フレーム レートのビデオを「フレームを埋めるために点滅させる」ことなく、高フレーム レートのディスプレイでスムーズに再生できます。 ディープラーニング モデルがより強力になるにつれて、フレーム補間テクノロジによって通常のフレーム レートのビデオからスローモーション ビデオを合成できるようになり、つまり、より多くの中間画像を合成できるようになります。 スマートフォンの普及が進むにつれ、デジタル写真撮影においてもフレーム補間技術に対する新たな需要が生まれています。 通常、写真を撮るときは、数秒以内に連続して数枚の写真を撮り、その中からより良い「写真チート」を選択します。 このタイプの絵の特徴は、基本的に場面が繰り返され、主人公の動きや表情にわずかな変化があるだけです。 このタイプの画像にフレーム補間を実行すると、写真が動いてビデオに変わるという魔法のような効果が発生します。通常、ビデオは写真よりも臨場感があり、タイムリーです。 まるで「生写真」のような感じでしょうか?
しかし、フレーム補間の大きな問題は、大規模なシーンでの動きを効果的に処理できないことです。 従来のフレーム補間はフレームレートのアップサンプリングを伴い、基本的にはほぼ繰り返しの写真を補間することになります。2枚の写真の時間間隔が1秒以上ある場合、フレーム補間モデルは物体の動きのパターンを理解する必要があり、これが現在のフレーム補間モデルの主な研究内容でもあります。
最近、Google Research チームは、動きの差が大きい 2 枚の写真に対してフレーム補間を実行できる新しいフレーム補間モデル FLIM を提案しました。
従来のフレーム補間モデルは複雑になる傾向があり、光学フローや深度を推定するために複数のネットワークと、フレーム合成専用の別のネットワークが必要でした。 FLIM は統合ネットワークのみを必要とし、マルチスケールの特徴抽出器を使用し、すべてのスケールでトレーニング可能な重みを共有し、オプティカルフローや深度データなしでフレームのみでトレーニングできます。 FLIM の実験結果も、これまでの研究結果よりも優れていることを証明しています。高品質の画像を合成でき、生成されたビデオはより一貫性があります。コードと事前トレーニング済みモデルは両方ともオープンソースです。 論文アドレス: https://arxiv.org/pdf/2202.04901 コードアドレス: https://github.com/google-research/frame-interpolation モデルアーキテクチャFLIM モデルのアーキテクチャには、主に 3 つの段階があります。
1. スケールに依存しない特徴抽出FLIM の特徴抽出器の主な機能は、フロー予測段階での重み共有であり、これにより、粗粒度と細粒度の両方の解像度で重みを取得できます。 まず、2 つの入力画像に対して画像ピラミッドを作成します。次に、共有 UNet エンコーダーを使用して画像ピラミッドの各層に特徴ピラミッドを構築し、畳み込み層を使用して 4 つのスケールの特徴を抽出します。 ピラミッド レベルの同じ深さでは、互換性のあるマルチスケール機能を作成するために同じ畳み込み重みが使用されることに注意することが重要です。 特徴抽出器の最後のステップでは、深さは異なるが同じ空間次元の特徴マップを連結して、スケールに依存しない特徴ピラミッドを構築します。最も細かい特徴は 1 つの特徴マップのみを集約でき、次に細かい特徴は 2 つの特徴マップを集約でき、残りは 3 つの共有特徴マップを集約できます。 2. 動き/流れの推定特徴ピラミッドを抽出した後、各ピラミッドの双方向の動きを計算する必要があります。以前の研究と同様に、動きの推定は最も粗いレイヤーから始まります。他の方法とは異なり、FLIM は中間フレームから入力までのタスク指向のフローを直接予測します。 従来のトレーニング方法に従う場合、グラウンドトゥルース光学フローを使用して 2 つの入力フレーム間の光学フローを計算することは実現可能ではありません。これは、まだ計算されていない中間フレームから光学フローを予測できないためです。しかし、エンドツーエンドのフレーム補間システムでは、ネットワークは実際に入力フレームと対応する特徴ピラミッドに基づいて適切な予測を行うことができます。 したがって、各レベルで計算されるタスク指向のオプティカル フローは、より粗い粒度から予測された残差とアップサンプリングされたフローの合計になります。 最後に、FLIM は中間時間 t で特徴ピラミッドを作成します。 3. 融合: 結果画像を出力する(融合)FILM の最終段階では、各ピラミッド レベルでスケールに依存しない特徴マップと時刻 t における双方向の動きを連結し、それを UNet のようなデコーダーに送り込んで最終的な中間フレームを合成します。 損失関数の設計では、FLIM は画像合成損失のみを使用してトレーニングの最終出力を監視し、中間段階で補助的な損失項を使用しません。 まず、L1 再構成損失を使用して、挿入されたフレームと標準フレーム間のピクセル レベルの RGB の差を最小限に抑えます。ただし、L1 損失のみを使用すると、生成された挿入フレームは通常ぼやけてしまい、他の同様の損失関数を使用してトレーニングすると、同様の結果が生成されます。 そこで FLIM は、VGG-19 の高レベル特徴 L1 正規化表現を使用して、画像の詳細を増やすために 2 番目の損失関数である知覚損失を追加します。各層の受容野により、知覚損失は各出力ピクセルの周囲の狭い範囲で構造の類似性を強制します。実験では、知覚損失がさまざまな画像合成タスクにおけるぼやけたアーティファクトの削減に役立つことも示されています。
3 番目の損失はスタイル損失であり、グラム マトリックス損失とも呼ばれ、VGG 損失の利点をさらに拡大できます。
FLIM は、グラム行列損失をフレーム補間に適用した最初の研究でもあります。研究者たちは、この損失が画像の鮮明さに対処し、不透明度がある場合でも画像の詳細を維持し、動きの多いシーケンスでの干渉を除去するのに効果的であることを発見しました。 高いベンチマークスコアと高品質の中間フレーム合成を実現するために、最終損失では 3 つの損失の加重合計を同時に使用し、各損失の重みは研究者によって経験的に設定されます。最初の 150 万回の反復における重みは (1, 1, 0) であり、次の 150 万回の反復における重みは (1, 0.25, 40) です。ハイパーパラメータはグリッド検索によって自動的に調整されます。 実験セクション研究者らは、メトリックの定量化と生成品質という 2 つの側面から FLIM ネットワークを評価しました。 使用されるデータセットには、Vimeo-90K、UCF101、Middlebury、および最近提案された大規模なモーション データセット Xiph が含まれます。 研究者らは、Vimeo-90K をトレーニング データセットとして使用しました。 定量的な指標としては、ピーク信号対雑音比(PSNR)や構造類似性画像(SSIM)などがあり、スコアが高いほど効果も高くなります。
知覚と歪みのトレードオフは、PSNR や SSIM などの歪みメトリックを単純に最小化すると、知覚品質に悪影響を与える可能性があることを示しています。フレーム補間研究の複数の目標は、歪みが少なく、知覚品質が高く、時間的に一貫したビデオを実現することです。そのため、研究者らは論文で提案されたグラム行列損失 LS を使用してモデルを最適化しました。これは歪みと知覚品質の両方に優れています。 知覚に敏感な損失を考慮すると、FILM は Vimeo-90K で最先端の SoftSplat よりも優れたパフォーマンスを発揮します。ミドルベリーとUCF101でもトップスコアを獲得しました。
品質比較では、まず鮮明さの観点から、グラム行列ベースの損失関数が画像の鮮明さを維持する有効性を評価するために、FLIM によって生成された結果を他の方法で提示された画像と視覚的に比較しました。他の方法と比較して、FLIM 合成の結果は非常に良好で、顔画像の詳細が鮮明で、指の関節が保持されます。
フレーム補間では、遮蔽されたピクセルのほとんどが入力フレーム内に表示される必要があります。動きの複雑さによっては、一部のピクセルが入力から利用できない場合があります。したがって、ピクセルを効果的にマスクするには、モデルが適切な動きを学習するか、新しいピクセルを生成する必要があります。その結果、FILM は他の方法と比較して鮮明さを維持しながらピクセルを正しく描画していることがわかります。また、赤いおもちゃの車などのオブジェクトの構造も保存されます。 SoftSplat は歪んでおり、ABME はぼやけたピクチャーインピクチャーを生成しました。
大きな動きはフレーム補間の最も難しい部分の 1 つです。モーション検索範囲を拡大するために、モデルでは通常、マルチスケール手法または高密度特徴マップを採用して、モデルのニューラル容量を増やします。他のアプローチでは、大規模なモーション データセットをトレーニングすることでこれを実現します。実験結果によると、SoftSplat と ABME は犬の鼻の近くの動きを捉えることができましたが、地面に大きなアーティファクトが生成されました。 FILM の利点は、動きをうまく捉え、背景の詳細を維持できることです。 |
>>: 人工知能はブロックチェーンにどのような影響を与えるのでしょうか?
Andrej Karpathy 氏が嘆くのは、ソフトウェア開発プロセスにおいてコードを直接記述するこ...
クリスマスが近づいてきました。ボストン ダイナミクスから特別なクリスマス ギフトをお届けします。昨日...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
金融分野における人工知能(AI)の応用は、特に株式市場の分析と予測において、幅広い注目と議論を集めて...
昨日、GPT-4 がなぜ「知能を低下させた」のかを体系的に研究した論文が、AI 界で幅広い議論を巻き...
8月29日、国家発展改革委員会、科学技術部、工業情報化部、中国サイバースペース管理局、中国科学院、...
「一人の能力には限界があるが、チームの力は無限である。」この言葉は、現実世界のソフトウェア開発に鮮や...
2024年には、AI技術を取り巻くより困難な問題のいくつかを解決するための進歩が見られることを期待...
[[190844]] DL の難しさは、問題をどのような視点から見るかによって決まります。数学を勉...
[[319769]]今日、デジタルサイエンスは企業にとってますます魅力的になっています。しかし、デジ...
[[413062]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
Stability AI は、プログラミング用の最初の生成 LLM AI 製品である StableC...
今年、AIプロジェクトのAlphaGoとLibratusが、それぞれ人間の最強の囲碁プレイヤーとポー...