2枚の写真から動画が作れます！ Googleが提案したFLIMフレーム補間モデル

フレーム補間は、コンピュータービジョンの分野における重要なタスクです。モデルは、指定された 2 つのフレームに基づいて滑らかな中間画像を予測して合成する必要があります。また、現実世界でも大きな応用価値を持っています。

フレーム補間の一般的な応用シナリオは、フレームレートが不十分なビデオを改善することです。一部のデバイスには、入力ビデオのフレームレートをサンプリングする専用のハードウェアが搭載されているため、低フレームレートのビデオを「フレームを埋めるために点滅させる」ことなく、高フレームレートのディスプレイでスムーズに再生できます。

ディープラーニングモデルがより強力になるにつれて、フレーム補間テクノロジによって通常のフレームレートのビデオからスローモーションビデオを合成できるようになり、つまり、より多くの中間画像を合成できるようになります。

スマートフォンの普及が進むにつれ、デジタル写真撮影においてもフレーム補間技術に対する新たな需要が生まれています。

通常、写真を撮るときは、数秒以内に連続して数枚の写真を撮り、その中からより良い「写真チート」を選択します。

このタイプの絵の特徴は、基本的に場面が繰り返され、主人公の動きや表情にわずかな変化があるだけです。

このタイプの画像にフレーム補間を実行すると、写真が動いてビデオに変わるという魔法のような効果が発生します。通常、ビデオは写真よりも臨場感があり、タイムリーです。

まるで「生写真」のような感じでしょうか？

しかし、フレーム補間の大きな問題は、大規模なシーンでの動きを効果的に処理できないことです。

従来のフレーム補間はフレームレートのアップサンプリングを伴い、基本的にはほぼ繰り返しの写真を補間することになります。2枚の写真の時間間隔が1秒以上ある場合、フレーム補間モデルは物体の動きのパターンを理解する必要があり、これが現在のフレーム補間モデルの主な研究内容でもあります。

最近、Google Research チームは、動きの差が大きい 2 枚の写真に対してフレーム補間を実行できる新しいフレーム補間モデル FLIM を提案しました。

従来のフレーム補間モデルは複雑になる傾向があり、光学フローや深度を推定するために複数のネットワークと、フレーム合成専用の別のネットワークが必要でした。 FLIM は統合ネットワークのみを必要とし、マルチスケールの特徴抽出器を使用し、すべてのスケールでトレーニング可能な重みを共有し、オプティカルフローや深度データなしでフレームのみでトレーニングできます。

FLIM の実験結果も、これまでの研究結果よりも優れていることを証明しています。高品質の画像を合成でき、生成されたビデオはより一貫性があります。コードと事前トレーニング済みモデルは両方ともオープンソースです。

論文アドレス: https://arxiv.org/pdf/2202.04901 コードアドレス: https://github.com/google-research/frame-interpolation

モデルアーキテクチャ

FLIM モデルのアーキテクチャには、主に 3 つの段階があります。

1. スケールに依存しない特徴抽出

FLIM の特徴抽出器の主な機能は、フロー予測段階での重み共有であり、これにより、粗粒度と細粒度の両方の解像度で重みを取得できます。

まず、2 つの入力画像に対して画像ピラミッドを作成します。次に、共有 UNet エンコーダーを使用して画像ピラミッドの各層に特徴ピラミッドを構築し、畳み込み層を使用して 4 つのスケールの特徴を抽出します。ピラミッドレベルの同じ深さでは、互換性のあるマルチスケール機能を作成するために同じ畳み込み重みが使用されることに注意することが重要です。

特徴抽出器の最後のステップでは、深さは異なるが同じ空間次元の特徴マップを連結して、スケールに依存しない特徴ピラミッドを構築します。最も細かい特徴は 1 つの特徴マップのみを集約でき、次に細かい特徴は 2 つの特徴マップを集約でき、残りは 3 つの共有特徴マップを集約できます。

2. 動き/流れの推定

特徴ピラミッドを抽出した後、各ピラミッドの双方向の動きを計算する必要があります。以前の研究と同様に、動きの推定は最も粗いレイヤーから始まります。他の方法とは異なり、FLIM は中間フレームから入力までのタスク指向のフローを直接予測します。

従来のトレーニング方法に従う場合、グラウンドトゥルース光学フローを使用して 2 つの入力フレーム間の光学フローを計算することは実現可能ではありません。これは、まだ計算されていない中間フレームから光学フローを予測できないためです。しかし、エンドツーエンドのフレーム補間システムでは、ネットワークは実際に入力フレームと対応する特徴ピラミッドに基づいて適切な予測を行うことができます。

したがって、各レベルで計算されるタスク指向のオプティカルフローは、より粗い粒度から予測された残差とアップサンプリングされたフローの合計になります。最後に、FLIM は中間時間 t で特徴ピラミッドを作成します。

3. 融合: 結果画像を出力する（融合）

FILM の最終段階では、各ピラミッドレベルでスケールに依存しない特徴マップと時刻 t における双方向の動きを連結し、それを UNet のようなデコーダーに送り込んで最終的な中間フレームを合成します。

損失関数の設計では、FLIM は画像合成損失のみを使用してトレーニングの最終出力を監視し、中間段階で補助的な損失項を使用しません。

まず、L1 再構成損失を使用して、挿入されたフレームと標準フレーム間のピクセルレベルの RGB の差を最小限に抑えます。ただし、L1 損失のみを使用すると、生成された挿入フレームは通常ぼやけてしまい、他の同様の損失関数を使用してトレーニングすると、同様の結果が生成されます。

そこで FLIM は、VGG-19 の高レベル特徴 L1 正規化表現を使用して、画像の詳細を増やすために 2 番目の損失関数である知覚損失を追加します。各層の受容野により、知覚損失は各出力ピクセルの周囲の狭い範囲で構造の類似性を強制します。実験では、知覚損失がさまざまな画像合成タスクにおけるぼやけたアーティファクトの削減に役立つことも示されています。

3 番目の損失はスタイル損失であり、グラムマトリックス損失とも呼ばれ、VGG 損失の利点をさらに拡大できます。

FLIM は、グラム行列損失をフレーム補間に適用した最初の研究でもあります。研究者たちは、この損失が画像の鮮明さに対処し、不透明度がある場合でも画像の詳細を維持し、動きの多いシーケンスでの干渉を除去するのに効果的であることを発見しました。高いベンチマークスコアと高品質の中間フレーム合成を実現するために、最終損失では 3 つの損失の加重合計を同時に使用し、各損失の重みは研究者によって経験的に設定されます。最初の 150 万回の反復における重みは (1, 1, 0) であり、次の 150 万回の反復における重みは (1, 0.25, 40) です。ハイパーパラメータはグリッド検索によって自動的に調整されます。

実験セクション

研究者らは、メトリックの定量化と生成品質という 2 つの側面から FLIM ネットワークを評価しました。使用されるデータセットには、Vimeo-90K、UCF101、Middlebury、および最近提案された大規模なモーションデータセット Xiph が含まれます。

研究者らは、Vimeo-90K をトレーニングデータセットとして使用しました。定量的な指標としては、ピーク信号対雑音比（PSNR）や構造類似性画像（SSIM）などがあり、スコアが高いほど効果も高くなります。

知覚と歪みのトレードオフは、PSNR や SSIM などの歪みメトリックを単純に最小化すると、知覚品質に悪影響を与える可能性があることを示しています。フレーム補間研究の複数の目標は、歪みが少なく、知覚品質が高く、時間的に一貫したビデオを実現することです。そのため、研究者らは論文で提案されたグラム行列損失 LS を使用してモデルを最適化しました。これは歪みと知覚品質の両方に優れています。

知覚に敏感な損失を考慮すると、FILM は Vimeo-90K で最先端の SoftSplat よりも優れたパフォーマンスを発揮します。ミドルベリーとUCF101でもトップスコアを獲得しました。

品質比較では、まず鮮明さの観点から、グラム行列ベースの損失関数が画像の鮮明さを維持する有効性を評価するために、FLIM によって生成された結果を他の方法で提示された画像と視覚的に比較しました。他の方法と比較して、FLIM 合成の結果は非常に良好で、顔画像の詳細が鮮明で、指の関節が保持されます。

フレーム補間では、遮蔽されたピクセルのほとんどが入力フレーム内に表示される必要があります。動きの複雑さによっては、一部のピクセルが入力から利用できない場合があります。したがって、ピクセルを効果的にマスクするには、モデルが適切な動きを学習するか、新しいピクセルを生成する必要があります。その結果、FILM は他の方法と比較して鮮明さを維持しながらピクセルを正しく描画していることがわかります。また、赤いおもちゃの車などのオブジェクトの構造も保存されます。 SoftSplat は歪んでおり、ABME はぼやけたピクチャーインピクチャーを生成しました。

大きな動きはフレーム補間の最も難しい部分の 1 つです。モーション検索範囲を拡大するために、モデルでは通常、マルチスケール手法または高密度特徴マップを採用して、モデルのニューラル容量を増やします。他のアプローチでは、大規模なモーションデータセットをトレーニングすることでこれを実現します。実験結果によると、SoftSplat と ABME は犬の鼻の近くの動きを捉えることができましたが、地面に大きなアーティファクトが生成されました。 FILM の利点は、動きをうまく捉え、背景の詳細を維持できることです。

<<: ロボット工学は良いが、誇張しすぎるのは良くない

>>: 人工知能はブロックチェーンにどのような影響を与えるのでしょうか?