動きながら描くと、2次元の人物になります:リアルタイムインタラクティブビデオスタイル化

動きながら描くと、2次元の人物になります:リアルタイムインタラクティブビデオスタイル化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

アニメーション、アニメーション、あなたはあなたのものを描き、私は私のものを描きます

下の GIF のように、左側には静止画像があります。アーティストが少しずつ色を描いていくと、右側の動的な画像もリアルタイムで色が変わります。

これは、プラハのチェコ工科大学と Snap Institute のブラック テクノロジーです - ** ビデオ内のオブジェクトの色、スタイル、さらにはスタイルをリアルタイムで変更するには、特定の 2 つのフレームだけが必要です。

もちろん、今後もさらに続きます。

自分の漫画アバター写真を撮り、自由に修正します。このアバターを頭にかぶると、カメラの前に座っているあなた自身もリアルタイムで変化します。

自分自身を描いて、それがゆっくりとアニメーションに変化していく様子を見ることもできます。

ここを動かして、あそこに描くことでアニメーションが出てくるとも言えます。

さらに、プロセス全体では長時間のトレーニング プロセスや大規模なトレーニング データ セットは必要ありません。この研究は SIGGRAPH 2020 にも提出されています。

では、このような魔法のような効果はどのようにして実現されるのでしょうか?

インタラクティブなビデオスタイル

まず、N フレームからなるビデオ シーケンス I が入力されます。

下の図に示すように、任意のフレーム Ii に対して、マスク Mi を使用してスタイル転送の領域を定義するか、フレーム全体にスタイル転送を実行するかを選択できます。

ユーザーが行う必要があるのは、様式化されたキーフレーム Sk を提供することだけです。そのスタイルは、意味的に意味のある方法でビデオ シーケンス全体に転送されます。

以前の方法とは異なり、このスタイル転送は、前のフレームが最初にスタイル設定されるのを待たずにランダムな順序で実行され、異なるキーフレームからのスタイル設定されたコンテンツを明示的にマージする必要もありません。

つまり、この方法は実際には、複数の異種の手描きの例 Sk からスタイルをすばやく学習し、それをビデオ シーケンス I 内の任意のフレームに「変換」できる変換フィルターです。

この画像変換フレームワークは、U-net に基づいて実装されています。さらに、研究者らは、少数サンプルのトレーニングと時間的一貫性の問題を解決するために、パッチベースのトレーニング方法とビデオのちらつきを抑制するソリューションを採用しました。

パッチベースのトレーニング戦略

キーフレームはサンプル数が少ないデータです。過剰適合を避けるために、研究者は画像ブロックに基づくトレーニング戦略を採用しました。

画像パッチのセット (a) は元のキーフレーム (Ik) からランダムにサンプリングされ、その様式化された対応物 (b) がネットワーク内で生成されます。

次に、これらの様式化された対応物 (b) の損失は、様式化されたキーフレーム (Sk) からサンプリングされた対応する画像パッチを基準にして計算され、誤差が逆伝播されます。

このようなトレーニング スキームは、特定の損失関数に限定されません。この研究では、L1損失、敵対的損失、VGG損失の組み合わせが使用されました。

ハイパーパラメータの最適化

過剰適合問題を解決した後も、ハイパーパラメータの最適化という問題が残ります。不適切なハイパーパラメータは推論の品質を低下させる可能性があります。

研究者らは、グリッド検索法を使用して、ハイパーパラメータの 4 次元空間をサンプリングしました。Wp はトレーニング画像ブロックのサイズ、Nb はバッチ内の画像ブロックの数、α は学習率、Nr は ResNet ブロックの数です。

各ハイパーパラメータ設定について、(1) 指定された時間トレーニングを実行します。(2) 未確認のフレームに対して推論を実行します。(3) 推論されたフレーム (O4) と実際の値 (GT4) の間の損失を計算します。

目標はこの損失を最小限に抑えることです。

時間の一貫性を向上させる

翻訳ネットワークがトレーニングされた後、ビデオ スタイルの転送をグラフィック カード上でリアルタイムまたは並行して実装できます。

しかし、研究者たちは、多くの場合、ビデオのちらつきがまだ目立つことを発見しました。

最初の理由は、元のビデオに一時的なノイズが存在することです。これを実現するために、研究者らは時間領域で動作するバイラテラル フィルタの動き補正版を採用しました。

2 番目の理由は、様式化されたコンテンツの視覚的な曖昧さです。解決策は、ネットワークの識別能力を向上させるために追加の入力層を提供することです。

このレイヤーは、ランダムな 2D ガウス分布のスパース セットで構成されており、ネットワークがローカル コンテキストを識別し、あいまいさを抑制するのに役立ちます。

しかし、研究者らはこの方法の限界についても言及している。

様式化されていない新しい特徴が現れた場合、この方法では通常、それらに対して一貫した様式化効果を生成できません。スタイルの一貫性を保つには、追加のキーフレームが必要です。

高解像度(4Kなど)のキーフレームを扱うのは難しい

動き補正バイラテラル フィルタの使用とランダム ガウス混合レイヤーの作成には、複数のビデオ フレームの取得が必要であり、これによりコンピューティング リソースに対する要求が高まり、リアルタイム ビデオ ストリームでのリアルタイム推論の効果に影響します。 (デモのリアルタイムキャプチャセッションでは、時間の一貫性を向上させる処理方法は使用されていません)

研究チーム

[[329288]]

この研究は、プラハのチェコ工科大学コンピュータグラフィックスおよびインタラクション学部の博士課程3年生であるOndřej Texler氏によって実施されました。

私もここで学士号と修士号を取得して卒業しました。彼の主な研究対象は、コンピュータグラフィックス、画像処理、コンピュータビジョン、ディープラーニングです。

[[329289]]

この最初の作品に加えて、私たちは中国の作家、柴孟蕾も発見しました。彼は浙江大学で博士号を取得し、現在はSnap Researchのクリエイティブビジョングループの上級研究科学者です。

彼の研究対象は主にコンピュータビジョンとコンピュータグラフィックスで、特に人間のデジタル化、画像処理、3D 再構築、物理ベースのアニメーションに重点を置いています。

ポータル

プロジェクトアドレス:

https://ondrejtexler.github.io/patch-based_training/

<<:  このAIアルゴリズムの面接体験は非常に役立つ:Amazonは履歴書から面接まで実践的な経験を共有

>>:  AIoTは自律時代を推進します。人工知能はIoTインフラに新たな競争上の優位性をもたらします。

ブログ    

推薦する

原子力 + AI: 原子力技術の未来を創造するのか?

近年、原子力技術と人工知能(AI)の融合により、原子力AIと呼ばれる強力な相乗効果が生み出されていま...

ビデオ映像から間取り図を推測する新たなAI研究は目を見張るものがある

フロアプランは、空間を視覚化したり、ルートを計画したり、建物のデザインを伝えたりするのに役立ちます。...

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知...

Linux 仮想化ガイド: 仮想化環境の構築

仮想化技術はコンピューティング分野で幅広い用途があり、ハードウェア リソースの利用率を向上させ、メン...

フィンテックとAI: 金融におけるAIの活用方法

フィンテックの人工知能と機械学習技術は、大規模なデータセットをリアルタイムで分析し、改善を図るのに役...

...

機械学習の新しいお気に入り:対照学習論文の大規模なコレクション、60以上の論文が分類され、これまでにないほど包括的

みなさんこんにちは。私はDiaobaiです。対照学習は最近非常に人気が高まっています。主要なトップカ...

...

1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合:話すことも聞くこともできる大規模モデル

強力なパフォーマンスと汎用性を備えた大規模言語モデルは、オーディオやビデオなどの多数の大規模マルチモ...

5分で様々な人工知能技術を紹介

人工知能は、コンピューターが人間と同様のレベルの知能を発揮できるようにするさまざまな技術を網羅する幅...

人工知能が伝統的な物理学に革命を起こす

今日、人工知能 (AI) は物理学を含む多くの業界に変化をもたらしています。関連報道によると、人工知...

ビッグデータとAIアプリケーションを成功させる4つの鍵

ビッグデータ技術が今や世界の主要なマーケティングツールの 1 つになっていることは周知の事実です。 ...

Alibaba iDSTのビジュアルコンピューティング責任者、Hua Xiansheng氏:アルゴリズムの利点は消えつつある

「テクノロジー研究と現実世界の問題を組み合わせ、現実の問題を解決して価値を生み出すことにますます興味...

AIと機械学習が交通をどのように変えているのか

人工知能 (AI) と機械学習が現代生活を改善すると期待される多くの方法の中でも、公共交通機関に影響...

NLP技術の準備——自然言語処理技術はあなたの妻ではありません

人工知能技術の発展に伴い、携帯電話の翻訳ソフトを使って自分の言語をリアルタイムで翻訳したり、画像認識...