この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 まず横顔(キーフレーム1)を作成します。 もう一つの正面顔(キーフレーム 2)は次のとおりです。 そして、この 2 枚の写真だけに基づいて、AI は動作プロセス全体を生成できます。 そして、単純なものだけではなく、運動中のまばたきの動作までもが「きちんと処理」されています。 この効果が明らかになるとすぐに、Reddit で白熱した議論が巻き起こりました。 たった 2 つのキーフレームで完全なモーションを実現するにはどうすればよいでしょうか?
これらは、論文の著者らが提示したこの研究の 2 つのハイライトです。 具体的には、キーフレームに基づいてビデオをスタイリングする作業です。 まず、N フレームで構成されるビデオ シーケンス I を入力します。各フレームには、関心領域を分割するマスク Mi があります。 以前の方法とは異なり、このスタイル転送は、前のフレームが最初にスタイル設定されるのを待たずにランダムな順序で実行され、異なるキーフレームからのスタイル設定されたコンテンツを明示的にマージする必要もありません。 つまり、この方法は実際には、複数の異種の手描きの例 Sk からスタイルをすばやく学習し、それをビデオ シーケンス I 内の任意のフレームに「変換」できる変換フィルターです。 この画像変換フレームワークは、U-net に基づいて実装されています。さらに、研究者らは、少数サンプルのトレーニングと時間的一貫性の問題を解決するために、パッチベースのトレーニング方法とビデオのちらつきを抑制するソリューションを採用しました。 過剰適合を避けるために、研究者は画像パッチベースのトレーニング戦略を採用しました。 画像パッチのセット (a) は元のキーフレーム (Ik) からランダムにサンプリングされ、その様式化された対応物 (b) がネットワーク内で生成されます。 次に、これらの様式化された対応物 (b) の損失は、様式化されたキーフレーム (Sk) からサンプリングされた対応する画像パッチを基準にして計算され、誤差が逆伝播されます。 このようなトレーニング スキームは、特定の損失関数に限定されません。この研究では、L1損失、敵対的損失、VGG損失の組み合わせが使用されました。 もう一つの問題はハイパーパラメータの最適化です。 不適切なハイパーパラメータにより推論の品質が低下する可能性があるためです。 研究者らは、グリッド検索法を使用して、ハイパーパラメータの 4 次元空間をサンプリングしました。Wp はトレーニング画像ブロックのサイズ、Nb はバッチ内のブロック数、α は学習率、Nr は ResNet ブロックの数です。 各ハイパーパラメータ設定について: (1)一定時間トレーニングを行う。 (2)見えないフレームについての推論 (3)推定フレーム(O4)と真の値(GT4)間の損失を計算する。 目標はこの損失を最小限に抑えることです。 チームについてこの研究は、プラハのチェコ工科大学コンピュータグラフィックスおよびインタラクション学科の博士課程学生であるオンドレイ・テクスラーによって実施されました。 この仕事に加えて、彼と彼のチームはこれまでにも多くの興味深い仕事を行ってきました。 例えば、手を動かしながら絵を描くこともできます。 例えば、漫画の絵が与えられた場合、動画の中のあなたにその絵を使って自分自身を表現させることができます。 この興味深い研究について詳しく知るには、以下のリンクをクリックしてください。 参考リンク: [1] https://www.reddit.com/r/MachineLearning/comments/n3b1m6/r_fewshot_patchbased_training_siggraph_2020_dr/ |
<<: 10億のパラメータを持つAIモデルSEERは、すべての人を平等に扱い、富裕層と世界に貢献します。
>>: 「幾何学的ディープラーニング」からのディープラーニングの統合
数日前、GPT を使用して LeetCode の問題を練習し、アルゴリズムを学び、アイデアを刺激し、...
人類はアフリカでホモ・サピエンスとして誕生して以来、約50万年にわたる進化の過程を経てきました。人類...
医療用人工知能製品は多様化しており、下流の需要は強い医療人工知能産業の上流は、主に医療データマイニン...
現在、特定の NLP タスクのパフォーマンスを最適化するための最善のアプローチは、事前トレーニング済...
[[342088]]基本的なデータ構造の統合は、大規模システムの基礎となります。たとえば、Redis...
IoT デバイスのデータ生成の基本的な能力と、さまざまなデバイスのインテリジェントな動作をシミュレー...
51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...
2020年末、チューリング賞受賞者のジュディア・パール氏、機械学習の専門家ペドロ・ドミンゴス氏、量子...
人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...
大型モデルが人気となり、毎日さまざまな「ビッグ」ニュースを目にするようになりました。写真今日、もう一...
サザンメソジスト大学(SMU)とNASAの研究者らは、科学的データに関する質問に答えることができる人...
ビデオ内の興味深い部分を見つけるにはどうすればいいですか?時間的アクションローカリゼーション (TA...