たった2枚の写真でAIは完全なモーションプロセスを生成できる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

まず横顔（キーフレーム1）を作成します。

もう一つの正面顔（キーフレーム 2）は次のとおりです。

そして、この 2 枚の写真だけに基づいて、AI は動作プロセス全体を生成できます。

そして、単純なものだけではなく、運動中のまばたきの動作までもが「きちんと処理」されています。

この効果が明らかになるとすぐに、Reddit で白熱した議論が巻き起こりました。

たった 2 つのキーフレームで完全なモーションを実現するにはどうすればよいでしょうか?

長いトレーニングプロセスは必要ありません。
大規模なトレーニングデータセットは必要ありません。

これらは、論文の著者らが提示したこの研究の 2 つのハイライトです。

具体的には、キーフレームに基づいてビデオをスタイリングする作業です。

まず、N フレームで構成されるビデオシーケンス I を入力します。各フレームには、関心領域を分割するマスク Mi があります。

以前の方法とは異なり、このスタイル転送は、前のフレームが最初にスタイル設定されるのを待たずにランダムな順序で実行され、異なるキーフレームからのスタイル設定されたコンテンツを明示的にマージする必要もありません。

つまり、この方法は実際には、複数の異種の手描きの例 Sk からスタイルをすばやく学習し、それをビデオシーケンス I 内の任意のフレームに「変換」できる変換フィルターです。

この画像変換フレームワークは、U-net に基づいて実装されています。さらに、研究者らは、少数サンプルのトレーニングと時間的一貫性の問題を解決するために、パッチベースのトレーニング方法とビデオのちらつきを抑制するソリューションを採用しました。

過剰適合を避けるために、研究者は画像パッチベースのトレーニング戦略を採用しました。

画像パッチのセット (a) は元のキーフレーム (Ik) からランダムにサンプリングされ、その様式化された対応物 (b) がネットワーク内で生成されます。

次に、これらの様式化された対応物 (b) の損失は、様式化されたキーフレーム (Sk) からサンプリングされた対応する画像パッチを基準にして計算され、誤差が逆伝播されます。

このようなトレーニングスキームは、特定の損失関数に限定されません。この研究では、L1損失、敵対的損失、VGG損失の組み合わせが使用されました。

もう一つの問題はハイパーパラメータの最適化です。

不適切なハイパーパラメータにより推論の品質が低下する可能性があるためです。

研究者らは、グリッド検索法を使用して、ハイパーパラメータの 4 次元空間をサンプリングしました。Wp はトレーニング画像ブロックのサイズ、Nb はバッチ内のブロック数、α は学習率、Nr は ResNet ブロックの数です。

各ハイパーパラメータ設定について:

（１）一定時間トレーニングを行う。

（２）見えないフレームについての推論

（３）推定フレーム（O4）と真の値（GT4）間の損失を計算する。

目標はこの損失を最小限に抑えることです。

チームについて

この研究は、プラハのチェコ工科大学コンピュータグラフィックスおよびインタラクション学科の博士課程学生であるオンドレイ・テクスラーによって実施されました。

この仕事に加えて、彼と彼のチームはこれまでにも多くの興味深い仕事を行ってきました。

例えば、手を動かしながら絵を描くこともできます。

例えば、漫画の絵が与えられた場合、動画の中のあなたにその絵を使って自分自身を表現させることができます。

この興味深い研究について詳しく知るには、以下のリンクをクリックしてください。

参考リンク:

[1] https://www.reddit.com/r/MachineLearning/comments/n3b1m6/r_fewshot_patchbased_training_siggraph_2020_dr/
[2] https://ondrejtexler.github.io/patch-based_training/index.html

<<: 10億のパラメータを持つAIモデルSEERは、すべての人を平等に扱い、富裕層と世界に貢献します。

>>: 「幾何学的ディープラーニング」からのディープラーニングの統合

AIのトップ研究者からのアドバイス：あなたもAIに取り組んでいると聞きましたが、この4つの落とし穴にはまらないように！

ブログ

Baidu がカスタマイズされたトレーニングおよびサービスプラットフォーム EasyDL を全面公開: 誰もが AI を使えるように

ブログ

たった2枚の写真でAIは完全なモーションプロセスを生成できる

たった 2 つのキーフレームで完全なモーションを実現するにはどうすればよいでしょうか?

チームについて

AIのトップ研究者からのアドバイス：あなたもAIに取り組んでいると聞きましたが、この4つの落とし穴にはまらないように！

Baidu がカスタマイズされたトレーニングおよびサービスプラットフォーム EasyDL を全面公開: 誰もが AI を使えるように

EU AI法が規則を承認

清華大学は8人のグループを組織してChatGPT人狼をプレイしたが、このゲームにはあらゆるトリックや変装が含まれていた。清華大学：私はそれを教えたことはない

国連チーフAIアドバイザーとの独占インタビュー：AIは完璧だと期待しているが、決して完璧ではない

最新レビュー！拡散モデルと画像編集の愛憎関係

200億の「Shusheng·Puyu 2.0」が正式にオープンソース化されました！データプッシュのパフォーマンスはChatGPTに匹敵し、20万の超長コンテキストを完璧に再現します。

推薦する

DeepMindの長い記事によると、AlphaZeroのブラックボックスニューラルネットワークが学習した知識は基本的に人間の知識と似ているという。

メタバースと自動運転車のどちらが先に来るでしょうか?

5つのリソースカテゴリー：大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら

Github のデータサイエンスと機械学習のリポジトリトップ 10

AgentGPT: ブラウザ上の自律型 AI エージェント

米上院司法委員会公聴会：AIは制御が難しく、悪意のある者が生物兵器の開発に利用する可能性がある

Langogo 2019 東京カンファレンス: 4 つの新製品が衝撃的なデビューを飾り、メディア界で話題に

70%は輸入品。中国の産業用ロボットはチップのような悲劇をどう回避できるのか？

TensorFlow の動的グラフツール Eager の使い方は?これは非常に簡単なチュートリアルです

2019年ディープラーニングフレームワークランキング（トップ10からトップ3まで）

十分なデータを使用してモデルをトレーニングしたかどうかをどのように確認しますか?

自動応答は人工知能ではなく、自律応答は

ニューラルネットワークと人間の思考の深い関係