Ali はまた新しいことをやっています。人間の顔と文章を使って「Washing the Window」に合わせて踊ることができ、衣装や背景も自由に変更できます。

Ali はまた新しいことをやっています。人間の顔と文章を使って「Washing the Window」に合わせて踊ることができ、衣装や背景も自由に変更できます。

AnimateAnyoneに続き、Alibabaのもう一つの「ダンス作品」論文が人気を集めている——

今回必要なのは、あなたの顔写真と一言の説明だけで、どこでも踊れるようになります!

たとえば、次の「Wipe the Glass」のダンス ビデオ:

写真

必要なのは、ポートレートとプロンプトを「フィード」することだけです:

明るい青色のドレスを着て、微笑みながら黄金色の紅葉の中で踊る少女。

そしてプロンプトが変わると、キャラクターの背景や服装もそれに応じて変化します。たとえば、次の 2 つの文を変更してみましょう。

セーターとズボンを着て、木造の家で笑顔で踊っている女の子。

ドレスのような白いシャツ、長袖、長ズボンを着て、笑顔でタイムズスクエアで踊っている女の子。

写真

これはアリババの最新の研究であるDreaMovingであり、誰でもいつでもどこでもダンスできるようにすることを目的としています。

写真

実際の人物だけでなく、漫画のキャラクターも抱っこできますよ〜

写真

このプロジェクトは発表されるとすぐに多くのネットユーザーの注目を集め、その効果を見て「信じられない」と言った人もいました。

写真

それで、この研究はどのようにしてそのような効果を達成したのでしょうか?

その背後にある原理

Stable Video Diffusion や Gen2 などのテキストからビデオへの変換 (T2V) モデルの登場により、ビデオ生成は飛躍的に進歩しましたが、まだ多くの課題が残っています。

たとえば、データセットに関して言えば、現在、オープンソースの人間のダンスビデオデータセットが不足しており、対応する正確なテキスト記述を取得することが困難であるため、モデルが多様でフレームの一貫性があり、より長いビデオを生成することが困難になっています。

また、人間中心のコンテンツ生成の分野では、生成された結果のパーソナライゼーションと制御可能性も重要な要素です。

写真

これら 2 つの大きな困難に直面して、Alibaba チームはまずデータ セットの処理に着手しました。

研究者たちはまず、インターネットから約1,000本の高品質な人間のダンスビデオを収集した。次に、これらのビデオを約 6,000 本の短いビデオ (それぞれ 8 ~ 10 秒) に分割し、ビデオ クリップにトランジションや特殊効果がないことを確認しました。これにより、時間モジュールのトレーニングが容易になります。

さらに、ビデオのテキスト説明を生成するために、彼らはビデオキャプション作成ツールとして Minigpt-v2 を使用しました。具体的には、フレームを詳細に説明するように指示する「グラウンディング」バージョンです。

キーフレームの中心フレームに基づいて生成された字幕は、ビデオクリップ全体の説明を表し、主に主題と背景の内容を正確に説明します。

フレームワークの面では、Alibaba チームは Stable Diffusion に基づいた DreaMoving というモデルを提案しました。

これは主に、Denoising U-Net、Video ControlNet、Content Guider の 3 つのニューラル ネットワークで構成されています。

写真

その中で、Video ControlNet は、各 U-Net ブロックの後にモーション ブロックを挿入し、制御シーケンス (ポーズまたは深度) を追加の時間残差として処理する画像制御ネットワークです。

ノイズ除去 U-Net は、ビデオ生成用のモーション ブロックを備えた派生的な Stable-Diffusion U-Net です。

Content Guider は、入力テキスト プロンプトと外観表現 (顔など) をコンテンツの埋め込みに転送します。

そうすることで、DreaMoving は、ガイド シーケンスと簡単なコンテンツの説明 (テキストや参照画像など) を入力として、高品質で忠実度の高いビデオを生成できます。

写真

残念ながら、現在、DreaMoving プロジェクトのオープン ソース コードはありません。

興味のある方はまず注目して、コードがオープンソースになるのを待ってください〜

参考リンク: [1] https://dreamoving.github.io/dreamoving/ [2] https://arxiv.org/abs/2312.05107 [3] https://twitter.com/ProperPrompter/status/1734192772465258499 [4] https://github.com/dreamoving/dreamoving-project

<<:  大型モデルがドローンを制御できるように、北京航空航天チームは具現化された知能の新しいアーキテクチャを提案した

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

わずか6秒で、AIはあなたの声を聞くだけであなたの外見を説明できる

信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの...

機械学習とデータマイニングを一般の人に説明する方法

[[210849]]データサイエンスが人工知能の発展において輝くにつれ、データマイニングと機械学習が...

パイプラインロボットは都市の安全を守り、夏の雷雨も恐れない

夏がまたやって来て、雷雨がまた虫を追い払います。最近では、夏の気温が上昇し続けているため、雨天が多く...

人間はAIに勝てるか?私たちは機械に置き換えられるのでしょうか?

2017年、中国の囲碁棋士である柯潔はAI AlphaGoとの対戦で惨敗し、コート上で涙を流し、人...

...

時間との競争! AIは病気の遺伝子解析と診断の加速器である

科学技術分野において、国境を越えた融合による新しいものによってもたらされる破壊的な競争は、あくまでも...

「クローズドループ」に向けての運転 | LMDrive: LLM に基づく初のクローズドループ エンドツーエンド自動運転

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

将来ロボットは人間の皮膚を持つようになるかもしれないが、その外見はかなり恐ろしい

ロボットは科学者の主な研究分野となっており、この分野の技術が進歩し続けると、ロボットがこの社会の主な...

顔認識技術の応用における認知的誤解

[[286435]]カメラはどこにでもあり、顔認識は生活のほぼあらゆる場面で使用されています。どのよ...

コンピュータビジョンプロジェクト: 10 個の高品質オープンソースデータセットがリリースされました

コンピューター ビジョンは、ほぼすべての産業分野で進歩を加速させています。 コンピューター ビジョン...

...

...

word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった

画期的な論文word2vec は、当然の NeurIPS Test of Time Award を受...

AIの現実世界での最悪の使用例

人工知能(AI)の最悪のシナリオは、ハリウッドの大ヒット映画でおなじみのものだ。人間のような知性と知...