声を上げてください! MakeItTalkの魔法でモナリザと会話できる

声を上げてください! MakeItTalkの魔法でモナリザと会話できる

最近、マサチューセッツ大学アマースト校のヤン・チョウ博士とそのチームは、「MakeItTalk」と呼ばれる深い構造を持つ新しい方法を提案しました。音声信号とポートレート画像を入力として与えると、モデルは話者の知覚の音声アニメーション グラフを生成します。

誰もが表現力豊かなアニメーションを望んでいます!

フェイシャルアニメーションは、映画制作、ビデオストリーミング、コンピューターゲーム、仮想アバターなど、多くの分野で重要な技術です。

数多くの技術的成果があるにもかかわらず、リアルな顔のアニメーションを作成することは、コンピューター グラフィックスにおいて依然として課題となっています。

まず、顔の表情全体には顔全体のすべての部分の相互関係が含まれており、高次元のマルチイメージでは顔の​​ダイナミクスが支配的であり、その中でも頭の姿勢が最も重要であるため、顔の動きと発話の調整は困難な作業です。

第二に、話し手はそれぞれ話し方が異なり、唇を一貫してコントロールするだけでは話し手の性格を理解するだけでなく、さまざまな個性を表現することもできます。

上記の問題に対処するために、Yang Zhou 博士と彼のチームは、「MakeItTalk」と呼ばれる深い構造を持つ新しい方法を提案しました。

これは、入力としてオーディオと顔の画像のみを必要とする、深いアーキテクチャを備えた新しい方法で、プログラムはリアルな「トーキングヘッドアニメーション」を出力します。

次に、MakeItTalk がどのようにして写真を「話させる」のかを見てみましょう。

声を上げてください!魔法の MakeItTalk とは何ですか?

MakeItTalk は、顔の特徴、顎、頭の姿勢、眉毛、鼻を認識し、音刺激によって唇を変化させることができる、新しいディープラーニングベースのアーキテクチャです。

このモデルは LSTM と CNN に基づいており、話者の口調や内容に合わせて表情や頭の動きを変化させることができます。

[[347123]]

基本的に、MakeItTalk は入力オーディオ信号からコンテンツとスピーカーを分離し、結果として得られる抽象表現から対応するアニメーションを抽出します。

唇と隣接する顔との調整も特に重要です。話者の情報は、表情豊かな頭部アニメーションを生成するために必要な他の表情や頭部の動きを取得するために使用されます。

MakeItTalk モデルは、リアルな人間の顔の会話画像と非リアルな漫画の会話画像の両方を生成できます。

音+画像=「話す」? MakeItTalk はどのようにそれを実現するのでしょうか?

次の図は、リアルな話し手を生成するための完全な方法とアプローチを示しています。

(1)音声クリップと単一の顔画像を使用して、音声と連動した話者認識ヘッドアニメーションを作成できます。

(2)トレーニング段階では、市販の顔検出器を使用して入力ビデオを前処理し、マーカーを抽出します。入力オーディオから基本モデルをトレーニングして、音声コンテンツをアニメーションとマーカーに正確に抽出します。

(3)高精度な動きを得るために、入力音声信号の内容と話者の埋め込みを分離してランドマークの推定を行う。この目的のために、音声変換ニューラル ネットワークを使用して音声コンテンツを抽出し、音声コンテンツを検出します。

(4)内容は話者に依存せず、唇と隣接部分の共通の動きを捉えており、発話内容は動きの特徴と話者の頭部の動きの残りの部分を変調している。

(5)誰がその単語を発したか、つまり話者のアイデンティティに応じて、目、鼻、頭が動くにつれて唇の大きさと形が広がります。

(6)最後に、変換された画像を生成するために、MakeItTalkはラベルから画像を合成するための2つのアルゴリズムを使用します。

キャンバス アートやベクター アートなどの非フォトリアリスティックな画像の場合、ドロネー三角形分割に基づいた特定の歪み方法が適用されます。

リアルな画像の場合、自然な顔を直接変換する画像間変換ネットワーク(pix2pix と同じ)を構築します。

最後に、すべての画像フレームとオーディオがミックスされ、ヘッドアニメーションが生成されます。

著者について

このプロジェクトの作者は、上海交通大学で電子工学の学士号を取得し、その後ジョージア工科大学で修士号を取得し、現在はマサチューセッツ大学アマースト校のコンピュータグラフィックス科学研究グループでコンピュータサイエンスの博士課程に在籍しています。

[[347127]]

著者のホームページのアバターも様式化されている

Yang Zhou はコンピューターグラフィックスと機械学習の分野で働いています。主に、ディープラーニング技術を使用して、アーティスト、スタイリスト、アニメーターがより良いデザインを作成できるようにすることに重点を置いています。

デザインに AI 遺伝子も追加したい場合は、Yang Zhou の論文リストが間違いなく良い選択です。アニメーション生成とマルチモーダルディープラーニングに関する研究は数多くあります。

<<:  この履歴書はAIの助けを借りて作成されたことが判明しました。 !

>>:  本番環境のMLを再現できない場合は、ワークフローに問題がある可能性があります。

ブログ    
ブログ    

推薦する

AIがデジタル変革に与える影響

デジタルトランスフォーメーションは10年以上にわたってビジネス変革の中核を担ってきましたが、AIの台...

クラウド コンピューティングにおいて人工知能はどのような役割を果たすのでしょうか?

今日のデジタル世界では、人工知能とクラウド コンピューティングが毎日多くの人々の仕事と生活に影響を与...

2020年の中国の人工知能開発の見通し

人工知能の今後の発展の見通し。中国の人工知能研究は爆発的な成長期にあり、人工知能産業の基礎条件は整っ...

...

人工知能は人類の終焉をもたらすのでしょうか? AIに対する5つの実存的脅威

私たちは現在、この地球上で最も知的な種であり、他のすべての生命は生き続けるために私たちの善意に依存し...

...

トレンドマイクロ:2030年までにサイバーセキュリティ分野で人工知能が人間に取って代わる

テキサス州ダラスに本拠を置くクラウドセキュリティ企業トレンドマイクロの新しい調査によると、IT業界の...

AI と機械学習: 大きなデマか、それとも大きな希望か?

ダニング=クルーガー効果は重大なバイアスです。これは、能力の低い人が自分の軽率な決断に基づいて誤った...

建物内の生体認証システム

新しい建物では、利用可能なリソースの最適化を最大限にしながら、セキュリティと有用かつ重要なデータを豊...

プログラマーを夢中にさせるソートアルゴリズムに関するビデオ

ルーマニア人はダンスが大好きな国民です。古いルーマニア映画「チプリアン・ボロンベスク」をご覧になった...

5Gネットワ​​ーク構築80%:5Gロボットが新たな転換点を迎えようとしている

最近、CCTVニュースによると、中国は2月末までに計画通り5Gネットワ​​ーク構築の80%を完了した...

Java プログラミング スキル - データ構造とアルゴリズム「ハッシュ テーブル」

[[388064]]基本的な紹介ハッシュ テーブル (ハッシュ テーブルとも呼ばれます) は、キー...

自然言語処理パート1: テキスト分類器

[[194511]]序文テキスト分類は、自動記事分類、自動メール分類、スパム識別、ユーザー感情分類な...

FlashOcc: 占有率予測への新しいアプローチで、最先端の精度、効率、メモリ使用量を実現します。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

2021年のスマートシティの変革と再構築のトレンド

現代では、混沌とした賑やかな都市がどんどん増え、実際に「スマートシティ」の称号を競い合っています。そ...