Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

[[424946]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

トランスフォーマーはまた新たな仕事に就いた――

今回、Googleはこれを活用して、音楽に合わせて踊れるAIを作成した。

さっそく、フリースタイルを披露してもらいましょう (元のビデオは記事の最後にあります)。

そうですね、動きがかなり美しく、様々なスタイルをうまくこなしています。

これを見ると私もフォローしたくなります。

どれを選びますか?

このAIは、同様のモデル3つを破ってSOTAを達成し、音楽とダンスの関係を深く理解していることでICCV 2021にリストされました。

研究チームはオープンソースコードに加えて、10種類の3Dダンスの動きを収録したデータセットも公開した。

興味があればぜひやってみましょう!

このフリースタイルはどうやって生まれたのですか?

この AI は Transformer を使用すると言っていませんでしたか?

しかし、ここでのトランスフォーマーは通常のトランスフォーマーではなく、フルアテンションメカニズム(略してFACT )に基づくクロスモーダルトランスフォーマーです。

なぜそんなに複雑にするのですか?

研究者たちは、単純なトランスフォーマーだけを使用するだけでは、AIが音楽とダンスの相関関係を理解することはできないことを発見したからです。

[[424951]]

それで、この FACT はどのように機能するのでしょうか?

一般に、FACT モデルでは、モーション トランスフォーマーとオーディオ トランスフォーマーが別々に使用されます。

まず、2 秒間のシードアクションシーケンスとオーディオクリップを入力してエンコードします。

次に、埋め込み(意味空間からベクトル空間へのマッピング)が接続され、クロスモーダル トランスフォーマーに送信され、2 つの形式間の対応関係を学習して、後続の n 個のアクション シーケンスを生成します。

これらのシーケンスは、モデルの自己教師トレーニングに使用されます。

3 つのトランスフォーマーは、前処理や特徴抽出を必要とせず、生データを直接投入して最終結果を得るエンドツーエンドの学習方法を使用して一緒に学習します。

もう 1 つのアプローチは、予想される動作を次の生成段階への入力として使用して、自己回帰フレームワークでモデルをテストすることです。

最終的に、モデルはフレームごとに長距離のダンス ルーチンを生成できるようになります。

下の図は、モデルが同じシードの動き(ヒップホップ スタイル)と異なる音楽を通じて 4 種類のダンス作品(ブレイクダンス、ジャズ バレエ、クランプ、ミドル ヒップホップ)を生成することを示しています。

知識のある方でコメントしていただける方はいらっしゃいますか?

AI が生成したダンスを生き生きとさせ、音楽スタイルと一貫性を持たせるために、このモデル設計には3 つの重要なポイントがあります。

1. モデルの内部トークンはすべての入力にアクセスできるため、3 つのトランスフォーマーはすべて完全なアテンション マスクを使用します。これにより、従来の因果モデルよりも表現力が高まります。

2. モデルは次のアクションを予測するだけでなく、後続の N 個のアクションも予測します。これにより、モデルはコンテキストに集中できるようになり、いくつかの生成ステップの後に、断片化されたアクションや逸脱を回避できます。

3. さらに、トレーニング プロセスの初期段階で 12 層のディープ クロスモーダル トランスフォーマー モジュールを使用して、2 つの埋め込み (オーディオとアクション) を融合します。研究者らは、これがモデルに入力された音楽を聴いて区別する訓練を行うための鍵となると述べている。

データを使って実際のパフォーマンスを見てみましょう。

3つのSOTAモデルを破る

研究者たちは、次の 3 つの指標に基づいて結果を評価しました。

1.アクション品質:FIDを使用して、サンプル(つまり、後で紹介する彼らが自ら公開したデータセット)と特徴空間で生成された結果との間の距離を計算します。合計 40 個のモデル生成ダンス シーケンスが使用され、各シーケンスの長さは 1200 フレーム (20 秒) でした。

FID の幾何学的特性と動的特性は、それぞれ FIDg と FIDk で表されます。

2.アクションの多様性:特徴空間で生成されたアクション40セットの平均ユークリッド距離を測定することによって得られます。

幾何学的特徴空間 Distg と動的特徴空間 k を使用して、さまざまなダンスの動きを生成するモデルの能力をテストします。

3.アクションと音楽の相関関係: 適切な既存の指標がないため、入力音楽 (音楽ビート) と出力 3D アクション (モーションビート) の相関関係を評価するための「ビートアライメントスコア」を考案しました。

以下は、FACT と 3 つの SOTA モデル (Li et al.、Dancenet、Dance Revolution) の比較です。

FACT は 3 つの指標すべてにおいて上記 3 つを上回っていることがわかります。

*Liらのモデルによって生成される動きは不連続であるため、平均動的特徴距離は異常に高くなり、無視できます。

データを確認した後、より直感的なデータを見てみましょう。

うーん、機敏な FACT と比べると、他の 2 つはちょっと「それほどスマートではない」ようです...

ダンス動作データセット AIST++

最後に、彼らが作成した3DダンスムーブメントデータセットAIST++について簡単に紹介します。

名前からわかるように、これは既存のダンスデータセットAISTの「拡張版」であり、主に元のものに3D情報を追加したものです。

最終的な AIST++ には、合計 5.2 時間と 1,408 シーケンスの 3D ダンス ムーブが含まれ、オールドスクールとニュースクールのブレイクダンス、ポップ、ロック、ワック、ミドル ヒップホップ、LA スタイル ヒップホップ、ハウス、クランプ、ストリート ジャズ、ジャズ バレエなど、10 種類のダンス タイプにわたります。各ダンス タイプには、85% の基本ムーブと 15% の高度なムーブが含まれています。

(なぜ全部ヒップホップみたいに感じるのでしょうか?)

各アクションには 9 つのカメラ ビューが用意されており、そのうち 3 つを以下に示します。

これは、マルチビューの人間のキーポイント推定、人間の動き予測/生成、人間の動きと音楽間のクロスモーダル分析という 3 つのタスクをサポートするために使用できます。

チームについて

第一著者は、カリフォルニア大学バークレー校の博士課程1年生、カリフォルニア大学バークレー校人工知能研究所のメンバー、Facebook Reality Labsの学生研究員であるRuilong Li氏です

彼の研究分野は、コンピューター ビジョンとコンピューター グラフィックスの交差点であり、主に 2D 画像情報を通じて 3D 世界の生成と再構築に焦点を当てています。

博士号取得を目指す前、私は南カリフォルニア大学のビジョン&グラフィックス研究所で研究助手として 2 年間働いていました。

彼は清華大学を卒業し、物理学と数学の学士号とコンピュータサイエンスの修士号を取得しました。Google Research と Byte AI Lab でインターンをしました。

共著者のYang ShanはGoogle Researchに勤務しています。

彼の研究対象には、応用機械学習、マルチモーダル知覚、3D コンピューター ビジョン、物理シミュレーションなどがあります。

彼はノースカロライナ大学チャペルヒル校(UNC、米国のアイビーリーグ公立大学8校のうちの1つ)で博士号を取得しました。

David A. Ross は、 Google Research の Visual Dynamics 研究グループを率いています。

彼はカナダのトロント大学で機械学習とコンピュータービジョンの博士号を取得しています。

アンジュ・カナザワはメリーランド大学で博士号を取得し、現在はメリーランド大学バーミンガム校の電気工学およびコンピューターサイエンス学部の助教授を務めています。彼は BAIR の KAIR ラボを率いており、Google Research の研究員でもあります。

最後に、AI振付師の魅力を改めて感じてみましょう。

紙:
https://arxiv.org/abs/2101.08779
GitHub:
https://github.com/google-research/mint
データセット:
https://google.github.io/aistplusplus_dataset/
プロジェクトのホームページ:
https://google.github.io/aichoreographer/

<<:  機械は人間に似ているほど良いのでしょうか?科学サブ出版物:ヒューマノイドマシンに常に監視されていると愚かになる

>>:  清華大学の卒業生とMITの中国人博士課程の学生がソルバーと組み合わせ、自動運転の安全性を向上させる初の認識アルゴリズムセットを開発した。

ブログ    
ブログ    
ブログ    

推薦する

...

待望のAI実装はどこで行き詰まっているのでしょうか?

AIはこれまで3つの発展の波を経験してきました。最初の2つの波は当時の技術環境やその他の理由により...

機械学習コードを単体テストするにはどうすればいいですか?

現在、ニューラル ネットワーク コードの単体テストに関する特に包括的なオンライン チュートリアルはあ...

...

CBインサイトがAI業界の25大トレンドを発表:中国では顔認識や無人店舗が急速に発展

[[260147]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

MetaのAIは、メタバースで「あなたの言葉を実現」することを可能にします

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

STLコンポーネントアルゴリズム

STL は、OOP と従来のプログラミングの両方で使用できる多数のテンプレート クラスと関数を提供し...

...

スマートテクノロジーが現代のビジネス運営を改善する7つの方法

1. 生産性の向上多くの組織がリモートワークに移行するにつれて、効率性を維持することが重要になります...

...

AIが高収入の仕事を生み出すと同時に仕事を代替できる理由

自動化、特に人工知能とロボット工学の進歩が、今日の労働者にとって問題となるかどうか。この議論は毎日繰...

...

CIIE 2019 サノフィと朱江知能が共同で医療のデジタル未来を創造

第2回中国国際輸入博覧会が11月10日に成功裏に終了した。医療機器と医薬健康展示エリアでは、世界有数...

コードを入力すること、詩を書くこと、論文を書くこと、すべてが可能です!史上最大のAIモデルGPT-3がGithubを席巻

[[334935]]最近、GPT-3が人気になってきました!インターネット上で GPT-3 のさまざ...

...