Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

[[424946]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

トランスフォーマーはまた新たな仕事に就いた――

今回、Googleはこれを活用して、音楽に合わせて踊れるAIを作成した。

さっそく、フリースタイルを披露してもらいましょう (元のビデオは記事の最後にあります)。

そうですね、動きがかなり美しく、様々なスタイルをうまくこなしています。

これを見ると私もフォローしたくなります。

どれを選びますか?

このAIは、同様のモデル3つを破ってSOTAを達成し、音楽とダンスの関係を深く理解していることでICCV 2021にリストされました。

研究チームはオープンソースコードに加えて、10種類の3Dダンスの動きを収録したデータセットも公開した。

興味があればぜひやってみましょう!

このフリースタイルはどうやって生まれたのですか?

この AI は Transformer を使用すると言っていませんでしたか?

しかし、ここでのトランスフォーマーは通常のトランスフォーマーではなく、フルアテンションメカニズム(略してFACT )に基づくクロスモーダルトランスフォーマーです。

なぜそんなに複雑にするのですか?

研究者たちは、単純なトランスフォーマーだけを使用するだけでは、AIが音楽とダンスの相関関係を理解することはできないことを発見したからです。

[[424951]]

それで、この FACT はどのように機能するのでしょうか?

一般に、FACT モデルでは、モーション トランスフォーマーとオーディオ トランスフォーマーが別々に使用されます。

まず、2 秒間のシードアクションシーケンスとオーディオクリップを入力してエンコードします。

次に、埋め込み(意味空間からベクトル空間へのマッピング)が接続され、クロスモーダル トランスフォーマーに送信され、2 つの形式間の対応関係を学習して、後続の n 個のアクション シーケンスを生成します。

これらのシーケンスは、モデルの自己教師トレーニングに使用されます。

3 つのトランスフォーマーは、前処理や特徴抽出を必要とせず、生データを直接投入して最終結果を得るエンドツーエンドの学習方法を使用して一緒に学習します。

もう 1 つのアプローチは、予想される動作を次の生成段階への入力として使用して、自己回帰フレームワークでモデルをテストすることです。

最終的に、モデルはフレームごとに長距離のダンス ルーチンを生成できるようになります。

下の図は、モデルが同じシードの動き(ヒップホップ スタイル)と異なる音楽を通じて 4 種類のダンス作品(ブレイクダンス、ジャズ バレエ、クランプ、ミドル ヒップホップ)を生成することを示しています。

知識のある方でコメントしていただける方はいらっしゃいますか?

AI が生成したダンスを生き生きとさせ、音楽スタイルと一貫性を持たせるために、このモデル設計には3 つの重要なポイントがあります。

1. モデルの内部トークンはすべての入力にアクセスできるため、3 つのトランスフォーマーはすべて完全なアテンション マスクを使用します。これにより、従来の因果モデルよりも表現力が高まります。

2. モデルは次のアクションを予測するだけでなく、後続の N 個のアクションも予測します。これにより、モデルはコンテキストに集中できるようになり、いくつかの生成ステップの後に、断片化されたアクションや逸脱を回避できます。

3. さらに、トレーニング プロセスの初期段階で 12 層のディープ クロスモーダル トランスフォーマー モジュールを使用して、2 つの埋め込み (オーディオとアクション) を融合します。研究者らは、これがモデルに入力された音楽を聴いて区別する訓練を行うための鍵となると述べている。

データを使って実際のパフォーマンスを見てみましょう。

3つのSOTAモデルを破る

研究者たちは、次の 3 つの指標に基づいて結果を評価しました。

1.アクション品質:FIDを使用して、サンプル(つまり、後で紹介する彼らが自ら公開したデータセット)と特徴空間で生成された結果との間の距離を計算します。合計 40 個のモデル生成ダンス シーケンスが使用され、各シーケンスの長さは 1200 フレーム (20 秒) でした。

FID の幾何学的特性と動的特性は、それぞれ FIDg と FIDk で表されます。

2.アクションの多様性:特徴空間で生成されたアクション40セットの平均ユークリッド距離を測定することによって得られます。

幾何学的特徴空間 Distg と動的特徴空間 k を使用して、さまざまなダンスの動きを生成するモデルの能力をテストします。

3.アクションと音楽の相関関係: 適切な既存の指標がないため、入力音楽 (音楽ビート) と出力 3D アクション (モーションビート) の相関関係を評価するための「ビートアライメントスコア」を考案しました。

以下は、FACT と 3 つの SOTA モデル (Li et al.、Dancenet、Dance Revolution) の比較です。

FACT は 3 つの指標すべてにおいて上記 3 つを上回っていることがわかります。

*Liらのモデルによって生成される動きは不連続であるため、平均動的特徴距離は異常に高くなり、無視できます。

データを確認した後、より直感的なデータを見てみましょう。

うーん、機敏な FACT と比べると、他の 2 つはちょっと「それほどスマートではない」ようです...

ダンス動作データセット AIST++

最後に、彼らが作成した3DダンスムーブメントデータセットAIST++について簡単に紹介します。

名前からわかるように、これは既存のダンスデータセットAISTの「拡張版」であり、主に元のものに3D情報を追加したものです。

最終的な AIST++ には、合計 5.2 時間と 1,408 シーケンスの 3D ダンス ムーブが含まれ、オールドスクールとニュースクールのブレイクダンス、ポップ、ロック、ワック、ミドル ヒップホップ、LA スタイル ヒップホップ、ハウス、クランプ、ストリート ジャズ、ジャズ バレエなど、10 種類のダンス タイプにわたります。各ダンス タイプには、85% の基本ムーブと 15% の高度なムーブが含まれています。

(なぜ全部ヒップホップみたいに感じるのでしょうか?)

各アクションには 9 つのカメラ ビューが用意されており、そのうち 3 つを以下に示します。

これは、マルチビューの人間のキーポイント推定、人間の動き予測/生成、人間の動きと音楽間のクロスモーダル分析という 3 つのタスクをサポートするために使用できます。

チームについて

第一著者は、カリフォルニア大学バークレー校の博士課程1年生、カリフォルニア大学バークレー校人工知能研究所のメンバー、Facebook Reality Labsの学生研究員であるRuilong Li氏です

彼の研究分野は、コンピューター ビジョンとコンピューター グラフィックスの交差点であり、主に 2D 画像情報を通じて 3D 世界の生成と再構築に焦点を当てています。

博士号取得を目指す前、私は南カリフォルニア大学のビジョン&グラフィックス研究所で研究助手として 2 年間働いていました。

彼は清華大学を卒業し、物理学と数学の学士号とコンピュータサイエンスの修士号を取得しました。Google Research と Byte AI Lab でインターンをしました。

共著者のYang ShanはGoogle Researchに勤務しています。

彼の研究対象には、応用機械学習、マルチモーダル知覚、3D コンピューター ビジョン、物理シミュレーションなどがあります。

彼はノースカロライナ大学チャペルヒル校(UNC、米国のアイビーリーグ公立大学8校のうちの1つ)で博士号を取得しました。

David A. Ross は、 Google Research の Visual Dynamics 研究グループを率いています。

彼はカナダのトロント大学で機械学習とコンピュータービジョンの博士号を取得しています。

アンジュ・カナザワはメリーランド大学で博士号を取得し、現在はメリーランド大学バーミンガム校の電気工学およびコンピューターサイエンス学部の助教授を務めています。彼は BAIR の KAIR ラボを率いており、Google Research の研究員でもあります。

最後に、AI振付師の魅力を改めて感じてみましょう。

紙:
https://arxiv.org/abs/2101.08779
GitHub:
https://github.com/google-research/mint
データセット:
https://google.github.io/aistplusplus_dataset/
プロジェクトのホームページ:
https://google.github.io/aichoreographer/

<<:  機械は人間に似ているほど良いのでしょうか?科学サブ出版物:ヒューマノイドマシンに常に監視されていると愚かになる

>>:  清華大学の卒業生とMITの中国人博士課程の学生がソルバーと組み合わせ、自動運転の安全性を向上させる初の認識アルゴリズムセットを開発した。

ブログ    

推薦する

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...

世界中のもう一人の自分と話すのはどんな感じでしょうか?世界初のAI人間観察者が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

CNN が RNN に取って代わる?シーケンスモデリングで再帰ネットワークが不要になったとき

過去数年間はリカレントニューラルネットワークが主流でしたが、現在では自己回帰 Wavenet や T...

単語ベクトル計算とテキスト分類ツール fastText の応用原理と実践

FastTextは、Facebookが2016年にオープンソース化した単語ベクトル計算およびテキスト...

...

アルゴリズムは AI の進歩の原動力となることができるでしょうか?

2006年以降、ディープラーニングに代表される機械学習アルゴリズムは、マシンビジョンや音声認識など...

NLPの問題の90%を解決する方法を段階的に教えます

[[223595]]はじめに: この記事では、著者の Emmanuel Ameisen が、機械学習...

ガートナー 2019 人工知能成熟サイクルのトレンド

このガートナーのハイプサイクルは、AIが企業に及ぼすさまざまな影響を強調しています。ガートナーの 2...

人工知能と機械学習とデータ分析の違いは何ですか?

調査によると、人工知能はビジネスの生産性を 54% 向上させることができます。さらに、15% の組織...

...

モザイクも安全ではないのですか? 「ブロックバスター」のモザイクはAIによってワンクリックで削除可能

知っていましたか?モザイクはもう安全ではありません!こんにちは、友人の皆さん。私は Jiguo.co...

HellobikeがAIベースのシェアモビリティ技術を発表

Hello Mobilityの非電動車両安全管理システム持続可能な交通の専門企業Hellobikeは...

本当に良いものです!機械学習技術と市場の最強評価ガイド

【51CTO.comオリジナル記事】機械学習の特許は、2013 年から 2017 年の間に 34% ...

...

フォレスター:生成型AIと会話型AIが2023年のトップ10新興テクノロジーを独占

分析会社フォレスターは7月24日、2023年のトップ10新興テクノロジーレポートを発表しました。生成...