人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

人間の動作生成タスクは、エンターテインメント、仮想現実、ロボット工学などの分野のニーズを満たす、リアルな人間の動作シーケンスを生成することを目的としています。従来の生成方法には、3D キャラクターの作成、キーフレームアニメーション、モーションキャプチャなどの手順が含まれますが、時間がかかり、専門的な技術知識が必要であり、高価なシステムとソフトウェアが必要であり、異なるソフトウェアとハードウェアシステム間の互換性の問題が発生する可能性があるなど、多くの制限があります。ディープラーニングの発展に伴い、生成モデルを使用して人間の行動シーケンスを自動的に生成する試みが始まりました。たとえば、テキストの説明を入力すると、モデルはテキストの要件に一致する行動シーケンスを生成する必要があります。この分野に拡散モデルが導入されるにつれて、生成されたアクションと指定されたテキストとの一貫性は向上し続けます。

しかし、生成されたアクションの自然さは、実際の使用要件からは程遠いものです。本論文では、人間の動作生成アルゴリズムの能力をさらに向上させるために、MotionDiffuse [1] に基づいたReMoDiffuseアルゴリズム (図1) を提案する。検索戦略を利用することで、関連性の高い参照サンプルを見つけ、きめ細かい参照特徴を提供することで、より高品質な動作シーケンスを生成する。

論文リンク: https://arxiv.org/pdf/2304.01116.pdf
GitHub: https://github.com/mingyuan-zhang/ReMoDiffuse
プロジェクトのホームページ: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

ReMoDiffuse は、拡散モデルと革新的な検索戦略を巧みに統合することで、テキスト誘導による人間の動作生成に新たな活力を注入します。慎重に設計されたモデル構造により、ReMoDiffuse は、高いリアリティを備えた豊かで多様なアクションシーケンスを作成できるだけでなく、さまざまな長さや多粒度のアクションのニーズにも効果的に対応できます。実験では、ReMoDiffuse がモーション生成の分野における複数の主要指標で優れたパフォーマンスを発揮し、既存のアルゴリズムを大幅に上回っていることが示されています。

図1. ReMoDiffuseの概要

方法の紹介

ReMoDiffuse は主に、取得と拡散の 2 つの段階で構成されます。検索段階では、ReMoDiffuse はハイブリッド検索テクノロジーを使用して、ユーザーの入力テキストと予想されるアクションシーケンスの長さに基づいて外部のマルチモーダルデータベースから情報豊富なサンプルを取得し、アクション生成のための強力なガイダンスを提供します。拡散フェーズでは、ReMoDiffuse は取得フェーズで取得された情報を活用して、効率的なモデル構造を通じてユーザー入力と意味的に一致するモーションシーケンスを生成します。

効率的な検索を確実にするために、ReMoDiffuse は検索フェーズで次のデータフローを慎重に設計します (図 2)。

検索プロセスに関係するデータには、ユーザー入力テキスト、予想されるアクションシーケンスの長さ、複数の <テキスト、アクション> ペアを含む外部マルチモーダルデータベースの 3 種類があります。最も関連性の高いサンプルを取得する際、ReMoDiffuse は数式を使用して、データベース内の各サンプルとユーザー入力との類似性を計算します。ここで最初の項は、事前学習済みのCLIP [2]モデルのテキストエンコーダーを使用して、ユーザー入力テキストとデータベースエンティティのテキスト間のコサイン類似度を計算し、2番目の項は、予想されるアクションシーケンス長とデータベースエンティティのアクションシーケンス長の相対的な差を運動学的類似度として計算します。類似度スコアを計算した後、ReMoDiffuse は類似度の高い上位 k 個のサンプルを取得サンプルとして選択し、テキスト機能とアクション機能を抽出します。これら 2 つは、ユーザー入力テキストから抽出された特徴とともに、アクション生成を導くための拡散段階への入力信号として使用されます。

図2: ReMoDiffuseの回収フェーズ

拡散プロセス (図 3.c) は、順方向プロセスと逆方向プロセスの 2 つの部分で構成されます。フォワードプロセスでは、ReMoDiffuse は生のモーションデータに徐々にガウスノイズを追加し、最終的にランダムノイズに変換します。逆のプロセスでは、ノイズを除去し、リアルなモーションサンプルを生成することに重点を置いています。 ReMoDiffuse は、ランダムなガウスノイズから始めて、セマンティック変調モジュール (SMT) (図 3.a) を使用して、逆プロセスの各ステップで真の分布を推定し、条件付き信号に基づいてノイズを徐々に除去します。ここで、SMT の SMA モジュールは、生成されたシーケンス機能にすべての条件情報を統合し、この論文で提案されているコアモジュールとなります。

図3: ReMoDiffuseの拡散段階

SMA層（図3.b）では、Efficient Attentionメカニズム[3]を使用して、注意モジュールの計算を高速化し、グローバル情報を強調したグローバル特徴マップを作成します。この機能マップは、アクションシーケンスのより包括的な意味的手がかりを提供し、それによってモデルのパフォーマンスを向上させます。 SMA レイヤーの主な目標は、条件情報を集約してアクションシーケンスの生成を最適化することです。このフレームワークでは:

1. Qベクトルは、条件情報に基づいて生成したい予想されるアクションシーケンスを具体的に表します。

2. インデックス作成メカニズムとしてのKベクトルは、現在のアクションシーケンスの特徴、ユーザー入力の意味的特徴、検索サンプルから取得された特徴など、複数の要素を総合的に考慮します。このうち、は検索サンプルから得られたアクションシーケンスの特徴を表し、は検索サンプルから得られたテキスト記述の特徴を表します。この包括的な構築方法により、インデックス作成プロセスにおける K ベクトルの有効性が保証されます。

3. V ベクトルは、アクション生成に必要な実際の機能を提供します。 K ベクトルと同様に、ここでの V ベクトルも、検索サンプル、ユーザー入力、および現在のアクションシーケンスを総合的に考慮します。取得されたサンプルのテキスト記述機能と生成されたアクションの間には直接的な相関関係がないことを考慮して、不要な情報干渉を避けるために、V ベクトルを計算するときにこの機能を使用しないことを選択します。

SMA レイヤーは、Efficient Attention のグローバルアテンションテンプレートメカニズムと組み合わせて、検索サンプルからの補助情報、ユーザーテキストの意味情報、およびノイズ除去するシーケンスの特徴情報を使用して、一連の包括的なグローバルテンプレートを確立し、生成されるシーケンスによってすべての条件情報が完全に吸収されるようにします。

実験と結果

ReMoDiffuseをHumanML3D [4]とKIT-ML [5]の2つのデータセットで評価しました。テキストとモーション品質の一貫性の観点から、実験結果 (表 1 および 2) は、提案された ReMoDiffuse フレームワークの強力なパフォーマンスと利点を示しています。

表1. HumanML3Dテストセットにおけるさまざまな手法のパフォーマンス

表2. KIT-MLテストセットにおけるさまざまな手法のパフォーマンス

以下は、ReMoDiffuse の強力なパフォーマンスを定性的に示すいくつかの例です (図 4)。従来の方法と比較すると、たとえば「円を描いてジャンプする人」というテキストが与えられた場合、ReMoDiffuse だけが「ジャンプ」アクションと「円」のパスを正確にキャプチャできます。これは、ReMoDiffuse がテキストの詳細を効果的にキャプチャし、コンテンツを指定されたモーション期間に合わせることができることを示しています。

図4. ReMoDiffuseと他の方法で生成されたモーションシーケンスの比較

Guoらの方法[4]、MotionDiffuse[1]、MDM[6]、ReMoDiffuseによって生成された対応する動作シーケンスを視覚化し、アンケートの形でテスト参加者の意見を収集した。結果の分布を図5に示します。結果から明らかなように、ほとんどの場合、テスト参加者は、当社の方法、つまり ReMoDiffuse によって生成されたアクションシーケンスが、与えられたテキストの説明と最も一致しており、4 つのアルゴリズムの中で最も自然で流暢であると信じていました。

図5: ユーザー調査結果の分布

<<:

>>: 聞いてください、トランスフォーマーはサポートベクターマシンです