人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

人間の動作生成タスクは、エンターテインメント、仮想現実、ロボット工学などの分野のニーズを満たす、リアルな人間の動作シーケンスを生成することを目的としています。従来の生成方法には、3D キャラクターの作成、キーフレーム アニメーション、モーション キャプチャなどの手順が含まれますが、時間がかかり、専門的な技術知識が必要であり、高価なシステムとソフトウェアが必要であり、異なるソフトウェアとハ​​ードウェア システム間の互換性の問題が発生する可能性があるなど、多くの制限があります。ディープラーニングの発展に伴い、生成モデルを使用して人間の行動シーケンスを自動的に生成する試みが始まりました。たとえば、テキストの説明を入力すると、モデルはテキストの要件に一致する行動シーケンスを生成する必要があります。この分野に拡散モデルが導入されるにつれて、生成されたアクションと指定されたテキストとの一貫性は向上し続けます。

しかし、生成されたアクションの自然さは、実際の使用要件からは程遠いものです。本論文では、人間の動作生成アルゴリズムの能力をさらに向上させるために、MotionDiffuse [1] に基づいたReMoDiffuseアルゴリズム (図1) を提案する。検索戦略を利用することで、関連性の高い参照サンプルを見つけ、きめ細かい参照特徴を提供することで、より高品質な動作シーケンスを生成する。

  • 論文リンク: https://arxiv.org/pdf/2304.01116.pdf
  • GitHub: https://github.com/mingyuan-zhang/ReMoDiffuse
  • プロジェクトのホームページ: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

ReMoDiffuse は、拡散モデルと革新的な検索戦略を巧みに統合することで、テキスト誘導による人間の動作生成に新たな活力を注入します。慎重に設計されたモデル構造により、ReMoDiffuse は、高いリアリティを備えた豊かで多様なアクション シーケンスを作成できるだけでなく、さまざまな長さや多粒度のアクションのニーズにも効果的に対応できます。実験では、ReMoDiffuse がモーション生成の分野における複数の主要指標で優れたパフォーマンスを発揮し、既存のアルゴリズムを大幅に上回っていることが示されています。

図1. ReMoDiffuseの概要

方法の紹介

ReMoDiffuse は主に、取得と拡散の 2 つの段階で構成されます。検索段階では、ReMoDiffuse はハイブリッド検索テクノロジーを使用して、ユーザーの入力テキストと予想されるアクションシーケンスの長さに基づいて外部のマルチモーダル データベースから情報豊富なサンプルを取得し、アクション生成のための強力なガイダンスを提供します。拡散フェーズでは、ReMoDiffuse は取得フェーズで取得された情報を活用して、効率的なモデル構造を通じてユーザー入力と意味的に一致するモーション シーケンスを生成します。

効率的な検索を確実にするために、ReMoDiffuse は検索フェーズで次のデータ フローを慎重に設計します (図 2)。

検索プロセスに関係するデータには、ユーザー入力テキスト、予想されるアクション シーケンスの長さ、複数の <テキスト、アクション> ペアを含む外部マルチモーダル データベースの 3 種類があります。最も関連性の高いサンプルを取得する際、ReMoDiffuse は数式を使用して、データベース内の各サンプルとユーザー入力との類似性を計算します。ここで最初の項は、事前学習済みのCLIP [2]モデルのテキストエンコーダーを使用して、ユーザー入力テキストとデータベースエンティティのテキスト間のコサイン類似度を計算し、2番目の項は、予想されるアクションシーケンス長とデータベースエンティティのアクションシーケンス長の相対的な差を運動学的類似度として計算します。類似度スコアを計算した後、ReMoDiffuse は類似度の高い上位 k 個のサンプルを取得サンプルとして選択し、テキスト機能とアクション機能を抽出します。これら 2 つは、ユーザー入力テキストから抽出された特徴とともに、アクション生成を導くための拡散段階への入力信号として使用されます。

図2: ReMoDiffuseの回収フェーズ

拡散プロセス (図 3.c) は、順方向プロセスと逆方向プロセスの 2 つの部分で構成されます。フォワードプロセスでは、ReMoDiffuse は生のモーション データに徐々にガウス ノイズを追加し、最終的にランダム ノイズに変換します。逆のプロセスでは、ノイズを除去し、リアルなモーション サンプルを生成することに重点を置いています。 ReMoDiffuse は、ランダムなガウスノイズから始めて、セマンティック変調モジュール (SMT) (図 3.a) を使用して、逆プロセスの各ステップで真の分布を推定し、条件付き信号に基づいてノイズを徐々に除去します。ここで、SMT の SMA モジュールは、生成されたシーケンス機能にすべての条件情報を統合し、この論文で提案されているコア モジュールとなります。

図3: ReMoDiffuseの拡散段階

SMA層(図3.b)では、Efficient Attentionメカニズム[3]を使用して、注意モジュールの計算を高速化し、グローバル情報を強調したグローバル特徴マップを作成します。この機能マップは、アクション シーケンスのより包括的な意味的手がかりを提供し、それによってモデルのパフォーマンスを向上させます。 SMA レイヤーの主な目標は、条件情報を集約してアクション シーケンスの生成を最適化することです。このフレームワークでは:

1. Qベクトルは、条件情報に基づいて生成したい予想されるアクションシーケンスを具体的に表します

2. インデックス作成メカニズムとしてのKベクトルは、現在のアクションシーケンスの特徴、ユーザー入力の意味的特徴、検索サンプルから取得された特徴など、複数の要素を総合的に考慮します。このうち、 は検索サンプルから得られたアクションシーケンスの特徴を表し、 は検索サンプルから得られたテキスト記述の特徴を表します。この包括的な構築方法により、インデックス作成プロセスにおける K ベクトルの有効性が保証されます。

3. V ベクトルは、アクション生成に必要な実際の機能を提供します。 K ベクトルと同様に、ここでの V ベクトルも、検索サンプル、ユーザー入力、および現在のアクション シーケンスを総合的に考慮します。取得されたサンプルのテキスト記述機能と生成されたアクションの間には直接的な相関関係がないことを考慮して、不要な情報干渉を避けるために、V ベクトルを計算するときにこの機能を使用しないことを選択します。

SMA レイヤーは、Efficient Attention のグローバル アテンション テンプレート メカニズムと組み合わせて、検索サンプルからの補助情報、ユーザー テキストの意味情報、およびノイズ除去するシーケンスの特徴情報を使用して、一連の包括的なグローバル テンプレートを確立し、生成されるシーケンスによってすべての条件情報が完全に吸収されるようにします。

実験と結果

ReMoDiffuseをHumanML3D [4]とKIT-ML [5]の2つのデータセットで評価しました。テキストとモーション品質の一貫性の観点から、実験結果 (表 1 および 2) は、提案された ReMoDiffuse フレームワークの強力なパフォーマンスと利点を示しています。

表1. HumanML3Dテストセットにおけるさまざまな手法のパフォーマンス

表2. KIT-MLテストセットにおけるさまざまな手法のパフォーマンス

以下は、ReMoDiffuse の強力なパフォーマンスを定性的に示すいくつかの例です (図 4)。従来の方法と比較すると、たとえば「円を描いてジャンプする人」というテキストが与えられた場合、ReMoDiffuse だけが「ジャンプ」アクションと「円」のパスを正確にキャプチャできます。これは、ReMoDiffuse がテキストの詳細を効果的にキャプチャし、コンテンツを指定されたモーション期間に合わせることができることを示しています。

図4. ReMoDiffuseと他の方法で生成されたモーションシーケンスの比較

Guoらの方法[4]、MotionDiffuse[1]、MDM[6]、ReMoDiffuseによって生成された対応する動作シーケンスを視覚化し、アンケートの形でテスト参加者の意見を収集した。結果の分布を図5に示します。結果から明らかなように、ほとんどの場合、テスト参加者は、当社の方法、つまり ReMoDiffuse によって生成されたアクション シーケンスが、与えられたテキストの説明と最も一致しており、4 つのアルゴリズムの中で最も自然で流暢であると信じていました。

図5: ユーザー調査結果の分布

<<: 

>>:  聞いてください、トランスフォーマーはサポートベクターマシンです

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

IoT/AIプロジェクトへの投資家を見つけるのに最適な方法

問題を解決するには、説明するのではなく検証する[[284237]]多くの IoT プロジェクトの提示...

ワークフローをよりスマートにする 5 つの AI ツール

生成 AI の流行は、昨年の ChatGPT の登場から始まりました。わずか 1 年で、このテクノロ...

実行に少量の計算リソースとメモリリソースしか必要としないSmall Llama大規模モデル

背景今日のデータ爆発の時代では、言語モデルのトレーニングはますます複雑かつ困難になっています。効率的...

GPT-4 よりも優れており、クローズドソース モデルよりも優れています。コードラマの謎のバージョンが公開

Code Llama はリリースからわずか 2 日で、再び AI コーディングの革命に火をつけました...

顔認識はどのような技術サポートに依存していますか?個人のプライバシーが漏洩するでしょうか?

[51CTO.com からのオリジナル記事] 顔認識技術は新しいものではありません。多くの人が携帯...

自然言語処理 (NLP) 開発で注目に値するオープン ソース ツールにはどのようなものがありますか?

インテリジェント音声アシスタントとチャットボットは、現在人工知能のホットスポットであり、画期的な進歩...

7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

近年、人工知能などの新世代情報技術や5Gなどの新世代通信技術の急速な発展に伴い、あらゆる分野で科学技...

AIは占いや顔分析ができるのか? 「IQ税」を払わないでください

「五十の大道あり、四十九は天から出たもの、人は一つを逃れる。」人々は未知のものに興味を持ち、その未知...

AIの到来、将来のアプリケーション開発における7つのトレンド

最近テクノロジーのニュースに注目しているなら、良いことであれ悪いことであれ、人工知能に関する何かを読...

脱ぐ!ドローンは1000億元の農薬市場の発展を加速させている

現在、農業の需要と供給の矛盾がますます顕著になる中、植物保護分野におけるドローンの導入と応用は、農業...

データ拡張: データが限られている場合にディープラーニングをどのように使用するか? (下)

私たちは皆、そこに行ったことがあります。機械学習の概念に精通しており、それを機械学習モデルに適用でき...

...

...

OpenAIはGPT-3.5 Turbo、DALL-E、Whisper APIを完全に公開しました

OpenAIは7月10日、開発者のモデル処理効率向上を支援するため、GPT-3.5 Turbo、DA...