3D特殊効果アーティストはもう家に帰れる丨科学

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

少し前に話題になったSMエンターテインメントの電子スクリーンウェーブを覚えていますか？

そういった特殊効果を人工的に作るには、コストがかかるかもしれないが、結局のところ、「すべてのお金はファンからの寄付」と呼ばれている。

しかし現在、DeepMind やスタンフォード大学を含む科学者グループがグラフネットワークシミュレーター、 GNSフレームワークを開発しました。AI は、シーン内の流体を「見る」だけで、それをシミュレートできます。

流体、硬い固体、変形可能な材料など、GNS はそれを鮮明にシミュレートできます。研究者らはまた、次のように述べています。

GNS フレームワークは、これまでで最も正確な汎用学習物理シミュレーターです。

さらに、この研究は最近、トップジャーナル「サイエンス」に掲載されました。

これは、CG特殊効果の敷居を大幅に下げただけでなく、非常にリアルな効果を生み出した、清華大学ヤオクラスの卒業生である胡淵明が開発した『太極拳』を思い起こさざるを得ません。

DeepMindとスタンフォード大学のこの研究でも、胡淵明の太極拳が役割を果たした。

彼らは、ベースライン効果の 1 つとして、胡氏の太極拳を使用して 2D および 3D のチャレンジシーンを生成しました。

どれくらい効果があるのでしょうか? Scienceはソーシャルネットワークでコメントしました:

「おそらくハリウッドがこのシミュレーターに投資するだろう。」

これがあなたの頭の中にある絵です。

私たち人間は、「経験」を通じて、ある場面について語るときに、その動的な絵をすぐに想像することができます。

では、AIが作り出した視覚効果は想像通りのものなのでしょうか？

まず、ガラス容器に水が落ちる 3D 効果があります。

まさに私たちが想像していた通りの物理的効果ですね！

左側のベースライン手法はSPH (Smoothed Particle Hydrodynamics) と呼ばれ、1992 年に提案された流体をシミュレートするための粒子ベースの手法です。

右は、AIが「見る」ことで予測した結果が研究者らが提案するGNS方式です。

スローモーションで両者の詳細な違いを見てみましょう。

GNS方式の方が水しぶきなどの細部の処理が細かく、私たちの印象に近いことが分かります。

もちろん、GNS は液体を処理できるだけでなく、他の状態のオブジェクトをシミュレートすることもできます。

例えば、粒状の砂。

粘着物もあります。

上記 2 つの効果のベースライン手法は、1995 年に提案され、相互作用する変形可能な材料に適したMPM (Material Point Method) です。

同様に、ガラス容器の壁に散らばる粒子の詳細に関しても、GNS 予測結果は実際の物理世界における影響とより一致しています。

では、このようなリアルな効果はどのようにして実現されるのでしょうか?

図5. 流体をシミュレートするネットワークシミュレータ

従来の特殊効果計算方法

これまで、実際の物体のシミュレーションには多くの計算が必要でしたが、前述の MPM もその 1 つです。

この方法は、物質点法と呼ばれ、物質を非常に多数の粒子に離散化し、空間微分を計算して運動量方程式を解きます。

Hu YuanmingらによるMLS-MPMの改良により、オブジェクトのシミュレーション速度が大幅に向上し、元のMPMの約2倍になりました。

さらに、PBD と呼ばれる手法では、水に浮かぶブロックの動的効果を計算してシミュレートできます。

これら 2 つの方法に加えて、生成された水の 3D 特殊効果を計算するために使用される SPH と呼ばれる古くて古典的な方法もあります。

大量のコンピューティングを使用してシミュレートされるこれらの現実のシナリオと比較して、ニューラルネットワークを使用してトレーニングした場合、現実のシナリオでオブジェクトがヒットしたときの効果をシミュレートし、これらの方法によって生成される効果と非常に似たものにすることは可能でしょうか。

ネットユーザーはこのアイデアに驚いた。結局のところ、人間の脳による流体や物体の衝撃の影響のシミュレーションは、大量の機械計算によって得られるものではなく、ニューラルネットワークを通じてシミュレートされるのだ。

このアイデアに基づいて、DeepMind は GNS を使用してこれらの生成されたモデルをトレーニングし、実際のシーン内のオブジェクトの特殊効果をシミュレートしました。

グラフネットワークはオブジェクトの効果を予測する

GNSシミュレーションの最も基本的な原理は、一定体積の物体モデルXを多数の粒子に分散させ、シミュレータsθに当ててその形状に変換することです。

下の図からわかるように、シミュレータ sθ の目的は、この流体を動的モデル dθ に入力し、生成されたフレームごとの結果を使用してオブジェクトの変形プロセスを更新することです。

シミュレーターが十分に速く更新される限り、ガラスの箱の中で物体が衝撃を受けて変形する様子を見ることができます。

△写真の右側はシミュレーターによって生成された効果を示しています

ここで重要なポイントは、動的モデル dθ をどのように実装するかということです。

チームは「3段階」アプローチを採用し、モデルをエンコーダー、プロセッサ、デコーダーの3つの部分に分割しました。

物体がエンコーダを通過すると、エンコーダは物体内で元々散乱していた粒子を構造化して「目に見えない」画像を形成します。

プロセッサでは、グラフ内の粒子間の関係が変化し続け、グラフネットワークによって学習された伝送情報がグラフ上で M 回反復されます。

最後に、デコーダーは最後の反復で取得されたグラフから反復された動的情報 Y を抽出します。

オブジェクト X にフィードバックを与えると、オブジェクト内のパーティクルがフレームごとに変更され、連続的な変化がシミュレートされた液体の形状になります。

物体の形状に関係なく、GNS によって予測される効果は真の値に非常に近いことがわかります。

革新

液体をシミュレートする以前のニューラルネットワークと比較すると、GNS の最大の改善点は、さまざまなオブジェクトタイプを入力ベクトルの特徴に変換することです。

異なる特徴を持つ異なる種類の物体（砂、水、コロイドなど）を区別するだけで、それらの状態を表現することができます。

比較すると、DLP と呼ばれる以前のニューラルネットワークベースの液体シミュレーターは、GNS に比べて複雑すぎました。

さまざまな流体モデルをシミュレートする場合、DLP は粒子間の相対的な変位を継続的に保存する必要があり、異なる流体タイプに合わせてモデルを変更する必要さえあります。必要な計算量が膨大すぎます。

それだけでなく、GNS のシミュレーション効果は DLP ベースのシミュレータよりもさらに優れています。

詳細情報

以下は、GNS と DLP 原理に基づく拡張 CConv シミュレータの効果の比較です。

CConv と比較すると、GNS はさまざまなオブジェクトタイプのシミュレーションに優れています。次の図は、2 つを組み合わせて水に浮かぶ立方体をシミュレーションしたときに生成される効果を示しています。

GNS で生成されたブロックは真値と同じように水中で自由に浮いているのに対し、CConv で生成されたブロックは水の衝撃で直接変形している（生命によって破壊されている）ことがわかります。

真の値と比較した平均二乗誤差 (MSE) を使用して比較すると、GNS はさまざまなオブジェクト形式で CConv よりも優れたパフォーマンスを発揮します。

さらに、下の図は、強化学習におけるロールアウトおよびワンステップアルゴリズム戦略を使用した GNS の平均二乗誤差効果を示しています。 (反復回数、GN パラメータの共有の有無、接続半径、トレーニングノイズの量、関連/独立エンコーダなど)

あらゆる面で、ロールアウト（下部）を摂取する方がワンステップを摂取するよりもはるかに効果があることがわかります。

それだけでなく、赤い部分は GNS モデルが最終的に採用した戦略です。すべての戦略で平均二乗誤差が最低に抑えられていることがわかります。

4人が共同執筆

この研究は主にDeepMindとスタンフォード大学の共同研究でした。

この論文の共同筆頭著者は4人です。

[[335117]]

△ アルバロ・サンチェス・ゴンザレス

アルバロ・サンチェス・ゴンザレスは、学部と修士課程でそれぞれ物理学とコンピュータサイエンスを専攻しました。この経歴に基づき、博士課程では、物理学研究におけるいくつかの課題を解決するためにコンピュータ手法を使用することに主に重点を置きました。

彼は 2017 年に Google DeepMind チームに加わり、主に構造化手法と強化学習に関する研究に取り組んできました。

[[335118]]

△ ジョナサン・ゴドウィン

ジョナサン・ゴドウィンは2018年3月にDeepMindに入社し、2019年11月にシニアリサーチエンジニアに昇進しました。

以前は、情報技術サービス会社 Bit by Bit Computer Consulting や金融会社 Community Capital の CEO を務め、自らビジネスを立ち上げた経験もあります。

彼は自身のビジネスを立ち上げた後、DeepMindに入社する前は、コンピューターソフトウェア会社Bloomsbury AIで機械学習エンジニアとして1年以上働いていました。

[[335119]]

△トビアス・パフ

Tobias Pfaff は、物理シミュレーションと機械学習の交差点に取り組んでいる DeepMind の研究科学者です。

彼は、ETH チューリッヒとカリフォルニア大学バークレー校でそれぞれ博士課程と博士研究員課程を修了しました。

[[335120]]

△レックス・イン

4 人目の共同筆頭著者は、現在スタンフォード大学で博士号取得を目指している Rex Ying です。彼の研究は、グラフ構造データ用の機械学習アルゴリズムの開発に重点を置いています。

2016年、彼はデューク大学を優秀な成績で卒業し、コンピューターサイエンスと数学を専攻しました。

…

最後に、AIがこのような複雑な流体の動きを「見る」ことでシミュレートすることに関して、ネットユーザーは次のように考えています。

脳は、複雑な機械式ではなく、ニューラルネットワークに頼ることで、さまざまな複雑な動きをシミュレートできます。

それだけでなく、この技術は映画、テレビ、ゲーム業界における特殊効果のコストを大幅に削減する可能性もあります。

それで、この技術は有望だと思いますか?

<<: 機械学習における 5 つの現実的な問題とビジネスへの影響

>>: 人工知能は法曹界に新たな形を与えています。法務テクノロジー企業はどのようにしてクライアントにグローバルなサービスを提供できるのでしょうか?

3D特殊効果アーティストはもう家に帰れる丨科学

これがあなたの頭の中にある絵です。

図5. 流体をシミュレートするネットワークシミュレータ

従来の特殊効果計算方法

グラフネットワークはオブジェクトの効果を予測する

革新

詳細情報

4人が共同執筆

人工知能は企業の持続可能な発展をどのようにサポートできるのでしょうか?

Google の最も神秘的な研究所の秘密を解明: Google のハードウェアをソフトウェアと同じくらいスマートにするブラックテクノロジーを開発

賈陽青氏がフェイスブックを辞任し、アリババ・シリコンバレー研究所の副社長に就任したことが明らかになった。

Meta主任AI研究者ヤン・リクン氏：今日のAIは愚かであり、規制当局は我々に干渉すべきではない

GPT-4の最強代替アップデート！カリフォルニア大学バークレー校がVicuna v1.5をリリース、4Kおよび16Kコンテキストをサポート、SOTAをリフレッシュ、LeCunが賞賛を再投稿

責任あるAIの未来を探る

キロメートル認識誤差5%未満の世界最先端の超長距離精密3Dセンシング技術をリリース。

ファーウェイクラウドは、2021年世界インターネット会議で人工知能イノベーションの3つの要素を提案し、新たな産業エコシステムを構築

テストフレームワーク - 安全性と自動運転

SFUとアリババは、複雑さを線形に減らし、パフォーマンスを向上させる一般的なQuadTree Attentionを提案した。

推薦する

AI、新たなアリババとテンセント

2021 年の世界トップ 10 の人工知能アプリケーション

機械学習をマスターするのに役立つ13のフレームワーク

新しい機械学習アプローチによりエネルギー消費を20%削減

過大評価された5つのテクノロジー：誇大宣伝の裏にある現実を探る

Nature の論文が xAI の目標を検証、人間の認知 AI が宇宙の本質を探る、マスク氏: 黙ってろ、金やるぞ!

米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員：給料をもう少し下げてもいい

本物と見間違えるほどリアルなAI変顔技術は本当に完璧なのか？

Belcorp CIO: AI による IT 研究開発の見直し

中国チームが最優秀論文賞と最優秀システム論文賞を受賞し、CoRLの受賞論文が発表されました。

ワールドカップで物議を醸したVARテクノロジーはどのようにして生まれたのでしょうか?

小学生は「ゴールデンフープ」を着用します。これは、授業中の注意散漫をリアルタイムで監視し、教師や保護者に自動的に報告する脳コンピューターインターフェースヘッドバンドです。

よく使われる8つのソートアルゴリズム - Javaコード実装

いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラックテクノロジーになりました。

ジョークが理解できなかったらどうすればいいですか？ Google の新しい 5400 億パラメータモデルは、ジョークを説明したり、絵文字表現から映画を推測したりできます