3D編集はゲームやバーチャルリアリティなどの分野で重要な役割を果たします。しかし、これまでの3D編集は、処理に時間がかかる、制御性が悪いなどの問題があり、実際のシナリオに適用することが困難でした。最近、南洋理工大学、清華大学、SenseTimeが共同で新しい3D編集アルゴリズム「GaussianEditor」を提案し、初めて2~7分で3Dシーンの制御可能かつ多様な編集を実現し、これまでのすべての3D編集作業を上回りました。 過去 3 年間、3D 編集の分野での研究は、主に NeRF (Neural Radiance Field) に重点が置かれてきました。これは、NeRF が 3D シーン モデリングを高い忠実度で完成できるだけでなく、その暗黙的な特性によってスケーラビリティも大幅に向上し、ポイント クラウドやメッシュなどの従来の方法に比べて大きな利点があるためです。ただし、NeRF はシーン データをエンコードするために高次元の多層知覚ネットワーク (MLP) に依存しているため、一定の制限もあります。これにより、シーンの特定の部分を直接変更することが困難になり、画像の修復やシーンの構成などのタスクが複雑になります。この複雑さはトレーニング プロセスに影響を与えるだけでなく、実際のアプリケーションでの適用も制限します。 上記の問題を解決するために、GaussianEditor は異なるアプローチを採用し、3D 表現としてガウス スプラッティングを選択しました。ガウススプラッティングは半年前に提案された新しいタイプの3D表現です。この表現は、3Dおよび4D再構成などの多くの3DタスクでNeRFを上回り、リリースされるやいなや3D分野で広く注目を集め、今年の3D分野における最大のブレークスルーの1つです。ガウス スプラッティング表現には大きな期待と可能性があり、GaussianEditor は、この 3D 表現の完全な編集を実装した最初のエディタです。このプロジェクトはオープンソース化されており、簡単に学習して使用できる WebUI インターフェースを提供します。
ガウススプラッティングには効率的なレンダリング アルゴリズムがありますが、表示表現としての編集にはかなりの課題があります。大きな問題は、正確で制御可能な編集に不可欠な、編集対象を正確に識別する効果的な方法がないことです。さらに、非常に確率的な生成ガイダンス(安定拡散などの生成拡散モデルなど)を使用してガウススプラッティング(GS)を最適化すると、大きな課題に直面することが示されています。これは、GS が損失の確率性に直接影響され、ニューラル ネットワークによってバッファリングされた暗黙的な表現とは異なるためと考えられます。この直接的な露出により、不安定な更新が発生し、トレーニング中にガウス点の特性が直接変化します。さらに、GS の各トレーニング ステップでは、ニューラル ネットワーク スタイルのバッファリング メカニズムを使用せずに、多数のガウス ポイントを更新する場合があります。これらの問題により、GS の流動性が過度に高まり、トレーニング中の暗黙的な表現のような洗練された結果への収束が妨げられます。 上記の問題を解決するために、チームはまずガウスセマンティックトラッキングを導入し、ガウススプラッティング(GS)の正確な制御を実現しました。ガウス セマンティック トラッキングは、トレーニング中に編集が必要なガウス ポイントを一貫して識別できます。これは、通常は静的な 2D または 3D マスクに依存する従来の 3D 編集方法とは異なります。トレーニング中に 3D モデルの形状と外観が変化すると、これらのマスクは徐々に効果がなくなります。ガウス セマンティック トラッキングは、2D セグメンテーション マスクを 3D ガウス ポイントに投影し、各ガウス ポイントにセマンティック ラベルを割り当てることで、トレーニング プロセス全体にわたってトラッキングを実現します。トレーニング中にガウス点が変化すると、これらのセマンティック ラベルによって特定のターゲット ガウス点を追跡できるようになります。ガウス セマンティック トラッキング アルゴリズムにより、対象領域のみが変更され、正確で制御された編集が可能になります。 下の図の赤い領域が追跡対象領域です。セマンティック追跡領域は、その有効性を確保するためにトレーニング プロセス中に動的に更新されます。 さらに、ガウススプラッティング (GS) では、高度にランダムな生成ガイダンスの下では洗練された結果を達成するのが難しいという重大な課題に対処するために、GaussinEditor は新しい GS 表現である階層的ガウススプラッティング (HGS) を採用しています。 HGS では、ガウス点はトレーニング中に密度が高められる順序に従って、異なる世代に編成されます。以前の緻密化プロセス中に形成されたガウス点は古い世代と見なされ、元の状態を維持するという目的でより厳密に制約され、移動性が低下します。対照的に、後の段階で形成されたガウス点は若い世代と見なされ、適応度を向上させるための制約がほとんどないか、まったくありません。 HGS の設計では、新しい世代の柔軟性を維持しながら、古い世代に制限を課すことで、GS の移動性を効果的に規制します。このアプローチにより、暗黙的な表現でニューラル ネットワークによって実装されたバッファリング機能をエミュレートし、より良い結果に向けて継続的に最適化できるようになります。 これに基づいて、GaussianEditor はガウススパッタリング表現の追加および削除アルゴリズムを提案します。オブジェクトの削除に関しては、チームはオブジェクトとシーンのインターフェースにあるアーティファクトを効果的に除去する特殊なローカル修復アルゴリズムを開発しました。ターゲットの追加に関しては、GaussianEditor は、ユーザーが提供するテキスト プロンプトと 2D マスクに基づいて、指定されたターゲットを指定された領域に追加できます。 GaussianEditor はまず、2D 画像インペインティング アルゴリズムを使用して、追加するオブジェクトの単一ビュー画像を生成します。次に、画像は Image to 3D アルゴリズムを通じて 3D GS に変換されます。最後に、ターゲットがガウスシーンに組み込まれます。 比較実験では、GaussianEditor は、視覚的な品質、定量的な指標、制御性、生成速度の点で以前の研究を大幅に上回っています。 研究チームはまた、アブレーション実験を通じて、提案したガウス意味追跡と階層的ガウス表現の有効性を検証しました。 高度な 3D 編集アルゴリズムである GaussianEditor は、3D シーンの柔軟かつ高速な編集に重点を置いており、初めてガウス スパッタリングの編集を実現します。 アルゴリズムの主な特徴は次のとおりです。
|
背景ChatGPTを日常的に使用する際に、ネットワーク制限、アカウント制限、公式フロー制限など、次の...
拡散モデルを使用して化学反応を予測すると、速度が1,000 倍向上します。かつてはコンピューターで計...
Alpha Goの勝利により、人工知能における「ディープラーニング」の概念が急速に普及し、画像認識の...
「データ カタログ」という概念は、実は新しいものではありません。メインフレームの時代から、企業はデー...
教育革命が起こっており、人工知能は2032年までに882億ドルに達すると予想されています。人工知能(...
人工知能の概念の普及に伴い、サービスロボット業界も近年ますます注目を集めています。資本市場のサービス...
[51CTO.com クイック翻訳] ロボットは登場しましたが、現在はほとんど世間の注目を浴びていま...
[[399442]]アルゴリズム技術を改善し、アルゴリズムの適用を標準化することによってのみ、技術...
9月25日、アリババ人工知能研究所は雲啓カンファレンスで、Tmall Genieは現在660以上のI...
30年後には失業が大きな問題になるだろう!私たちの子どもたちはどうするのでしょうか?私が誇張している...
[51CTO.com クイック翻訳] 人工知能ツールを導入する IT リーダーは、責任の取り方、プラ...