データのラベル付けは不要、「3D理解」によるマルチモーダル事前トレーニングの時代へ！ ULIPシリーズは完全にオープンソースで、SOTAをリフレッシュします

3D 形状、2D 画像、および対応する言語記述を整合させることにより、マルチモーダル事前トレーニング手法は3D 表現学習の発展も推進してきました。

しかし、マルチモーダル事前トレーニングフレームワークでデータを収集する既存の方法にはスケーラビリティが欠けており、マルチモーダル学習の可能性は大きく制限されています。最も重要なボトルネックは、言語モダリティのスケーラビリティと包括性にあります。

最近、Salesforce AI はスタンフォード大学およびテキサス大学オースティン校と提携し、3D 理解の新たな章をリードする ULIP (CVP R2023) および ULIP-2 プロジェクトをリリースしました。

論文リンク: https://arxiv.org/pdf/2212.05171.pdf

論文リンク: https://arxiv.org/pdf/2305.08275.pdf

コードリンク: https://github.com/salesforce/ULIP

研究者たちは、3D ポイントクラウド、画像、テキストを使用してモデルを事前トレーニングし、それらを統一された特徴空間に配置するという独自のアプローチを採用しました。このアプローチは、3D 分類タスクで最先端の結果を達成し、画像から 3D への検索などのクロスドメインタスクに新たな可能性をもたらします。

ULIP-2 では、手動によるラベル付けなしでこのマルチモーダル事前トレーニングが可能になり、大規模に拡張可能になります。

ULIP-2 は、ModelNet40 の下流ゼロショット分類で大幅なパフォーマンス向上を達成し、最大精度 74.0% に達しました。実際の ScanObjectNN ベンチマークでは、わずか 140 万のパラメーターで 91.5% の全体精度を達成し、人間による 3D 注釈なしのスケーラブルなマルチモーダル 3D 表現学習における画期的な進歩を示しています。

3 つの特徴 (3D、画像、テキスト) を位置合わせするための事前トレーニングフレームワークの概略図

コードと公開された大規模なトライモーダルデータセット (「ULIP - Objaverse Triplets」および「ULIP - ShapeNet Triplets」) はオープンソース化されています。

背景

3D 理解は人工知能の分野において重要な部分であり、機械が人間のように 3 次元空間を認識して対話することを可能にします。この機能は、自動運転車、ロボット工学、仮想現実、拡張現実などの分野で重要な用途があります。

しかし、3D データの処理と解釈の複雑さ、および 3D データの収集と注釈付けのコストにより、3D 理解は常に大きな課題に直面してきました。

ULIP

トライモーダル事前トレーニングフレームワークとその下流タスク

ULIP（CVPR2023 で承認済み）は、3D ポイントクラウド、画像、テキストを使用してモデルを事前トレーニングし、それらを統一された表現空間に配置する独自のアプローチを採用しています。

このアプローチは、3D 分類タスクで最先端の結果を達成し、画像から 3D への検索などのクロスドメインタスクに新たな可能性をもたらします。

ULIP の成功の鍵は、多数の画像とテキストのペアで事前にトレーニングされた、CLIP などの事前調整された画像およびテキストエンコーダーの使用にあります。

これらのエンコーダーは、3 つのモダリティの機能を統一された表現空間に揃え、モデルが 3D オブジェクトをより効果的に理解して分類できるようにします。

この改善された 3D 表現学習により、モデルの 3D データの理解が強化されるだけでなく、3D エンコーダーがマルチモーダルコンテキストを取得するため、ゼロショット 3D 分類や画像から 3D への検索などのクロスモーダルアプリケーションも可能になります。

ULIP の事前トレーニング損失関数は次のとおりです。

ULIP のデフォルト設定では、α は 0、β と θ は 1 に設定され、各 2 つのモダリティ間の対照学習損失関数は次のように定義されます。ここで、M1 と M2 は 3 つのモダリティのうちの任意の 2 つを指します。

ULIP は画像から 3D への検索に関する実験も実施しており、その結果は次のとおりです。

実験結果は、ULIP 事前トレーニング済みモデルが画像と 3D ポイントクラウド間の意味のあるマルチモーダル機能を学習できることを示しています。

驚くべきことに、最初に取得された 3D モデルは、他の取得された 3D モデルと比較して、クエリ画像の外観に最も近いです。

たとえば、異なる航空機タイプ（戦闘機と旅客機）の画像を検索に使用すると（2 行目と 3 行目）、取得された最も近い 3D ポイントクラウドには、クエリ画像の微妙な違いが保持されます。

ULIP-2

これは、3D オブジェクトのマルチアングルテキスト説明を生成する例です。まず、一連の視点から 3D オブジェクトを 2D 画像にレンダリングし、次に大規模なマルチモーダルモデルを使用して、レンダリングされたすべての画像の説明を生成します。

ULIP をベースにした ULIP-2 は、大規模なマルチモーダルモデルを使用して 3D オブジェクトの包括的な言語記述を生成します。これにより、手動による注釈なしでスケーラブルなマルチモーダル事前トレーニングデータを収集し、事前トレーニングプロセスとトレーニング済みモデルの効率を高め、適応性を高めます。

ULIP-2 のアプローチでは、各 3D オブジェクトに対して複数の角度と異なる言語の説明を生成し、これらの説明を使用してモデルをトレーニングし、3D オブジェクト、2D 画像、および言語の説明が特徴空間内で整列されるようにします。

このフレームワークにより、手動による注釈なしで大規模なトライモーダルデータセットを作成できるようになり、マルチモーダル事前トレーニングの可能性を最大限に引き出すことができます。

ULIP-2 は、生成された大規模な三峰性データセット「ULIP - Objaverse Triplets」と「ULIP - ShapeNet Triplets」もリリースしました。

2つの三峰性データセットの統計

実験結果

ULIP シリーズは、マルチモーダルダウンストリームタスクや 3D 表現の微調整実験において驚くべき成果を達成しました。特に、ULIP-2 の事前トレーニングは、手動による注釈なしで実現できます。

ULIP-2 は、ModelNet40 の下流ゼロショット分類タスクで大幅な改善を達成しました (トップ 1 精度 74.0%)。実際の ScanObjectNN ベンチマークでは、わずか 140 万のパラメーターで 91.5% の全体精度を達成し、手動の 3D 注釈なしでスケーラブルなマルチモーダル 3D 表現学習における画期的な進歩を示しています。

アブレーション実験

どちらの論文も詳細なアブレーション実験を実施しました。

「ULIP: 3D 理解のための言語、画像、ポイントクラウドの統一表現の学習」では、ULIP 事前トレーニングフレームワークに 3 つのモダリティが含まれるため、著者は実験を使用して、モダリティのうち 2 つだけを調整する方がよいか、3 つすべてを調整した方がよいかを調べました。実験結果は次のとおりです。

実験結果から、異なる 3D バックボーン間では、3 つのモダリティをアラインメントする方が 2 つのモダリティのみをアラインメントするよりも優れていることがわかります。これは、ULIP 事前トレーニングフレームワークの合理性も証明しています。

「ULIP-2: 3D 理解のためのスケーラブルなマルチモーダル事前トレーニングに向けて」では、著者らはさまざまな大規模マルチモーダルモデルが事前トレーニングフレームワークに与える影響を調査し、次のような結果を得ました。

実験結果によると、ULIP-2 フレームワークの事前トレーニングの効果は、使用される大規模なマルチモーダルモデルのアップグレードによって向上し、一定の成長の可能性があります。

ULIP-2 では、著者らは、異なる数の視点を使用して 3 峰性データセットを生成すると、全体的な事前トレーニングパフォーマンスにどのような影響が及ぶかについても調査しました。実験結果は次のとおりです。

実験結果によると、事前トレーニング済みモデルのゼロショット分類の効果は、使用される視点の数に応じて増加することがわかりました。

これは、より包括的かつ多様な言語記述がマルチモーダル事前トレーニングにプラスの効果をもたらすという ULIP-2 の見解を裏付けるものでもあります。

さらに、ULIP-2 では、CLIP でソートされたさまざまな Topk 言語の説明を取得することによるマルチモーダル事前トレーニングへの影響も調査しました。実験結果は次のとおりです。

実験結果は、ULIP-2 フレームワークがさまざまな topk に対して堅牢であることを示しています。この論文では、デフォルト設定として top 5 を使用しています。

結論は

Salesforce AI、スタンフォード大学、テキサス大学オースティン校が共同でリリースした ULIP プロジェクト (CVPR2023) と ULIP-2 は、3D 理解の分野に変化をもたらしています。

ULIP は、さまざまなモダリティを統一された空間に調整し、3D 機能の学習を強化し、クロスモーダルアプリケーションを可能にします。

ULIP-2 はさらに一歩進んで、3D オブジェクトの総合的な言語記述を生成し、手動で注釈を付ける必要なしに、多数の三峰性データセットを作成してオープンソース化しました。

これらのプロジェクトは 3D 理解における新たな基準を確立し、機械が 3 次元の世界を真に理解する未来への道を切り開きます。

チーム

Salesforce AI:

Le Xue、Mingfei Gao、Chen Xing、Ning Yu、Shu Zhang、Junnan Li、Caiming Xiong、Ran Xu、Juan carlos niebles、Silvio savarese。

スタンフォード大学:

シルビオ・サヴァレーゼ教授、フアン・カルロス・ニエブレス教授、ジアジュン・ウー教授。

UTオースティン:

ロベルト・マルティン・マルティン教授。

<<:

>>: AI を活用してインテリジェントな医療システムを構築するにはどうすればよいでしょうか?

ブログ

機械学習アルゴリズムの実践 - Platt SMO と遺伝的アルゴリズム最適化 SVM

データのラベル付けは不要、「3D理解」によるマルチモーダル事前トレーニングの時代へ！ ULIPシリーズは完全にオープンソースで、SOTAをリフレッシュします

背景

ULIP

ULIP-2

実験結果

アブレーション実験

結論は

チーム

機械学習アルゴリズムの実践 - Platt SMO と遺伝的アルゴリズム最適化 SVM

魔法のレコメンデーションシステム：6億人のユーザーの音楽シーンを考えるAI

米国、政府による顔認識技術の使用禁止を再法制化へ

2021 年の自然言語処理 (NLP) のトレンドトップ 10

GameGPT: AI によるゲーム開発の自動化

現代の分散ストレージシステムをサポートするアルゴリズム

Nvidiaの自動運転チップOrinはどれほど強力か：CEOのHuang RenxunはL2をデモンストレーションするためにメルセデスベンツを発見し、都市のシーンを簡単に処理できる

推薦する

機械学習のプライバシー研究における新たな進歩: データ強化のリスクは過小評価されており、新しいアルゴリズムは次元依存性を「克服」します

ディープラーニングとニューラルネットワーク: 注目すべき 6 つのトレンド

Daguan Data が自社開発の OCR と NLP 技術を統合し、インテリジェント RPA をリリース<

プロセス産業におけるグリーン製造における人工知能の機会と課題

知湖橋プラットフォームにおける大型モデルの応用と実践

顔認識の乱用は顔だけでなく他の部分にも害を及ぼす

どのような状況で Redis のメモリオーバーフローが発生しますか?解決策は何ですか?

OpenAI の宮殿戦の究極の秘密が明らかに！内部の女性監督が最初にアルトマンを解雇したことが暴露され、マイクロソフトが最大の勝者となった

CVPR 2017 論文の解釈: フィーチャーピラミッドネットワーク FPN

世界のAI支出は2024年に1100億ドルに達すると予想