データのラベル付けは不要、「3D理解」によるマルチモーダル事前トレーニングの時代へ! ULIPシリーズは完全にオープンソースで、SOTAをリフレッシュします

データのラベル付けは不要、「3D理解」によるマルチモーダル事前トレーニングの時代へ! ULIPシリーズは完全にオープンソースで、SOTAをリフレッシュします

3D 形状、2D 画像、および対応する言語記述を整合させることにより、マルチモーダル事前トレーニング手法は3D 表現学習の発展も推進してきました。

しかし、マルチモーダル事前トレーニング フレームワークでデータを収集する既存の方法にはスケーラビリティが欠けており、マルチモーダル学習の可能性は大きく制限されています。最も重要なボトルネックは、言語モダリティのスケーラビリティと包括性にあります。

最近、Salesforce AI はスタンフォード大学およびテキサス大学オースティン校と提携し、3D 理解の新たな章をリードする ULIP (CVP R2023) および ULIP-2 プロジェクトをリリースしました。

論文リンク: https://arxiv.org/pdf/2212.05171.pdf

論文リンク: https://arxiv.org/pdf/2305.08275.pdf

コードリンク: https://github.com/salesforce/ULIP

研究者たちは、3D ポイント クラウド、画像、テキストを使用してモデルを事前トレーニングし、それらを統一された特徴空間に配置するという独自のアプローチを採用しました。このアプローチは、3D 分類タスクで最先端の結果を達成し、画像から 3D への検索などのクロスドメイン タスクに新たな可能性をもたらします。

ULIP-2 では、手動によるラベル付けなしでこのマルチモーダル事前トレーニングが可能になり、大規模に拡張可能になります。

ULIP-2 は、ModelNet40 の下流ゼロショット分類で大幅なパフォーマンス向上を達成し、最大精度 74.0% に達しました。実際の ScanObjectNN ベンチマークでは、わずか 140 万のパラメーターで 91.5% の全体精度を達成し、人間による 3D 注釈なしのスケーラブルなマルチモーダル 3D 表現学習における画期的な進歩を示しています。


3 つの特徴 (3D、画像、テキスト) を位置合わせするための事前トレーニング フレームワークの概略図

コードと公開された大規模なトライモーダル データセット (「ULIP - Objaverse Triplets」および「ULIP - ShapeNet Triplets」) はオープン ソース化されています。

背景

3D 理解は人工知能の分野において重要な部分であり、機械が人間のように 3 次元空間を認識して対話することを可能にします。この機能は、自動運転車、ロボット工学、仮想現実、拡張現実などの分野で重要な用途があります。

しかし、3D データの処理と解釈の複雑さ、および 3D データの収集と注釈付けのコストにより、3D 理解は常に大きな課題に直面してきました。

ULIP

トライモーダル事前トレーニングフレームワークとその下流タスク

ULIP(CVPR2023 で承認済み)は、3D ポイント クラウド、画像、テキストを使用してモデルを事前トレーニングし、それらを統一された表現空間に配置する独自のアプローチを採用しています。

このアプローチは、3D 分類タスクで最先端の結果を達成し、画像から 3D への検索などのクロスドメイン タスクに新たな可能性をもたらします。

ULIP の成功の鍵は、多数の画像とテキストのペアで事前にトレーニングされた、CLIP などの事前調整された画像およびテキスト エンコーダーの使用にあります。

これらのエンコーダーは、3 つのモダリティの機能を統一された表現空間に揃え、モデルが 3D オブジェクトをより効果的に理解して分類できるようにします。

この改善された 3D 表現学習により、モデルの 3D データの理解が強化されるだけでなく、3D エンコーダーがマルチモーダル コンテキストを取得するため、ゼロショット 3D 分類や画像から 3D への検索などのクロスモーダル アプリケーションも可能になります。

ULIP の事前トレーニング損失関数は次のとおりです。

ULIP のデフォルト設定では、α は 0、β と θ は 1 に設定され、各 2 つのモダリティ間の対照学習損失関数は次のように定義されます。ここで、M1 と M2 は 3 つのモダリティのうちの任意の 2 つを指します。

ULIP は画像から 3D への検索に関する実験も実施しており、その結果は次のとおりです。

実験結果は、ULIP 事前トレーニング済みモデルが画像と 3D ポイント クラウド間の意味のあるマルチモーダル機能を学習できることを示しています。

驚くべきことに、最初に取得された 3D モデルは、他の取得された 3D モデルと比較して、クエリ画像の外観に最も近いです。

たとえば、異なる航空機タイプ(戦闘機と旅客機)の画像を検索に使用すると(2 行目と 3 行目)、取得された最も近い 3D ポイント クラウドには、クエリ画像の微妙な違いが保持されます。

ULIP-2

これは、3D オブジェクトのマルチアングルテキスト説明を生成する例です。まず、一連の視点から 3D オブジェクトを 2D 画像にレンダリングし、次に大規模なマルチモーダル モデルを使用して、レンダリングされたすべての画像の説明を生成します。

ULIP をベースにした ULIP-2 は、大規模なマルチモーダル モデルを使用して 3D オブジェクトの包括的な言語記述を生成します。これにより、手動による注釈なしでスケーラブルなマルチモーダル事前トレーニング データを収集し、事前トレーニング プロセスとトレーニング済みモデルの効率を高め、適応性を高めます。

ULIP-2 のアプローチでは、各 3D オブジェクトに対して複数の角度と異なる言語の説明を生成し、これらの説明を使用してモデルをトレーニングし、3D オブジェクト、2D 画像、および言語の説明が特徴空間内で整列されるようにします。

このフレームワークにより、手動による注釈なしで大規模なトライモーダル データセットを作成できるようになり、マルチモーダル事前トレーニングの可能性を最大限に引き出すことができます。

ULIP-2 は、生成された大規模な三峰性データセット「ULIP - Objaverse Triplets」と「ULIP - ShapeNet Triplets」もリリースしました。

2つの三峰性データセットの統計

実験結果

ULIP シリーズは、マルチモーダル ダウンストリーム タスクや 3D 表現の微調整実験において驚くべき成果を達成しました。特に、ULIP-2 の事前トレーニングは、手動による注釈なしで実現できます。

ULIP-2 は、ModelNet40 の下流ゼロショット分類タスクで大幅な改善を達成しました (トップ 1 精度 74.0%)。実際の ScanObjectNN ベンチマークでは、わずか 140 万のパラメーターで 91.5% の全体精度を達成し、手動の 3D 注釈なしでスケーラブルなマルチモーダル 3D 表現学習における画期的な進歩を示しています。

アブレーション実験

どちらの論文も詳細なアブレーション実験を実施しました。

「ULIP: 3D 理解のための言語、画像、ポイント クラウドの統一表現の学習」では、ULIP 事前トレーニング フレームワークに 3 つのモダリティが含まれるため、著者は実験を使用して、モダリティのうち 2 つだけを調整する方がよいか、3 つすべてを調整した方がよいかを調べました。実験結果は次のとおりです。

実験結果から、異なる 3D バックボーン間では、3 つのモダリティをアラインメントする方が 2 つのモダリティのみをアラインメントするよりも優れていることがわかります。これは、ULIP 事前トレーニング フレームワークの合理性も証明しています。

「ULIP-2: 3D 理解のためのスケーラブルなマルチモーダル事前トレーニングに向けて」では、著者らはさまざまな大規模マルチモーダル モデルが事前トレーニング フレームワークに与える影響を調査し、次のような結果を得ました。

実験結果によると、ULIP-2 フレームワークの事前トレーニングの効果は、使用される大規模なマルチモーダル モデルのアップグレードによって向上し、一定の成長の可能性があります。

ULIP-2 では、著者らは、異なる数の視点を使用して 3 峰性データセットを生成すると、全体的な事前トレーニング パフォーマンスにどのような影響が及ぶかについても調査しました。実験結果は次のとおりです。

実験結果によると、事前トレーニング済みモデルのゼロショット分類の効果は、使用される視点の数に応じて増加することがわかりました。

これは、より包括的かつ多様な言語記述がマルチモーダル事前トレーニングにプラスの効果をもたらすという ULIP-2 の見解を裏付けるものでもあります。

さらに、ULIP-2 では、CLIP でソートされたさまざまな Topk 言語の説明を取得することによるマルチモーダル事前トレーニングへの影響も調査しました。実験結果は次のとおりです。

実験結果は、ULIP-2 フレームワークがさまざまな topk に対して堅牢であることを示しています。この論文では、デフォルト設定として top 5 を使用しています。

結論は

Salesforce AI、スタンフォード大学、テキサス大学オースティン校が共同でリリースした ULIP プロジェクト (CVPR2023) と ULIP-2 は、3D 理解の分野に変化をもたらしています。

ULIP は、さまざまなモダリティを統一された空間に調整し、3D 機能の学習を強化し、クロスモーダル アプリケーションを可能にします。

ULIP-2 はさらに一歩進んで、3D オブジェクトの総合的な言語記述を生成し、手動で注釈を付ける必要なしに、多数の三峰性データセットを作成してオープンソース化しました。

これらのプロジェクトは 3D 理解における新たな基準を確立し、機械が 3 次元の世界を真に理解する未来への道を切り開きます。

チーム

Salesforce AI:

Le Xue、Mingfei Gao、Chen Xing、Ning Yu、Shu Zhang、Junnan Li、Caiming Xiong、Ran Xu、Juan carlos niebles、Silvio savarese。

スタンフォード大学:

シルビオ・サヴァレーゼ教授、フアン・カルロス・ニエブレス教授、ジアジュン・ウー教授。

UTオースティン:

ロベルト・マルティン・マルティン教授。

<<: 

>>:  AI を活用してインテリジェントな医療システムを構築するにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能の商業化における問題点をどう解決するか?

「2018年中国人工知能商業上陸研究報告」によると、過去1年間、業界は人工知能に大きな期待を寄せ、...

私の国はAI医療機器の標準化を加速しています

今年は、新たに改訂された「医療機器監督管理条例」の実施初年度であり、企業の主な責任がより顕著になり、...

医薬品開発の近代化への道:AI技術の適用から得られた経験と教訓

医薬品の発見と開発の加速は大きなビジネスであり、業界の運営コストは高いため、急速に成長しているこの業...

...

NLP フィールド インデックス ツール、3000 以上のコード ベース、論文や GitHub ライブラリのワンクリック検索

検索について言えば、学術的な検索も科学です。検索を上手に使いこなすと、必要な学術情報を素早く見つける...

...

あなたの周りの偽のAI

他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...

人工知能とブロックチェーンが連携すると、どのような技術的利益が生まれるのでしょうか?

ブロックチェーンと人工知能は、現在のテクノロジー業界で最も注目されている2つの業界です。Statis...

高度な分析とコンピューティング技術の出現が世界のインテリジェントアプリケーション市場を牽引

世界的なスマート アプリケーション市場の成長は、高度なコンピューティングおよび分析テクノロジによって...

...

AIスタートアップで2年間働いて学んだ7つのこと

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

自動運転が何千もの家庭に普及するまでにどれくらいの時間がかかるのでしょうか?

2019年9月に百度、海亮科技、センスタイムなどの企業が世界初の自動運転車の商用ライセンスを取得し...

自動運転の未来 - 4Dミリ波レーダー

現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...

MySQL ページング最適化の「ページング アルゴリズムを最適化する INNER JOIN メソッド」はどのような状況で有効になりますか?

最近、偶然にMySQLのページング最適化のテストケースを見ました。テストシナリオを詳しく説明せずに、...