マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

これは、3D ポイント クラウド用に提案された教師なしカプセル アーキテクチャであり、3D ポイント クラウドの再構築、登録、教師なし分類において SOTA 方式よりも優れています。

物体を理解することは、コンピューター ビジョンにおける中心的な問題の 1 つです。オブジェクト理解タスクの従来の方法では、大規模な注釈付きデータセットに依存できますが、教師なし手法ではラベルが不要になります。最近、研究者たちはこれらの方法を 3D ポイント クラウドに拡張しようと試みましたが、教師なし 3D 学習の分野ではほとんど進歩がありませんでした。

最近、ブリティッシュコロンビア大学、Google Research、トロント大学のWeiwei Sun、Andrea Tagliasacchi、Geoffrey Hintonなどの研究者が、3Dポイントクラウド用の教師なしカプセルネットワークを提案しました。ヒントン氏は次のように語った。「物体の自然な構成要素と、これらの構成要素の固有の参照フレームを教師なしの方法で見つけることは、解析された画像を局所的かつ全体的な階層構造に変換することを学習する上で重要なステップです。」ポイントクラウドから始めれば、それは可能です。

具体的には、順列同変注意を介してオブジェクトのカプセル分解を計算し、ランダムに回転したオブジェクトのペアをトレーニングすることでプロセスを自己監視します。この研究の中心的なアイデアは、アテンションマスクを意味的なキーポイントに集約し、それを使用してカプセル不変性または同値性を満たす分解を監視することです。これにより、意味的に一貫した分解のトレーニングが可能になるだけでなく、オブジェクト中心の推論のための通常の操作も学習できるようになります。この場合、トレーニングには分類ラベルも手動で調整されたトレーニング データセットも必要ありません。

最後に、オブジェクト中心の表現を教師なし学習することで、私たちの方法は、3D ポイント クラウドの再構築、登録、教師なし分類において SOTA 方法よりも優れています。研究者らはソースコードとデータセットを近日中に公開する予定だと述べた。

論文リンク: https://arxiv.org/abs/2012.04718

プロジェクトのホームページ: https://canonical-capsules.github.io/

方法

ネットワークは、以下の図 2 に示すように、整列していないポイント クラウドでトレーニングされます。研究者は、ポイント クラウドを複数のコンポーネントに分解するネットワークをトレーニングし、Siamese トレーニング設定を通じて不変性/等分散性を実現しました。

次に、ポイント クラウドを学習した参照フレームに正規化し、その座標空間で自動エンコーディングを実行します。

損失

教師なし手法では一般的ですが、私たちのフレームワークは、フォーカス マップが表現で取得するさまざまな機能を制御する多数の損失に依存しています。これらの損失はすべて教師なしであり、ラベルを必要としないことに注意してください。研究者たちは、分解、正規化、再構築など、監視するネットワークの部分に応じて損失を整理した。

ネットワークアーキテクチャ

研究者らは、ネットワーク アーキテクチャを含む実装の詳細を簡単に紹介します。

  • エンコーダーE。私たちのアーキテクチャは、[42]で提案された残差接続と注目コンテキストの正規化を備えたDotNetのようなアーキテクチャに基づいています。
  • デコーダーD。式(4)のデコーダはカプセルごとに動作する。この研究で使用されたデコーダーアーキテクチャは、AtlasNetV2 [13](トレーニング可能なグリッドを備えた)に似ています。違いは、この研究では各カプセルのデコードされたポイントクラウドを対応するカプセルポーズで変換することです。
  • 回帰子K。研究者は、記述子を連結し、ReLU 活性化関数を使用して一連の完全接続レイヤーを呼び出して、P カプセルの位置を回帰するだけで済みます。出力層では、線形活性化関数を使用し、さらに出力平均を減算して、正規化されたフレーム内で回帰位置をゼロ中心にします。
  • 正規化された記述子。私たちの記述子は(拡張により)回転不変に近いだけなので、正規化後にカプセル記述子 β_k を再抽出することが有用であることがわかりました。

実験と結果

自動エンコード

研究者らは、ネットワーク タスク (再構築/オート エンコード) のトレーニングに対するアプローチのパフォーマンスを、2 つのトレーニング ベースライン (単一クラスと複数クラスの両方のバリエーションでトレーニング) と比較して評価しました。

AtlasNetV2 [13]は、パッチベースのマルチヘッドデコーダを使用した最先端のオートエンコーダである。

3D-PointCapsNet [58]は、カプセルアーキテクチャを使用した3Dポイントクラウドオートエンコーダです。

以下の表 1 は定量分析の結果を示しています。私たちの方法は、整列設定と非整列設定の両方で SOTA パフォーマンス結果を達成しています。

下の図3は定性分析の結果です。研究者らは、分解ベースの3D点群再構成法と3D-PointCapsNet [58]およびAtlasNetV2 [13]の再構成結果を提示した。

登録

研究者らは、3D ポイント クラウドを登録する能力の観点からこの方法のパフォーマンスを評価し、次の 3 つの基準と比較しました。

  • Deep Closest Points(DCP)[52]:深層学習に基づく点群登録手法。
  • DeepGMR-RRI [56]は、回転不変の特徴を持つガウス混合分布に雲を分解するSOTA法である。
  • DeepGMR–XYZ [56]では、回転不変の特徴を使用せずに生のXYZ座標を入力として使用します。

この研究で採用されたRRIアプローチの変形が使用され、RRI特徴[6]がアーキテクチャへの唯一の入力として使用されます。この論文で RRI 機能を使用する方法は、DeepGMR トレーニング プロトコルに従い、100 サイクルにわたってトレーニングを行いますが、DCP と DeepGMR については、この研究では元の著者の公式実装を使用します。定量分析の結果は以下の表2に示されています。

教師なし分類

本研究では、トレーニング損失に直接関連するタスクである再構成と登録に加えて、トレーニング損失とは関係のない分類タスクにおける本手法の有効性も評価します。結果を以下の表 3 に示します。この論文の方法はすべて SOTA Top-1 の精度を達成しています。

制御変数実験

さらに、標準カプセルのさまざまなコンポーネントがパフォーマンスに与える影響をさらに分析するために、この研究では一連の制御変数実験を実施し、その結果を以下の表 4、表 6、表 7 に示します。

表4: 損失の影響。

表6: 標準記述子の有効性。

表 7: ポイント数によるパフォーマンスへの影響。

<<:  多くの国で人工知能産業が発展を加速している(国際的視点)

>>:  単一のGPUで毎秒30フレームの4Kを実現し、リアルタイムのビデオカットアウトとアップグレードにより髪の毛のディテールを完全に再現します。

ブログ    
ブログ    

推薦する

JD X ロボティクス チャレンジが終了、BUPT チームのインテリジェント ロボットが優勝

3月25日、北京郵電大学のウォータードロップチームが優勝トロフィーを掲げ、JD X部門主催のJD 2...

OpenAIが「Copyright Shield」機能を開始、AI著作権問題の支払いプラットフォーム

IT Homeは11月7日、本日開催されたOpenAI初の開発者会議で、OpenAIが「Copyri...

MIT博士課程修了者で『太極拳』の著者胡淵明氏が中国に戻り、グラフィックスプログラミングに重点を置いたビジネスを始める

MIT 博士号取得者であり太極拳の著者でもある胡元明氏は、学界から産業界へスムーズに移行しました。胡...

AIの不健全で偏った非倫理的な使用

CIO は非倫理的な AI の例を認識し、企業の AI が中立性を保つための自らの役割を理解する必要...

大企業面接のための iAsk の「スケジュール アルゴリズム」、写真 20 枚が当たる

[[341122]]この記事はWeChatの公開アカウント「Xiao Lin Coding」から転載...

人工知能とビッグデータの完璧な組み合わせ

人工知能(AI)は数十年前から存在しています。しかし、最近では「ビッグデータ」の登場により注目が高ま...

マスク氏は世界一の富豪の称号を失い、4000億ドルの高額報酬計画は却下され、テスラの登録地をテキサスに変更する予定

マスク氏は怒り、残酷なことを言った。 決してデラウェア州に法人を登録しないでください。 州裁判所はテ...

Google Cloud の共有: AI を活用して企業価値を生み出す方法

今月、Google Cloud は、顧客やパートナーと人工知能の最新の進歩について議論するエグゼクテ...

...

...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

AIとERPが出会うとどんな「化学反応」が起こるのでしょうか?

生成型人工知能 (GenAI) は、マーケティングや販売などのさまざまなビジネス分野で人気が高まって...

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデ...