Point Transformer V3: よりシンプルに、より速く、より強力に!

Point Transformer V3: よりシンプルに、より速く、より強力に!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

元のタイトル: Point Transformer V3: よりシンプルに、より速く、より強く

論文リンク: https://arxiv.org/pdf/2312.10035.pdf

コードリンク: https://github.com/Pointcept/PointTransformerV3

著者ユニット: HKU SH AI Lab MPI PKU MIT

論文のアイデア:

この論文は、注意メカニズム内での革新を追求することを意図するものではありません。代わりに、スケールの力を活用して、ポイント クラウド処理のコンテキストにおける精度と効率の間の既存のトレードオフを克服することに重点を置いています。この論文では、3D 大規模表現学習の最近の進歩からインスピレーションを得て、モデルのパフォーマンスは設計の複雑さよりも規模の影響を受けやすいことを認識しています。そのため、本論文では、KNN の正確な近傍検索を特定のパターンに編成されたポイント クラウドの効率的なシリアル化された近傍マッピングに置き換えるなど、スケーリング後の全体的なパフォーマンスへの影響が少ない特定のメカニズムよりも、精度よりもシンプルさと効率を優先する Point Transformer V3 (PTv3) を提案します。この原理により、大幅なスケーリングが可能になり、受容野が 16 ポイントから 1024 ポイントに拡張され、高い効率性を維持します (前身の PTv2 に比べて処理速度が 3 倍、メモリ効率が 10 倍)。 PTv3 は、屋内と屋外の両方のシーンをカバーする 20 を超えるダウンストリーム タスクで最先端の結果を達成します。 PTv3 は、マルチデータセットの共同トレーニングによるさらなる機能強化を通じて、これらの結果を次のレベルに押し上げます。

ネットワーク設計:

3D表現学習における最近の進歩[85]は、複数の3Dデータセットにわたる共同トレーニング手法を導入することで、点群処理におけるデータサイズの制限を克服する進歩を遂げました。この戦略と組み合わせることで、効率的な畳み込みバックボーン[12]は、ポイントクラウドトランスフォーマー[38、84]に一般的に関連付けられている精度のギャップを効果的に埋めます。ただし、ポイント クラウド トランスフォーマー自体は、スパース畳み込みと比較した効率のギャップのため、このスケールの利点をまだ十分に享受できていません。この発見が、スケーリング原理の観点からポイント変圧器の設計上の選択を再評価するという、この研究の当初の動機を形作りました。この論文では、モデルのパフォーマンスは複雑な設計よりも規模によって大きく左右されると主張しています。

したがって、本稿では、スケーラビリティを実現するために、いくつかのメカニズムの精度よりもシンプルさと効率性を優先する Point Transformer V3 (PTv3) を紹介します。このような調整は、スケーリング後の全体的なパフォーマンスにほとんど影響を与えません。具体的には、PTv3 は優れた効率性とスケーラビリティを実現するために、次の調整を行いました。

  • PTv3は、最近の2つの進歩[48、77]に触発され、構造化ポイントクラウドから非構造化ポイントクラウドへのスケーラビリティの利点を認識し、K近傍法(KNN)クエリによって定義される従来の空間近接性を変換します。これは、転送時間の28%を占めます。代わりに、特定のパターンに従って編成されたポイント クラウド内のシリアル化された近隣の可能性を探ります。
  • PTv3 は、シフト ウィンドウ (アテンション オペレーターの融合を妨げる) や近傍メカニズム (メモリ消費量の増加につながる) などのより複雑なアテンション パッチ相互作用メカニズムを、シリアル化されたポイント クラウド向けに調整された簡素化されたアプローチに置き換えます。
  • PTv3 では、転送時間の 26% を占める相対位置エンコーディングへの依存がなくなり、よりシンプルなフロントエンドのスパース畳み込み層が採用されています。

私たちは、これらの設計は、スケーリングの原理と既存のポイント クラウド トランスフォーマーの進歩によってもたらされた直感的な選択であると主張します。重要なのは、この記事では、詳細なモジュール設計ではなく、スケーラビリティがバックボーン設計にどのように影響するかを理解することの重要性を強調していることです。

この原理により、スケーラビリティが大幅に向上し、精度と効率の間の従来のトレードオフが克服されます (図 1 を参照)。 PTv3 は、前世代に比べて推論速度が 3.3 倍高速化し、メモリ使用量が 10.2 倍削減されます。さらに重要なのは、PTv3 が認識範囲を拡大する固有の能力を活用して、効率性を維持しながら受容フィールドを 16 ポイントから 1024 ポイントに拡張することです。このスケーラビリティは、現実世界の認識タスクにおける優れたパフォーマンスをサポートし、PTv3 は屋内と屋外の両方のシーンで 20 を超えるダウンストリーム タスクで最先端の結果を達成します。 PTv3は、マルチデータセットトレーニングを通じてデータサイズをさらに拡大することで、これらの結果をさらに改善します[85]。この記事から得た洞察が、この方向への将来の研究に刺激を与えることを願っています。

図 1. Point Transformer V3 (PTv3) の概要。前身のPTv2[84]と比較すると、当社のPTv3は以下の点で優れています。1. パフォーマンスの向上。 PTv3 は、屋内および屋外のさまざまな 3D 認識タスクで最先端の結果を達成します。 2. 受容野が広くなる。シンプルさと効率性を活かして、PTv3 は受信フィールドを 16 ポイントから 1024 ポイントに拡張します。 3. 速度が速くなります。 PTv3 は処理速度を大幅に向上させ、遅延の影響を受けやすいアプリケーションに適しています。 4. メモリ消費量を削減します。 PTv3 はメモリ使用量を削減し、より幅広い状況でのアクセシビリティを向上させます。

図 2. PTv2 コンポーネントの遅延ツリー図。この論文では、PTv2 の各コンポーネントの転送時間比をベンチマークし、視覚化します。 KNN クエリと RPE を合わせると、転送時間の 54% を占めます。

図 3. ポイント クラウドのシリアル化。この記事では、トリプル視覚化を通じて 4 つのシリアル化パターンを示します。各トリプレットについて、シリアル化に使用される空間充填曲線 (左)、空間充填曲線内のポイント クラウド シリアル化変数の順序 (中央)、およびローカル アテンション用のシリアル化されたポイント クラウドのグループ化されたパッチ (右) が表示されます。 4 つのシリアル化モードの変換により、注意メカニズムはさまざまな空間関係とコンテキストをキャプチャできるようになり、モデルの精度と一般化能力が向上します。

図 4. パッチのグループ化。 (a) 特定のシリアル化スキーマから導出された順序に従ってポイントクラウドを並べ替えます。 (b) 指定されたパッチサイズで割り切れるように、隣接するパッチからポイントを借用してポイントクラウドシーケンスを埋めます。

図5. パッチの相互作用。 (a) 標準パッチ グループ化 (規則的でシフトされていない配置)、(b) Shift-Dilation (ポイントが一定の間隔でクラスター化され、膨張効果を生み出す)、(c) Shift Patch (シフト ウィンドウ メソッドに似たシフト メカニズムを使用する)、(d) Shift Order (異なるシリアル化パターンが連続する注意層に周期的に割り当てられる)、(d) Shuffle Order (シリアル化パターンのシーケンスが注意層に入力される前にランダム化される)。

図 6. 全体的なアーキテクチャ。

実験結果:

要約:

この論文では、ポイント クラウド処理における精度と効率の間の従来のトレードオフを克服するための大きな一歩を踏み出す Point Transformer V3 を紹介します。バックボーン設計におけるスケーリング原則の新しい解釈に基づいて、モデルのパフォーマンスは設計の複雑さよりも規模によって大きく影響を受けると主張します。この論文では、影響の少ないメカニズムの精度よりも効率を優先することで、規模の経済性を活用し、パフォーマンスを向上させます。つまり、モデルをよりシンプルかつ高速にすることで、この論文ではモデルをより強力にすることができます。

引用:

Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao, H. (2023). Point Transformer V3: よりシンプルに、より速く、より強力に。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA

<<:  機械学習モデルのパフォーマンスを測定する 10 の指標

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

データを盗むために設計された8つの偽ChatGPTマルウェアアプリ

翻訳者 |陳俊レビュー | Chonglou現在、人々は、回答の検索、グラフィック コンテンツの生成...

空中戦における人工知能の応用

現在、世界中の軍隊が AI を活用した防衛システムの実験を始めています。 AIを完全に理解して既存の...

3Dタスク(知覚、推論、計画、行動)に精通した初の具現化されたジェネラリストエージェント

汎用人工知能へと進むには、人間の生活の現実世界を理解し、豊富なスキルを習得できる具現化された汎用イン...

教師なし学習のための最も重要な12のアルゴリズムとその使用例

教師なし学習は、教師あり学習とは対照的に、もう 1 つの主流の機械学習方法です。教師なし学習では、デ...

コンピュータビジョンがビジネス課題の解決に役立つ 5 つの方法

自動運転車、交通標識検出、顔認識、セルフサービスチェックアウト。 これらすべての高度なソリューション...

Appleは人工知能の分野で追い上げており、その視覚認識の成果は業界の賞を受賞した

[[201426]]歴史的に、Apple は最先端技術の研究にはあまり注意を払わず、むしろ製品の設計...

私をプログラマーと呼ばないで、私は「AIエンジニア」です、マスク氏:自然言語プログラミングを始めましょう

ChatGPTの出現後、人々は「すべての産業がAIによって再編され、一部の職業は置き換えられ、一部の...

NvidiaはAIでの成功を量子コンピューティングに応用しようとしている

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

STLコンポーネントアルゴリズム

STL は、OOP と従来のプログラミングの両方で使用できる多数のテンプレート クラスと関数を提供し...

Transformer モデルを使用した時系列予測の Pytorch コード例

時系列予測は永続的なトピックです。自然言語処理の分野での成功に触発されて、トランスフォーマー モデル...

...

AIツールClaude 2が世界中で利用可能に:ファイルのアップロードとより長い応答テキストをサポート

10月18日、Anthropicは今年7月に新しいClaude 2言語モデルをリリースしました。 C...

...

...

ビッグデータと人工知能のために生まれた新しい職業:アルゴリズム専門家

ビッグデータとは、さまざまな種類のデータから貴重な情報を迅速に取得する能力を指します。これを理解する...