20倍速くなります! Google AIがスマートカーに役立つTensorFlow 3Dを発表

20倍速くなります! Google AIがスマートカーに役立つTensorFlow 3Dを発表

Google AI は TensorFlow 3D をリリースしました。これは TensorFlow に 3D ディープラーニング機能を導入し、3D スパース畳み込みネットワークを追加しました。Waymo Open データセットでの実験では、この実装は事前に設計された TensorFlow 操作よりも「20 倍」高速であることが示されました。

自動運転車やロボットの急速な発展に伴い、LIDAR、深度検知カメラ、レーダーなどの3Dセンサーは道路データを取得するための必須機器となっています。

これらのセンサーを活用する機械学習システムは、ハードウェアが現実世界でナビゲートするなどの作業を行うのに役立つため、特に重要です。

最近、物体検出や透明物体検出などのモデルを含む 3D シーン理解は大きく進歩しましたが、3D データに利用できるツールとリソースが限られているため、この分野は依然として課題に直面しています。

TensorFlow 3D: TensorFlow と 3D ディープラーニングを組み合わせる

Google AI は、3D シーンのモデリングをさらに改善し、研究者の作業を簡素化するために、TensorFlow に 3D ディープラーニング機能をもたらすように設計された、高度にモジュール化された効率的なライブラリである TensorFlow 3D (TF 3D) をリリースしました。

TF 3D は、一般的に使用される操作、損失関数、データ処理ツール、モデル、メトリックのセットを提供するため、より多くの研究チームが最先端の 3D シーン理解モデルを開発、トレーニング、展開できるようになります。

TF 3D には、最先端の 3D セマンティック セグメンテーション、3D オブジェクト検出、3D インスタンス セグメンテーションのトレーニングおよび評価タスクが含まれており、分散トレーニングもサポートしています。

さらに、TF 3D は、3D オブジェクトの形状予測、ポイント クラウド登録、ポイント クラウドの高密度化などの他の潜在的なアプリケーションもサポートします。さらに、トレーニングおよび評価の標準 3D シーン理解データセットの統一されたデータセット仕様と構成も提供します。

現在、TF 3D は Waymo Open、ScanNet、Rio データセットをサポートしています。

ただし、ユーザーは NuScenes や Kitti などの他の一般的なデータセットを同様の形式に自由に変換し、既存またはカスタムのパイプライン モデルで使用できます。また、ラピッド プロトタイピングからリアルタイム推論システムの導入まで、さまざまな 3D ディープラーニングの研究やアプリケーションに TF 3D を活用することもできます。

左側に示されているのは、Waymo Open Dataset のフレームに対する TF 3D の 3D オブジェクト検出モデルの出力例です。右側は、ScanNet データセット上の 3D インスタンス セグメンテーション モデルの出力例です。

ここでは、TF 3D で提供される効率的で構成可能なスパース畳み込みバックボーンを紹介します。これは、さまざまな 3D シーン理解タスクで最先端の結果を達成するための鍵となります。

さらに、TF 3D で現​​在サポートされている 3 つのパイプライン タスク (3D セマンティック セグメンテーション、3D オブジェクト検出セグメンテーション、3D インスタンス セグメンテーション) を 1 つずつ紹介します。

3Dスパース畳み込みネットワーク

センサーによって収集された 3D データには通常、大部分がオープンスペースに囲まれた一連の対象オブジェクト (車、歩行者など) を含むシーンが含まれます。したがって、3D データは本質的にスパースです。

このような環境では、畳み込みの標準的な実装は計算量とメモリ使用量が膨大になります。そのため、TF 3D では、サブマニフォールドスパース畳み込みとプーリング操作を採用し、3D スパースデータをより効率的に処理できるようになりました。

スパース畳み込みモデルは、ほとんどの屋外自動運転 (Waymo、NuScenes など) や屋内ベンチマーク (ScanNet など) に適用される SOTA 手法の鍵となります。

Google は、計算を高速化するためにさまざまな CUDA テクニック (ハッシュ、共有メモリ内のフィルターのパーティション分割/キャッシュ、ビット操作の使用など) も適用しました。

Waymo Open データセットでの実験では、この実装は事前に設計された TensorFlow 操作よりも約 20 倍高速であることが示されています。

画像ソース: GitHub 上の Waymo Open Dataset

次に、TF 3D は 3D マニフォールド スパース U-Net アーキテクチャを使用して、各ボクセルの特徴を抽出します。 U-Net アーキテクチャは、ネットワークが粗い特徴と細かい特徴を抽出し、それらを組み合わせて予測を行えるようにすることで効果的であることが実証されています。

U-Net ネットワークは、エンコーダー、ボトルネック、デコーダーの 3 つのモジュールで構成されています。各モジュールは多数のスパース畳み込みブロックで構成され、プーリング操作または非プーリング操作を実行できます。

3D スパース ボクセル U-Net アーキテクチャ。水平矢印はボクセル特徴を受け取り、それらに多様体スパース畳み込みを適用することに注意してください。下方向に移動する矢印は、マニフォールドスパースプーリングを実行します。上向きの矢印は、プールされた特徴を収集し、それらを水平矢印の特徴と連結し、連結された特徴に対して多様体スパース畳み込みを実行します。

上記のスパース畳み込みネットワークは、TF 3D が提供する 3D シーン理解パイプライン モデルのバックボーンです。

以下で説明する各モデルは、このバックボーン ネットワークを使用してスパース ボクセル機能を抽出し、1 つ以上の予測ヘッドを追加して対象のタスクを推測します。

ユーザーは、エンコーダー/デコーダー層の数と層ごとの畳み込みの数を変更することで U-Net ネットワークを構成し、畳み込みフィルターのサイズを変更することで、さまざまなネットワーク構成を通じて速度と精度のバランスを取ることができます。

3Dセマンティックセグメンテーション

3D セマンティック セグメンテーション モデルには出力が 1 つだけあり、これを使用して各ポイントのセマンティック スコアを予測し、それをポイントにマッピングし、各ポイントのセマンティック ラベルを予測します。

ScanNet データセットからの屋内シーンの 3D セマンティック セグメンテーション。

3Dインスタンスセグメンテーション

3D インスタンス セグメンテーションでは、セマンティクスを予測することに加えて、同じオブジェクトのボクセルをグループ化することがより重要です。

TF 3D で使用される 3D インスタンス セグメンテーション アルゴリズムは、ディープ メトリック ラーニング手法を使用した 2D 画像セグメンテーションに関する研究に基づいています。このモデルは、各ボクセルのインスタンス埋め込みベクトルと各ボクセルのセマンティックスコアを予測します。

インスタンス埋め込みベクトルは、同じオブジェクト インスタンスに対応するボクセルが互いに近くなり、異なるオブジェクトに対応するボクセルが互いに離れる埋め込み空間にボクセルをマッピングします。

この場合、入力は画像ではなくポイント クラウドであり、2D 画像ネットワークではなく 3D スパース ネットワークを使用します。推論プロセスでは、貪欲アルゴリズムを使用してインスタンス シードを選択し、ボクセル埋め込み距離関数を使用して、異なるボクセルを対応するインスタンスに集約します。

3Dオブジェクト検出

オブジェクト検出モデルは、各ボクセルのサイズ、中心、回転行列、およびオブジェクトのセマンティック スコアを予測します。

推論中、選択メカニズムは、与えられた複数の候補ボックスをいくつかの正確な 3D オブジェクト ボックスに処理します。トレーニング中、予測と GT 間の Huber 損失距離を使用して損失が計算されます。サイズ、中心、回転行列を使用してボックスのコーナーを推定することは微分可能なプロセスであるため、損失は予測プロセスの重みに自然に渡すことができます。研究者らは、動的ボックス分類損失を使用して、予測されたボックスの肯定的な例と否定的な例を区別しました。

ScanNet データセットでの 3D オブジェクト検出結果。

TF 3D は、市場にある 3D ディープラーニング拡張機能の 1 つにすぎません。 2020年、Facebookは3Dレンダリングと仮想現実に重点を置いたPyTorch3Dをリリースしました。もう 1 つは、高解像度のシミュレーション環境などの解決可能なレンダリング用のモジュール式アプリケーションである Nvidia の Kaolin です。

この概要から、TF 3D アプリケーションはロボットの認識とマッピングに重点を置いており、他のオプションは 3D シミュレーションとレンダリングに重点を置いているようです。 3D レンダリングを実現するために、Google は TensorFlow Graphics を導入しました。

<<:  GPT-3: 高く評価されている交通の星ですが、大きな欠陥があり、非常に危険です...

>>:  AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

ブログ    
ブログ    
ブログ    

推薦する

教師なし学習問題のための一般的なメタアルゴリズムベースのフレームワーク

11月13日、マイクロソフトリサーチとプリンストン大学の研究者らは、ガウス分布とサブスペースクラスタ...

すべてのデータ サイエンティストに必要な 3 つのシンプルな異常検出アルゴリズム

外れ値検出の詳細と、Python で 3 つのシンプルで直感的かつ強力な外れ値検出アルゴリズムを実装...

ドローンの墜落を防ぐにはどうすればいいですか?

「墜落」とは模型飛行機の用語です。簡単に言うと、模型飛行機が不適切な操作や機械の故障により異常に地...

...

マスク氏「高度なAIの開発は非常にリスクが高い。OpenAIはアルトマン氏を解雇した理由を明らかにすべき」

11月20日、テスラのCEOイーロン・マスク氏は、高度な人工知能(AI)技術の開発には大きな潜在的...

[NCTS サミットレビュー] Li Yuanchun: 自動テストにおける強化学習の応用

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

AIとWeb3の出会い: 2023年の技術革命

2023 年には、人工知能 (AI) と Web3 という 2 つの技術現象が引き続き議論の中心にな...

画像はさまざまな方法で変更できます。NVIDIAはGANを使用して高精度のディテールレタッチを実現

[[436122]] EditGAN は、複雑かつ高精度な画像編集効果を実現しながらも、高い画像品質...

エッジにAIを導入する3つのメリット

AIワークロードをエッジで実行することで、経済性の向上、意思決定の迅速化、自動化が可能になります。誇...

...

...

人間の姿勢評価技術の開発と実装

[51CTO.com クイック翻訳]関連調査レポートによると、デジタルフィットネス市場の規模は202...

...

人工知能 (AI) ソリューションを購入または構築する際に尋ねるべき 5 つの重要な質問

人工知能などの新興テクノロジーには、マーケティング上の約束が実際の成果を上回らないようにすることと、...

時空間予測に適した時系列表現学習法

最近、香港科技大学、上海AIラボなどの組織が共同で時系列の教師なし事前トレーニングに関する論文を発表...