20倍速くなります！ Google AIがスマートカーに役立つTensorFlow 3Dを発表

Google AI は TensorFlow 3D をリリースしました。これは TensorFlow に 3D ディープラーニング機能を導入し、3D スパース畳み込みネットワークを追加しました。Waymo Open データセットでの実験では、この実装は事前に設計された TensorFlow 操作よりも「20 倍」高速であることが示されました。

自動運転車やロボットの急速な発展に伴い、LIDAR、深度検知カメラ、レーダーなどの3Dセンサーは道路データを取得するための必須機器となっています。

これらのセンサーを活用する機械学習システムは、ハードウェアが現実世界でナビゲートするなどの作業を行うのに役立つため、特に重要です。

最近、物体検出や透明物体検出などのモデルを含む 3D シーン理解は大きく進歩しましたが、3D データに利用できるツールとリソースが限られているため、この分野は依然として課題に直面しています。

TensorFlow 3D: TensorFlow と 3D ディープラーニングを組み合わせる

Google AI は、3D シーンのモデリングをさらに改善し、研究者の作業を簡素化するために、TensorFlow に 3D ディープラーニング機能をもたらすように設計された、高度にモジュール化された効率的なライブラリである TensorFlow 3D (TF 3D) をリリースしました。

TF 3D は、一般的に使用される操作、損失関数、データ処理ツール、モデル、メトリックのセットを提供するため、より多くの研究チームが最先端の 3D シーン理解モデルを開発、トレーニング、展開できるようになります。

TF 3D には、最先端の 3D セマンティックセグメンテーション、3D オブジェクト検出、3D インスタンスセグメンテーションのトレーニングおよび評価タスクが含まれており、分散トレーニングもサポートしています。

さらに、TF 3D は、3D オブジェクトの形状予測、ポイントクラウド登録、ポイントクラウドの高密度化などの他の潜在的なアプリケーションもサポートします。さらに、トレーニングおよび評価の標準 3D シーン理解データセットの統一されたデータセット仕様と構成も提供します。

現在、TF 3D は Waymo Open、ScanNet、Rio データセットをサポートしています。

ただし、ユーザーは NuScenes や Kitti などの他の一般的なデータセットを同様の形式に自由に変換し、既存またはカスタムのパイプラインモデルで使用できます。また、ラピッドプロトタイピングからリアルタイム推論システムの導入まで、さまざまな 3D ディープラーニングの研究やアプリケーションに TF 3D を活用することもできます。

左側に示されているのは、Waymo Open Dataset のフレームに対する TF 3D の 3D オブジェクト検出モデルの出力例です。右側は、ScanNet データセット上の 3D インスタンスセグメンテーションモデルの出力例です。

ここでは、TF 3D で提供される効率的で構成可能なスパース畳み込みバックボーンを紹介します。これは、さまざまな 3D シーン理解タスクで最先端の結果を達成するための鍵となります。

さらに、TF 3D で現在サポートされている 3 つのパイプラインタスク (3D セマンティックセグメンテーション、3D オブジェクト検出セグメンテーション、3D インスタンスセグメンテーション) を 1 つずつ紹介します。

3Dスパース畳み込みネットワーク

センサーによって収集された 3D データには通常、大部分がオープンスペースに囲まれた一連の対象オブジェクト (車、歩行者など) を含むシーンが含まれます。したがって、3D データは本質的にスパースです。

このような環境では、畳み込みの標準的な実装は計算量とメモリ使用量が膨大になります。そのため、TF 3D では、サブマニフォールドスパース畳み込みとプーリング操作を採用し、3D スパースデータをより効率的に処理できるようになりました。

スパース畳み込みモデルは、ほとんどの屋外自動運転 (Waymo、NuScenes など) や屋内ベンチマーク (ScanNet など) に適用される SOTA 手法の鍵となります。

Google は、計算を高速化するためにさまざまな CUDA テクニック (ハッシュ、共有メモリ内のフィルターのパーティション分割/キャッシュ、ビット操作の使用など) も適用しました。

Waymo Open データセットでの実験では、この実装は事前に設計された TensorFlow 操作よりも約 20 倍高速であることが示されています。

画像ソース: GitHub 上の Waymo Open Dataset

次に、TF 3D は 3D マニフォールドスパース U-Net アーキテクチャを使用して、各ボクセルの特徴を抽出します。 U-Net アーキテクチャは、ネットワークが粗い特徴と細かい特徴を抽出し、それらを組み合わせて予測を行えるようにすることで効果的であることが実証されています。

U-Net ネットワークは、エンコーダー、ボトルネック、デコーダーの 3 つのモジュールで構成されています。各モジュールは多数のスパース畳み込みブロックで構成され、プーリング操作または非プーリング操作を実行できます。

3D スパースボクセル U-Net アーキテクチャ。水平矢印はボクセル特徴を受け取り、それらに多様体スパース畳み込みを適用することに注意してください。下方向に移動する矢印は、マニフォールドスパースプーリングを実行します。上向きの矢印は、プールされた特徴を収集し、それらを水平矢印の特徴と連結し、連結された特徴に対して多様体スパース畳み込みを実行します。

上記のスパース畳み込みネットワークは、TF 3D が提供する 3D シーン理解パイプラインモデルのバックボーンです。

以下で説明する各モデルは、このバックボーンネットワークを使用してスパースボクセル機能を抽出し、1 つ以上の予測ヘッドを追加して対象のタスクを推測します。

ユーザーは、エンコーダー/デコーダー層の数と層ごとの畳み込みの数を変更することで U-Net ネットワークを構成し、畳み込みフィルターのサイズを変更することで、さまざまなネットワーク構成を通じて速度と精度のバランスを取ることができます。

3Dセマンティックセグメンテーション

3D セマンティックセグメンテーションモデルには出力が 1 つだけあり、これを使用して各ポイントのセマンティックスコアを予測し、それをポイントにマッピングし、各ポイントのセマンティックラベルを予測します。

ScanNet データセットからの屋内シーンの 3D セマンティックセグメンテーション。

3Dインスタンスセグメンテーション

3D インスタンスセグメンテーションでは、セマンティクスを予測することに加えて、同じオブジェクトのボクセルをグループ化することがより重要です。

TF 3D で使用される 3D インスタンスセグメンテーションアルゴリズムは、ディープメトリックラーニング手法を使用した 2D 画像セグメンテーションに関する研究に基づいています。このモデルは、各ボクセルのインスタンス埋め込みベクトルと各ボクセルのセマンティックスコアを予測します。

インスタンス埋め込みベクトルは、同じオブジェクトインスタンスに対応するボクセルが互いに近くなり、異なるオブジェクトに対応するボクセルが互いに離れる埋め込み空間にボクセルをマッピングします。

この場合、入力は画像ではなくポイントクラウドであり、2D 画像ネットワークではなく 3D スパースネットワークを使用します。推論プロセスでは、貪欲アルゴリズムを使用してインスタンスシードを選択し、ボクセル埋め込み距離関数を使用して、異なるボクセルを対応するインスタンスに集約します。

3Dオブジェクト検出

オブジェクト検出モデルは、各ボクセルのサイズ、中心、回転行列、およびオブジェクトのセマンティックスコアを予測します。

推論中、選択メカニズムは、与えられた複数の候補ボックスをいくつかの正確な 3D オブジェクトボックスに処理します。トレーニング中、予測と GT 間の Huber 損失距離を使用して損失が計算されます。サイズ、中心、回転行列を使用してボックスのコーナーを推定することは微分可能なプロセスであるため、損失は予測プロセスの重みに自然に渡すことができます。研究者らは、動的ボックス分類損失を使用して、予測されたボックスの肯定的な例と否定的な例を区別しました。

ScanNet データセットでの 3D オブジェクト検出結果。

TF 3D は、市場にある 3D ディープラーニング拡張機能の 1 つにすぎません。 2020年、Facebookは3Dレンダリングと仮想現実に重点を置いたPyTorch3Dをリリースしました。もう 1 つは、高解像度のシミュレーション環境などの解決可能なレンダリング用のモジュール式アプリケーションである Nvidia の Kaolin です。

この概要から、TF 3D アプリケーションはロボットの認識とマッピングに重点を置いており、他のオプションは 3D シミュレーションとレンダリングに重点を置いているようです。 3D レンダリングを実現するために、Google は TensorFlow Graphics を導入しました。

<<: GPT-3: 高く評価されている交通の星ですが、大きな欠陥があり、非常に危険です...

>>: AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

20倍速くなります！ Google AIがスマートカーに役立つTensorFlow 3Dを発表

TensorFlow 3D: TensorFlow と 3D ディープラーニングを組み合わせる

3Dスパース畳み込みネットワーク

3Dセマンティックセグメンテーション

3Dインスタンスセグメンテーション

3Dオブジェクト検出

人工知能は「高度な感情知能」に向かって発展している

720 億のパラメータモデルがオープンソースになりました。 Tongyi Qianwenのオープンソースファミリーバケットは、最小の18億モデルの端と側面の両方で実行できます。

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

滴滴自動運転、世界初となる5時間連続無人道路テストのビデオを公開

人工知能がまだできない5つのこと

人工知能とデザインの未来

AIは信頼の危機にどう対処するか

GPT-3 の推論高速化は NVIDIA のソリューションを 50% 上回ります。大規模モデル推論システムEnergon-AIオープンソース

アリババの音声ロボットが李佳琦の生放送室に登場、その応答速度はSiriの20倍

推薦する

人工知能はビッグデータの保存と管理の効率をどのように向上させるのでしょうか?

厳しい期限内で機械学習を行う方法: ラベル付きニュースの構築

見ないと後悔するよ！ 2019年の人工知能業界の25の主要トレンド

厚いコードが入ったチャットのスクリーンショットも安全ではありません。マスターは数分で復元するアルゴリズムを作成しました

2022年に注目すべき5つのAI活用法

ドローンは都市の発展を助け、6つの側面でインテリジェントな変化をもたらす

知識経済は死んだ！ AIが生み出す「直感経済」の新時代！

AIが材料科学に革命を起こす！ Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

最も人気のある 15 の機械学習フレームワークのうち、いくつ知っていますか?