Google が 13GB の 3D スキャン データセットを公開: 17 のカテゴリ、1,030 個の家庭用品

Google が 13GB の 3D スキャン データセットを公開: 17 のカテゴリ、1,030 個の家庭用品

近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられていますが、ディープラーニングモデルをトレーニングするには、新しいシナリオに一般化するために多様な入力が必要になります。

これまで、コンピューター ビジョンの分野では、Web クロール技術を使用して、ImageNet、Open Image、Youtube-8M、COCO など、何百万ものトピックに関するデータ セットを収集してきました。しかし、これらのデータセットにラベルを付ける作業は依然として労働集約的な作業であり、ラベル付けのエラーは技術の進歩に対する認識に影響を与える可能性があり、この戦略を 3D または現実世界のロボット データに一般化することは困難です。画像とは異なり、現在インターネット上には大規模で高品質な 3D シーンは存在せず、現実世界からそのようなデータを収集することは非常に困難です。さらに、人間の注釈者が画像から 3D の幾何学的特徴を抽出することは困難です。

一般的に言えば、Gazebo、Bullet、MuJoCo、Unity などのツールを使用してロボットと環境をシミュレートすると、上記の制限を軽減できます。しかし、シミュレーションは結局のところ完全に現実世界と同じというわけではありません。実際の環境の 3D スキャンから直接シーンを構築した場合でも、スキャン内の個別のオブジェクトは固定された背景オブジェクトのように動作し、現実世界のオブジェクトのように入力に反応しません。

したがって、重要な課題は、物理モデリングと視覚モデリングに統合して、ディープラーニングに必要な多様性を提供できる高品質の 3D オブジェクト モデルのライブラリを提供することにあります。

この問題に対処するため、Google の研究者は Google Scanned Objects (GSO) データセットを作成しました。これは、Ignition Gazebo、Bullet シミュレーター、および SDF モデル形式を読み取ることができるその他のツールで使用できる、1,000 を超える 3D スキャンされた家庭用品の厳選コレクションです。

研究者らは論文の中で、データセットの収集、管理、拡張について紹介した。

論文リンク: https://arxiv.org/pdf/2204.11918.pdf

不完全な統計によると、GSO データセットは、コンピューター ビジョン、コンピューター グラフィックス、ロボット操作、ロボット ナビゲーション、3D 形状処理など、10 のプロジェクトの 12 の論文で使用されています。

この研究の主な貢献は次のとおりです。

  • Google Scanned Objects データセットを提案しました。
  • 3Dスキャンパイプライン設計。
  • 3D スキャンの管理および公開プロセス。
  • このデータセットが研究分野に与える影響。

データセットの作成

GSO データセットは、2011 年の Google のクラウド ロボティクス プロジェクトから生まれたもので、一般的な家庭用品の高精度 3D モデルに基づいて、ロボットが環境内のオブジェクトを認識して把握できるようにすることを目的としています。

ただし、3D モデルには、物体認識やロボットによる把持以外にも、物理シミュレーション用のシーン構築やエンド ユーザー アプリケーション用の 3D オブジェクトの視覚化など、さまざまな用途があります。そこで Google Research は、従来の商用グレードの製品写真よりも低コストで、大量の家庭用品の 3D スキャンを収集し、3D エクスペリエンスを Google に大規模に提供するプロジェクトを開始しました。

これは、オブジェクトの取得、新しい 3D スキャン ハードウェア、効率的な 3D スキャン ソフトウェア、高速 3D レンダリングの品質保証、Web およびモバイル ブラウザー、人間とコンピューターのインタラクションの研究を含むエンドツーエンドのプロジェクトです。

データを収集した後、研究者たちはデータをさまざまな形式で利用できるようにするためのパイプラインを構築しました。

3Dスキャンパイプライン

家庭用品の領域に限定しても、3D スキャンには、効率的な物理的なスキャン設定、ターゲット照明、カメラの信頼性、スキャナーのパフォーマンス、カラー マッチング、テクスチャ レンダリング、ほぼ白色、光沢のある表面、透明な表面など光学的に一貫性のない素材の取り扱いなど、独自の課題があります。

専用の 3D スキャン ハードウェアは労働集約的で、コスト効率がよくありません。大規模なスキャンには、より使いやすく信頼性の高いツールが必要です。

そこで研究者らは、オブジェクトをスキャンして 10 分以内に高解像度のモデルを生成できる専用のスキャン ハードウェアとソフトウェア (図 2) を独自に設計しました。光を制御する物理的なハウジング (図 2b) は、2 台のマシン ビジョン カメラと構造化光スキャン用のプロジェクターを使用して 3D ジオメトリをキャプチャし、別の SLR 高解像度カメラを使用して製品に適した光でテクスチャをキャプチャします。

プロジェクトの最初の 1 年が終わる頃には、毎週 400 件以上のスキャンが処理されるようになり、その過程でチームは 10 万枚の 360 度写真回転と 1 万枚のユニークなオブジェクトの完全な 3D スキャンを取得しました。

図2.

図 3: キャリブレーション プロセスとしてのスキャン。 (a) キャリブレーション モードにより、2D パイプラインでカメラを正確に位置合わせできるようになります。 (b) コンピュータ制御のプロジェクターは、3D スキャンされたオブジェクトに対して同様のパターンを作成します。 (c) 適切なパターンはサブピクセル精度で位置を検出できます。 (d) スキャンしたオブジェクトの完全な 3D 形状を抽出します。

図 4: スキャンされたアイテムは品質検査に合格する必要があります。 (a) 多くのオブジェクトが高品質の閉じた多様体メッシュとしてキャプチャされます。 (b) 一部のオブジェクトでは無効なメッシュが生成されることはほとんどありませんが、変形してしまう場合もあります。

シミュレーションモデル変換

これらの生のスキャン モデルは、プロトコル バッファー メタデータ、非常に高解像度の視覚化を使用しますが、シミュレーションには適さない形式です。質量などのオブジェクトの一部の物理的特性はキャプチャされますが、摩擦などの表面特性はメタデータに表現されません。

これらのスキャンされたモデルをシミュレーションで使用できるようにするには、各モデルが次の手順を実行するパイプラインを通過します。

  1. 無効なオブジェクトをフィルタリングします。
  2. オブジェクト名を割り当てます。
  3. メッシュ オブジェクトを確認します。
  4. 物理的特性を計算します。
  5. 衝突ボリュームを構築します。
  6. モデルのサイズを小さくします。
  7. SDF モデルを作成します。
  8. サムネイルを作成します。
  9. モデルをパッケージ化します。

データセットのプロパティ

構成

GSO データセットには、合計 13 GB のスキャンされたオブジェクトと関連メタデータが 1,030 個含まれており、CCBY 4.0 ライセンスの下でライセンスされています。表III.1はデータセット内のモデルカテゴリの内訳を示しています。

表III.1

利点

自動化されたパイプラインは、手動処理なしで大量のモデルを迅速に生成できます。モデルは手作業でモデル化されるのではなくスキャンされるため、理想的というよりは現実的であり、シミュレーションから現実世界への学習の移転の難しさが軽減されます。

このスキャナーのガラス プラットフォームは、不透明なプラットフォームを備えた他のスキャナーとは異なり、ベースを含むすべての側面からモデルをスキャンできます。同様に、環境から抽出されたモデルには、橋として機能する土台などの遮蔽された領域が欠けていることがよくあります。

スキャナーは深度カメラのデータではなく投影されたパターンから表面形状を再構築するため、結果として得られるメッシュの忠実度は高くなります。表面は滑らかで、輪郭のエッジは正確です (図 5)。対照的に、RGB-D データから取得されたメッシュは、特に輪郭上では斑状で不規則に見える場合があります。

図5

制限

同時に、このデータセットにはいくつかの制限があります。スキャナーのキャプチャ領域はパン箱 (約 50 cm) より大きいオブジェクトを収容できないため、このデータセットには椅子、車、飛行機など、他のデータセットにあるより大きなオブジェクトは含まれていません。同様に、スキャン解像度も限られているため、非常に小さなオブジェクトを適切な忠実度でモデル化することはできません。さらに、生成されたテクスチャは拡散します。つまり、高度に鏡面反射したオブジェクトや透明なオブジェクトは表現されず、生成された結果は最適ではありません。

詳細については原論文を参照してください。

<<:  AI聴覚技術は国際紛争に関与したことがあるか?

>>:  ICML 2022の審査結果は「包囲」された、ヤン・ルカン:3つの論文を提出したが、3つとも却下された

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

NeRFは過去のものになるのか?立体復元は3D GSの新時代へ! (復旦大学からの最新レビュー)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

オッペンハイマーの「彼女は消えた」!物理学界のファーストレディ、呉健雄はマンハッタン計画の重要な問題を解決した

長い待ち時間を経て、ついに『オッペンハイマー』が国内で公開される。ノーラン監督は映画の細部と品質に細...

...

マッキンゼーは、2030年までに1億人の中国人が転職に直面し、世界中で8億人がロボットに置き換えられると予測している。

最近、マッキンゼー・グローバル研究所は水曜日に発表した報告書の中で、技術の進歩により、将来世界で約3...

DAMO アカデミーの 2020 年の予測: AI は知覚知能から認知知能へと進化する

1月2日、アリババDAMOアカデミーは2020年のトップ10テクノロジートレンドを発表しました。これ...

ボストン・ダイナミクスの工場で働くロボット犬が話題に

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

バイナリ検索アルゴリズムと時間計算量について簡単に説明し、バイナリ検索アルゴリズムを実装する

[[432404]]バイナリ検索は、バイナリ検索アルゴリズムとも呼ばれ、シンプルで理解しやすい高速検...

人工知能は人間の文化を継承するが、人間の偏見も受け継いでいる

テクノロジーは既存の人間文化の延長です。テクノロジーは人類の知恵を広げた一方で、人々の偏見や差別も受...

誰もが知っておくべき 3 つの機械学習アルゴリズム

解決すべきデータ関連の問題があるとします。機械学習アルゴリズムの素晴らしさについて聞いたことがあるの...

問題が VPN の問題であることを証明するにはどうすればよいですか?コンピュータ科学者は簡単な方法を発見した

P/NP 問題は、計算複雑性の分野における未解決の問題です。人々は、「すべての計算問題を妥当な時間内...

次世代の自動運転システムには大規模なモデルが必要であり、システムの研究がここにある

大規模言語モデル (LLM) とビジュアル グラウンデッド モデル (VFM) の出現により、大規模...

自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じ...