近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられていますが、ディープラーニングモデルをトレーニングするには、新しいシナリオに一般化するために多様な入力が必要になります。 これまで、コンピューター ビジョンの分野では、Web クロール技術を使用して、ImageNet、Open Image、Youtube-8M、COCO など、何百万ものトピックに関するデータ セットを収集してきました。しかし、これらのデータセットにラベルを付ける作業は依然として労働集約的な作業であり、ラベル付けのエラーは技術の進歩に対する認識に影響を与える可能性があり、この戦略を 3D または現実世界のロボット データに一般化することは困難です。画像とは異なり、現在インターネット上には大規模で高品質な 3D シーンは存在せず、現実世界からそのようなデータを収集することは非常に困難です。さらに、人間の注釈者が画像から 3D の幾何学的特徴を抽出することは困難です。 一般的に言えば、Gazebo、Bullet、MuJoCo、Unity などのツールを使用してロボットと環境をシミュレートすると、上記の制限を軽減できます。しかし、シミュレーションは結局のところ完全に現実世界と同じというわけではありません。実際の環境の 3D スキャンから直接シーンを構築した場合でも、スキャン内の個別のオブジェクトは固定された背景オブジェクトのように動作し、現実世界のオブジェクトのように入力に反応しません。 したがって、重要な課題は、物理モデリングと視覚モデリングに統合して、ディープラーニングに必要な多様性を提供できる高品質の 3D オブジェクト モデルのライブラリを提供することにあります。 この問題に対処するため、Google の研究者は Google Scanned Objects (GSO) データセットを作成しました。これは、Ignition Gazebo、Bullet シミュレーター、および SDF モデル形式を読み取ることができるその他のツールで使用できる、1,000 を超える 3D スキャンされた家庭用品の厳選コレクションです。 研究者らは論文の中で、データセットの収集、管理、拡張について紹介した。 論文リンク: https://arxiv.org/pdf/2204.11918.pdf 不完全な統計によると、GSO データセットは、コンピューター ビジョン、コンピューター グラフィックス、ロボット操作、ロボット ナビゲーション、3D 形状処理など、10 のプロジェクトの 12 の論文で使用されています。 この研究の主な貢献は次のとおりです。
データセットの作成GSO データセットは、2011 年の Google のクラウド ロボティクス プロジェクトから生まれたもので、一般的な家庭用品の高精度 3D モデルに基づいて、ロボットが環境内のオブジェクトを認識して把握できるようにすることを目的としています。 ただし、3D モデルには、物体認識やロボットによる把持以外にも、物理シミュレーション用のシーン構築やエンド ユーザー アプリケーション用の 3D オブジェクトの視覚化など、さまざまな用途があります。そこで Google Research は、従来の商用グレードの製品写真よりも低コストで、大量の家庭用品の 3D スキャンを収集し、3D エクスペリエンスを Google に大規模に提供するプロジェクトを開始しました。 これは、オブジェクトの取得、新しい 3D スキャン ハードウェア、効率的な 3D スキャン ソフトウェア、高速 3D レンダリングの品質保証、Web およびモバイル ブラウザー、人間とコンピューターのインタラクションの研究を含むエンドツーエンドのプロジェクトです。 データを収集した後、研究者たちはデータをさまざまな形式で利用できるようにするためのパイプラインを構築しました。 3Dスキャンパイプライン家庭用品の領域に限定しても、3D スキャンには、効率的な物理的なスキャン設定、ターゲット照明、カメラの信頼性、スキャナーのパフォーマンス、カラー マッチング、テクスチャ レンダリング、ほぼ白色、光沢のある表面、透明な表面など光学的に一貫性のない素材の取り扱いなど、独自の課題があります。 専用の 3D スキャン ハードウェアは労働集約的で、コスト効率がよくありません。大規模なスキャンには、より使いやすく信頼性の高いツールが必要です。 そこで研究者らは、オブジェクトをスキャンして 10 分以内に高解像度のモデルを生成できる専用のスキャン ハードウェアとソフトウェア (図 2) を独自に設計しました。光を制御する物理的なハウジング (図 2b) は、2 台のマシン ビジョン カメラと構造化光スキャン用のプロジェクターを使用して 3D ジオメトリをキャプチャし、別の SLR 高解像度カメラを使用して製品に適した光でテクスチャをキャプチャします。 プロジェクトの最初の 1 年が終わる頃には、毎週 400 件以上のスキャンが処理されるようになり、その過程でチームは 10 万枚の 360 度写真回転と 1 万枚のユニークなオブジェクトの完全な 3D スキャンを取得しました。 図2. 図 3: キャリブレーション プロセスとしてのスキャン。 (a) キャリブレーション モードにより、2D パイプラインでカメラを正確に位置合わせできるようになります。 (b) コンピュータ制御のプロジェクターは、3D スキャンされたオブジェクトに対して同様のパターンを作成します。 (c) 適切なパターンはサブピクセル精度で位置を検出できます。 (d) スキャンしたオブジェクトの完全な 3D 形状を抽出します。 図 4: スキャンされたアイテムは品質検査に合格する必要があります。 (a) 多くのオブジェクトが高品質の閉じた多様体メッシュとしてキャプチャされます。 (b) 一部のオブジェクトでは無効なメッシュが生成されることはほとんどありませんが、変形してしまう場合もあります。 シミュレーションモデル変換これらの生のスキャン モデルは、プロトコル バッファー メタデータ、非常に高解像度の視覚化を使用しますが、シミュレーションには適さない形式です。質量などのオブジェクトの一部の物理的特性はキャプチャされますが、摩擦などの表面特性はメタデータに表現されません。 これらのスキャンされたモデルをシミュレーションで使用できるようにするには、各モデルが次の手順を実行するパイプラインを通過します。
データセットのプロパティ構成GSO データセットには、合計 13 GB のスキャンされたオブジェクトと関連メタデータが 1,030 個含まれており、CCBY 4.0 ライセンスの下でライセンスされています。表III.1はデータセット内のモデルカテゴリの内訳を示しています。 表III.1 利点自動化されたパイプラインは、手動処理なしで大量のモデルを迅速に生成できます。モデルは手作業でモデル化されるのではなくスキャンされるため、理想的というよりは現実的であり、シミュレーションから現実世界への学習の移転の難しさが軽減されます。 このスキャナーのガラス プラットフォームは、不透明なプラットフォームを備えた他のスキャナーとは異なり、ベースを含むすべての側面からモデルをスキャンできます。同様に、環境から抽出されたモデルには、橋として機能する土台などの遮蔽された領域が欠けていることがよくあります。 スキャナーは深度カメラのデータではなく投影されたパターンから表面形状を再構築するため、結果として得られるメッシュの忠実度は高くなります。表面は滑らかで、輪郭のエッジは正確です (図 5)。対照的に、RGB-D データから取得されたメッシュは、特に輪郭上では斑状で不規則に見える場合があります。 図5 制限同時に、このデータセットにはいくつかの制限があります。スキャナーのキャプチャ領域はパン箱 (約 50 cm) より大きいオブジェクトを収容できないため、このデータセットには椅子、車、飛行機など、他のデータセットにあるより大きなオブジェクトは含まれていません。同様に、スキャン解像度も限られているため、非常に小さなオブジェクトを適切な忠実度でモデル化することはできません。さらに、生成されたテクスチャは拡散します。つまり、高度に鏡面反射したオブジェクトや透明なオブジェクトは表現されず、生成された結果は最適ではありません。 詳細については原論文を参照してください。 |
>>: ICML 2022の審査結果は「包囲」された、ヤン・ルカン:3つの論文を提出したが、3つとも却下された
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
長い待ち時間を経て、ついに『オッペンハイマー』が国内で公開される。ノーラン監督は映画の細部と品質に細...
最近、マッキンゼー・グローバル研究所は水曜日に発表した報告書の中で、技術の進歩により、将来世界で約3...
1月2日、アリババDAMOアカデミーは2020年のトップ10テクノロジートレンドを発表しました。これ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[432404]]バイナリ検索は、バイナリ検索アルゴリズムとも呼ばれ、シンプルで理解しやすい高速検...
テクノロジーは既存の人間文化の延長です。テクノロジーは人類の知恵を広げた一方で、人々の偏見や差別も受...
AutoGPT に続いて、もう一つのスター プロジェクトが誕生しました。 GPT-Engineer ...
解決すべきデータ関連の問題があるとします。機械学習アルゴリズムの素晴らしさについて聞いたことがあるの...
P/NP 問題は、計算複雑性の分野における未解決の問題です。人々は、「すべての計算問題を妥当な時間内...
大規模言語モデル (LLM) とビジュアル グラウンデッド モデル (VFM) の出現により、大規模...
過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じ...