Google AIの最新3Dデータセット、15,000枚のアニメーション画像、ARがあなたの生活を支配します

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

[[352105]]

3D オブジェクトデータセットは見たことがあると思いますが、アニメーション化された 3D オブジェクトデータセットは見たことがありますか?

各ダイナミックビデオは、ターゲットを中心に撮影されます。全体の境界ボックスが付属するだけでなく、各ビデオにはカメラのポーズとスパースポイントクラウドも付属します。

これは Google のオープンソース 3D オブジェクトデータセットObjectron で、5 大陸 10 か国から収集された15,000本の短いビデオサンプルと400 万点以上の注釈付き画像が含まれています。

Google は、3D ターゲット理解の分野には 2D の ImageNet のような大規模なデータセットが不足しており、Objectron データセットによってこの問題をある程度解決できると考えています。

データセットが公開されると、 1.6k 人のネットユーザーが「いいね！」しました。

一部のネットユーザーは、Google がまさに「Google」について考えていたときに、このタイプのデータセットを公開したと冗談を言った。

元チームメンバーの中には、AR の進歩につながる可能性のあるこのようなデータセットやモデルを見ることができて嬉しいという人もいました。

さらに、Google は、Objectron データセットでトレーニングされた、靴、椅子、カップ、カメラの 4 つのカテゴリの 3D オブジェクト検出モデルもリリースしました。

このデータセットに含まれるものと、Google が提供する 3D オブジェクト検出ソリューションを見てみましょう (プロジェクトのアドレスは記事の最後を参照してください)

9種類のオブジェクト、ARに非常に優しい

現在、このデータセットに含まれる 3D オブジェクトの例には、自転車、本、ボトル、カメラ、シリアルボックス、椅子、カップ、ラップトップ、靴などがあります。

もちろん、このデータセットは、オブジェクトを中心に撮影されたビデオや画像だけではありません。次のような特徴があります。

注釈ラベル（3D オブジェクトの境界ボックス）
ARデータ（カメラポーズ、スパースポイントクラウド、2Dサーフェス）
データ前処理（画像形式はtf.example、ビデオ形式はSequenceExample）
スクリプトによる3D IoUメトリック評価の実行をサポート
「Hello World」サンプルを含むスクリプトを通じて、Tensorflow、PyTorch、JAX のデータ読み込みと視覚化をサポートします。
Google Cloud インフラストラクチャ上でデータセットを処理するための Apache Beam のサポート
トレーニング/テスト部分を含む利用可能なすべてのサンプルのインデックス。簡単にダウンロードできます。

画像部分のスタイルは基本的にこのようになっていますが、非常に細かくマークされています。

ビデオには、さまざまな角度（左から右、下から上）から撮影されたターゲット中心のクリップだけでなく、

ビデオタイプの数も異なります (ターゲットが 1 つ、または 2 つ以上)。

Google は、このデータセットを公開することで、研究コミュニティが 3D オブジェクトの理解の分野や、教師なし学習などの関連研究アプリケーションのさらなる進歩を促進できることを期待しています。

使い方は？ Googleは「模範を示して先導する」

初めてデータセットを入手したとき、それが役に立つかどうかわからず、いつも少し圧倒されているように感じますか?

心配しないでください。Google はすでにこのデータセットのトレーニング効果をテストしています。

かなり良さそうですね:

さらに、Google はトレーニング済みの 3D オブジェクト検出モデルもリリースしました。（送信については記事末尾を参照）

このアルゴリズムは主に 2 つの部分で構成されています。最初の部分は Tensorflow の 2D オブジェクト検出モデルで、「オブジェクトの位置を見つける」ために使用されます。

2 番目の部分では、画像の切り抜きを実行して 3D オブジェクトの境界ボックスを推定します (次のフレームでターゲットの 2D 切り抜きを計算するため、フレームごとに実行する必要はありません)。全体的な構造は次のとおりです。

モデルの評価では、Google はSutherland-Hodgman ポリゴンクリッピングアルゴリズムを使用して、2 つのステレオ境界ボックスの交差を計算し、2 つの立方体の交差体積を計算し、最後に 3D オブジェクト検出モデルのIoUを計算しました。

簡単に言えば、2 つの立方体の重なり合う部分が大きいほど、3D オブジェクト検出モデルの品質は向上します。

このモデルは、さまざまな形式の知覚データを処理するためのパイプラインを構築するためのオープンソースのクロスプラットフォームフレームワークである Google の MediaPipe の一部です。

同社が発売した「MediaPipe Objectron リアルタイム 3D ターゲット検出モデル」は、モバイルデバイス (携帯電話) を使用してリアルタイムのターゲット検出を実行できます。

彼らがどれほど幸せか見てください! リアルタイムのオブジェクト検出は非常にうまく機能します:

その他の3Dデータセット

Google が公開したデータセットに加えて、視覚的な 3D オブジェクトの分野には、それぞれ独自の特性を持つさまざまな種類のデータセットも存在します。

たとえば、スタンフォード大学が提案したScanNetV2は屋内シーンデータセットですが、ScanNet は 21 のターゲットクラスと 1,513 の収集されたシーンデータを含む RGB-D ビデオデータセットであり、セマンティックセグメンテーションやターゲット検出タスクに使用できます。

現在、自動運転の分野で非常に人気があるKITTIデータセットも3Dデータセットです。これは現在、自動運転シナリオにおけるコンピュータービジョンのアルゴリズム評価データセットとしては最大規模であり、市街地、農村部、高速道路などのシーンで収集された実際の画像データが含まれています。

さらに、Waymo、SemanticKITTI、H3D などのデータセットもあり、さまざまなシナリオで使用されます。 (例えば、SemanticKITTI は自動運転のための 3D セマンティックセグメンテーションによく使用されます)

動画であれ画像であれ、これらのデータセット内の 1 つのサンプルには基本的に複数のターゲットが含まれており、使用シナリオも Google の Objectron とは異なります。

興味のある方は、以下のポータルからGoogleの最新の3Dオブジェクト検出データセットと関連モデルを閲覧できます。

Objectron データセットポータル:
https://github.com/google-research-datasets/Objectron/

4 種類のオブジェクトに対する 3D オブジェクト検出モデル:
https://google.github.io/mediapipe/solutions/objectron

<<: ドローンのアフターサービス市場の改善が必要

>>: パーセプトロンの物語: 機械学習はどのようにして今日の地位に到達したのでしょうか?

Google AIの最新3Dデータセット、15,000枚のアニメーション画像、ARがあなたの生活を支配します

9種類のオブジェクト、ARに非常に優しい

使い方は？ Googleは「模範を示して先導する」

その他の3Dデータセット

NIOはまたしても窮地に陥った！運転支援の責任は誰が負うべきでしょうか?

28 歳の中国人 Meta ソフトウェアエンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

2020年Qizhi開発者会議が北京で盛大に開幕、第一弾の1000万インセンティブボーナスが発表された

C#アルゴリズムに関する面接の質問の簡単な分析

建設ロボット代替の流れが到来。高齢化した移民労働者はどこへ行くのか？

15分 = 1年!人工知能と材料科学が出会うとき...

Midjourneyに匹敵します！なぜミャオヤカメラは突然人気が出たのでしょうか？

ハン・ソン、チュー・ジュンヤンらがGAN圧縮方式を提案：計算電力消費は1/9以下、オープンソース化

世界初の「自己複製」する生体ロボットが誕生。科学者たちの次なる目標とは？

マスク氏の最新チップ：脳とコンピューターの相互作用に特化し、視覚障害者が「見る」ことを可能にする

推薦する

NetEase Cloud Musicのリアルタイムデータウェアハウスガバナンス最適化の実践

因果関係に着想を得た解釈可能なフレームワーク：大規模モデルを説明する効率的な方法

私の国の医薬品人工知能市場は急速な成長期に入っている

人工知能とデータ分析の新たなトレンド

毛沢東選集と魯迅全集をAIに与えたところ、AIが書いた大学入試のエッセイは非常に適切だった。

Facebook が ICCV 2021 で 2 つの 3D モデルを公開。自己監督が究極の答えか?

顔認識はあなたの家の玄関からどれくらい離れていますか?

7つの便利なプロンプトパラメータ

インテル、IoTとエッジ向け第10世代プロセッサーを発表

人工知能オンライン機能システムのデータアクセス技術

OpenAIはChatGPTを軍事目的で使用する予定か？国防総省との協力禁止が解除、元グーグルCEO「AIは核爆弾になる」

選択が難しいですか?最適な機械学習アルゴリズムの選び方を1つの記事で解説

人工知能は航空宇宙に貢献しており、我が国の有人宇宙計画の宇宙ステーションの軌道上建設ミッションは着実に前進している。

機械学習における次元削減とは何ですか?