人間は、平面の写真を見ると、再構築された 3D シーンのレイアウトを想像し、2D 画像に含まれる限られた信号に基づいてオブジェクトを認識し、インスタンスのサイズを決定して、3D シーンのレイアウトを再構築することができます。 この問題には逆光学問題と呼ばれる用語があり、これは網膜像から網膜刺激源へのぼやけたマッピングを指します。 自動運転などの現実世界のコンピューター ビジョン アプリケーションは、3D オブジェクトの位置特定と識別にこれらの機能に大きく依存しており、2D 画像に投影された各 3D ポイントの空間位置、セマンティック カテゴリ、インスタンス ラベルを AI モデルが推測する必要があります。 画像から 3D 世界を再構築する機能は、単眼深度推定 (単一の画像から深度を予測) とビデオ パノプティック セグメンテーション (インスタンス セグメンテーションとセマンティック セグメンテーション) という 2 つの独立したサブタスクに分解できます。 研究者は通常、計算されたモデルの重みを複数のタスク間で共有することにより、タスクごとに異なるモデルを提案します。実際のアプリケーションでは、これらのタスクを統合されたコンピューター ビジョン モデルとともに処理することで、展開を簡素化し、効率を向上させることができます。 この研究背景を踏まえ、Google は深度を考慮したビデオ パノラマ セグメンテーションを通じて視覚を学習する新しいモデル ViP-DeepLab を提案しました。これは CVPR 2021 に採択されており、単眼深度推定とビデオ パノラマ セグメンテーションを同時に解決することを目指しています。 この論文では、2 つのデータセットも導出し、深度推定とビデオ パノラマ セグメンテーションを同時に評価できる、Depth-Aware Video Panoramic Quality (DVPQ) と呼ばれる新しい評価メトリックも提案しました。 ViP-DeepLab は、画像平面上の各ピクセルに対してビデオのパノプティックセグメンテーションと単眼深度推定を共同で実行し、サブタスクのいくつかの学術データセットで SOTA 結果を達成する統合モデルです。 ViP-DeepLab は、連続する 2 つのフレームを入力として他の予測を実行し、出力には最初のフレームの深度推定が含まれ、各ピクセルに深度推定値が割り当てられます。 さらに、ViP-DeepLab は、最初のフレームに表示されるオブジェクトの中心に対して、連続する 2 つのフレームの中心回帰を実行します。これは、中心オフセット予測と呼ばれるプロセスであり、これにより、両方のフレームのすべてのピクセルを、最初のフレームに表示される同じオブジェクトにグループ化できます。以前に検出されたインスタンスと一致しない場合、新しいインスタンスが発生します。 ViP-DeepLab の出力は、ビデオのパノプティック セグメンテーションに使用できます。連続する 2 つのフレームを入力として連結します。セマンティック セグメンテーション出力は各ピクセルをそのセマンティック カテゴリに関連付けますが、インスタンス セグメンテーション出力は最初のフレームの単一のオブジェクトに関連付けられた両方のフレームのピクセルを識別します。入力画像は Cityscapes データセットからのものです。 この論文では、Cityscapes-VPS、KITTI 深度予測、KITTI マルチオブジェクト追跡およびセグメンテーション (MOTS) など、いくつかの一般的なベンチマーク データセットで ViP-DeepLab をテストしました。 ViP-DeepLab は SOTA 結果を達成しました。Cityscapes-VPS テストでは、ビデオ パノラマ品質 (VPQ) が従来の方法よりもはるかに優れており、5.1% に達しています。 KITTI 深度予測ベンチマークにおける単眼深度推定の比較。深度推定メトリックの場合、値が小さいほどパフォーマンスが優れています。差は小さいように見えるかもしれませんが、このベンチマークで最高のパフォーマンスを発揮するメソッドの差は通常、SILog で 0.1 未満です。 さらに、VIP-DeepLab は、新しいメトリック HOTA を使用して、KITTI MOTS 歩行者および自動車のランキング メトリックの大幅な改善も達成しました。 最後に、この論文では、新しいタスク、つまり深度を考慮したビデオ パノプティック セグメンテーション用の 2 つの新しいデータセットも提供されており、ViP-DeepLab がテストされており、このモデルの結果はコミュニティが比較するためのベースライン モデルになります。 ViP-DeepLab は、ビデオ パノプティック セグメンテーション、単眼深度推定、および複数オブジェクトの追跡とセグメンテーションにおいて最先端のパフォーマンスを実現するシンプルなアーキテクチャを備えています。このモデルは、2D シーンにおける現実世界のさらなる研究にも役立ちます。 |
<<: 探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩
>>: 3万回以上の地震訓練を実施した後、彼らは揺れの強さを素早く予測する新しい方法を発見した。
エンタープライズ チャットボットは脳死状態です。彼らには認知力も深みもなく、リアルタイムの概念や状況...
論文タイトル: 分子特性予測のための自動 3D 事前トレーニング論文リンク: https://arx...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
11月7日のOpenAI開発者会議でサム・アルトマンがGptsを正式に発表しリリースして以来、Gpt...
教育部はこのほど記者会見を開き、「高等学校一般教育課程計画及び中国語等教科教育課程基準(2017年版...
[[249559]]近年のAI分野を調査していく中で、近年、世界中の研究者の視野の中に敵対的攻撃とい...
人工知能は今日最も話題になっている技術の一つです。しかし、それは正確には何でしょうか?なぜ気にする必...
[[183486]]医療、金融、交通、教育、公安、小売、商業サービスなどの業界は、電子データの度合...
過去2023年間で、大規模言語モデル(LLM)は潜在力と複雑さの両面で急速に成長しました。 2024...
エッジコンピューティングと人工知能の組み合わせにより、エッジ人工知能 (エッジ AI) は現在のテク...
人工知能 (AI) とは、人間の知的思考や行動の方法や技術をシミュレートすることで、コンピュータ シ...
[[236525]]諺にもあるように、「聞いて信じる、見て信じる」です。しかし、AI技術の発展によ...
過去10年間で、多数のカップルがオンラインで出会いました。出会い系アプリを使って恋人を見つけることは...
12月20日、2023年百度クラウドインテリジェンスカンファレンスおよびインテリジェントコンピューテ...