アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

5月20日、アリババDAMOアカデミーXR研究室は、視覚的な位置測定の精度を確保しながら地図を250倍以上に圧縮し、携帯電話などのエンドデバイスに保存できる新しい3D位置測定マップ圧縮アルゴリズムを提案した。関連論文は、コンピュータービジョンのトップカンファレンスであるCVPR 2022に掲載されました。同研究室は独自に開発した3次元アルゴリズムの最適化を継続しており、マッピングや測位などのコア技術モジュールで多くの革新を実現していると報告されている。同研究室の論文の多くはトップクラスの国際会議で発表されている。

3D ビジュアル ポジショニングは、没入型インターネットのコア テクノロジーの 1 つです。標準的な 3D 視覚的位置決め方法では、特定のシーンの 3D マップを事前に構築し、特徴点をカメラで撮影した 2D 画像と照合してユーザーの位置と姿勢を計算する必要があります。しかし、3D マップはサイズが大きく、多くのストレージ容量を必要とするため、メモリや帯域幅が限られている携帯電話などのモバイル デバイスには展開できません。

業界では軽量 3D マップに関する多くの研究が行われてきました。DAMO アカデミーの XR ラボは、これまでの研究に基づいて、3D マップを 250 倍以上圧縮し、精度の低下を小さな範囲内に抑えて、モデル サイズと位置決め精度のバランスを実現する新しい方法、SceneSqueezer を提案しました。

SceneSqueezerは階層化戦略を使用して3Dマップを圧縮します

論文「SceneSqueezer: カメラの再ローカリゼーションのためのシーン圧縮の学習」によると、DAMO アカデミー チームは 3D マップを圧縮するために階層的な戦略を採用しました。まず、データベース イメージはペアの共視認性情報を使用してクラスタ化され、シーンは複数のクラスタに分割されて個別に圧縮されました。次に、最終的なポーズ推定精度に基づいて、チームは各イメージの特徴点を選択することを学習しました。最後に、特徴点の記述は特徴量子化法を使用して圧縮されました。このアルゴリズムは、Cambridge LandmarksAachen Day-Nightなどの屋外シーン データセットにおいて既存の方法よりも優れたパフォーマンスを発揮します。

DAMOアカデミーXR研究室の上級アルゴリズム専門家である董子龍氏は、XRチームが独自の3次元アルゴリズムシステムを開発し、マッピングやポジショニングなどのコア技術モジュールで多くのブレークスルーを達成したことを紹介しました。今年は、彼らの論文の多くがトップカンファレンスに選ばれました。例えば、Quadtree Attention for Vision Transformerは、視覚タスクに基づいてTransformerモデルのパフォーマンスを向上させる四分木アテンションメカニズムを提案し、トップディープラーニングカンファレンスICLR 2022に選出されました。Neural Window Fully-connected CRFs for Monocular Depth Estimationは、コンシューマーグレードのパノラマカメラを使用して深度推定タスクを完了できる単一カメラ深度推定アルゴリズムを提案し、3次元マッピングのコストを大幅に削減しました。この論文はCVPR 2022に採択されました。

杭州文山街にあるDAMOアカデミーのXRラボが開発した「ARチェックイン」プロジェクト

XRラボはDAMOアカデミーが新たに設立した研究所で、次世代のインターネット技術の研究に特化しています。チームが開発したARおよびVR技術は、越境電子商取引やデジタル都市エリアなど、さまざまなシナリオに応用されています。たとえば、杭州文山デジタルライフブロックに1:1復元された3次元「デジタルツイン」が構築され、杭州オリンピックスポーツセンターの10万平方メートルの地下駐車場にARナビゲーションサービスが開発されました。

<<:  人工知能が建築を変える3つの方法

>>:  人工知能のおかげで、赤信号待ちは過去のものになるだろう

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

R言語におけるAprioriアルゴリズムの応用

[[193979]] I. コンセプト関連性分析は、大規模なデータセットに隠された意味のあるつながり...

匿名の論文が驚くべきアイデアを提案!大規模なモデルと長いテキストの能力を強化する

大規模モデルで長いテキストを処理する能力を向上させる場合、長さの外挿やコンテキスト ウィンドウの拡張...

なぜ人工知能は高度な数学を解くことができるのでしょうか?

まずは大学院入試から始めましょう。大学院入試の重要性は大学入試の重要性に匹敵します。数字で言うと、2...

...

Baidu Shen Dou: AIネイティブアプリケーションを作成するには2つのステップが重要

2024年1月10日、Honor MagicOS 8.0発表会と開発者会議において、Honor Te...

PaddlePaddleがAIの旗印を掲げ、国産のディープラーニングフレームワークが人気

[51CTO.com オリジナル記事] Baidu は 2019 年第 2 四半期の財務報告を発表し...

製造業におけるデジタルツインについて知っておくべきことすべて

インテリジェント製造の分野では、AI 駆動型デジタルツインが重要な技術となっています。デジタル ツイ...

OpenAI の新しい論文が GAN を破り SOTA に到達!この圧倒的な拡散モデルは単なる仕掛けなのか、それとも本物なのか?

最近またFaceAPPが人気になってきているので、編集者もダウンロードして試してみました。大丈夫です...

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

コンピューティング能力の需要が高まり続けるにつれて、さまざまな環境への影響が生じ、人工知能 (AI)...

微積分の最終試験に希望があります! AIが方程式を解くのを手伝います

最近、Facebook AI は、記号推論を使用して高度な数式を解き、その精度が Mathemati...

NetEase MediaのLiu Yandong氏:AIは読者にパーソナライズされたコンテンツをタイムリーに提供します

【51CTO.comオリジナル記事】 2017年12月1日から2日まで、51CTO主催のWOTDグロ...

復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

統計モデルやその他のアルゴリズムに加えて、回帰は機械学習を正常に動作させるための重要な要素です。回帰...

キングス・カレッジ・ロンドンとグラクソ・スミスクラインが人工知能技術に基づくがん研究で協力

海外メディアの報道によると、9月30日、キングス・カレッジ・ロンドンと世界的な製薬会社グラクソ・スミ...