アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

アリババが3D位置マップ圧縮アルゴリズムを革新、その論文結果がトップカンファレンスCVPR 2022に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

5月20日、アリババDAMOアカデミーXR研究室は、視覚的な位置測定の精度を確保しながら地図を250倍以上に圧縮し、携帯電話などのエンドデバイスに保存できる新しい3D位置測定マップ圧縮アルゴリズムを提案した。関連論文は、コンピュータービジョンのトップカンファレンスであるCVPR 2022に掲載されました。同研究室は独自に開発した3次元アルゴリズムの最適化を継続しており、マッピングや測位などのコア技術モジュールで多くの革新を実現していると報告されている。同研究室の論文の多くはトップクラスの国際会議で発表されている。

3D ビジュアル ポジショニングは、没入型インターネットのコア テクノロジーの 1 つです。標準的な 3D 視覚的位置決め方法では、特定のシーンの 3D マップを事前に構築し、特徴点をカメラで撮影した 2D 画像と照合してユーザーの位置と姿勢を計算する必要があります。しかし、3D マップはサイズが大きく、多くのストレージ容量を必要とするため、メモリや帯域幅が限られている携帯電話などのモバイル デバイスには展開できません。

業界では軽量 3D マップに関する多くの研究が行われてきました。DAMO アカデミーの XR ラボは、これまでの研究に基づいて、3D マップを 250 倍以上圧縮し、精度の低下を小さな範囲内に抑えて、モデル サイズと位置決め精度のバランスを実現する新しい方法、SceneSqueezer を提案しました。

SceneSqueezerは階層化戦略を使用して3Dマップを圧縮します

論文「SceneSqueezer: カメラの再ローカリゼーションのためのシーン圧縮の学習」によると、DAMO アカデミー チームは 3D マップを圧縮するために階層的な戦略を採用しました。まず、データベース イメージはペアの共視認性情報を使用してクラスタ化され、シーンは複数のクラスタに分割されて個別に圧縮されました。次に、最終的なポーズ推定精度に基づいて、チームは各イメージの特徴点を選択することを学習しました。最後に、特徴点の記述は特徴量子化法を使用して圧縮されました。このアルゴリズムは、Cambridge LandmarksAachen Day-Nightなどの屋外シーン データセットにおいて既存の方法よりも優れたパフォーマンスを発揮します。

DAMOアカデミーXR研究室の上級アルゴリズム専門家である董子龍氏は、XRチームが独自の3次元アルゴリズムシステムを開発し、マッピングやポジショニングなどのコア技術モジュールで多くのブレークスルーを達成したことを紹介しました。今年は、彼らの論文の多くがトップカンファレンスに選ばれました。例えば、Quadtree Attention for Vision Transformerは、視覚タスクに基づいてTransformerモデルのパフォーマンスを向上させる四分木アテンションメカニズムを提案し、トップディープラーニングカンファレンスICLR 2022に選出されました。Neural Window Fully-connected CRFs for Monocular Depth Estimationは、コンシューマーグレードのパノラマカメラを使用して深度推定タスクを完了できる単一カメラ深度推定アルゴリズムを提案し、3次元マッピングのコストを大幅に削減しました。この論文はCVPR 2022に採択されました。

杭州文山街にあるDAMOアカデミーのXRラボが開発した「ARチェックイン」プロジェクト

XRラボはDAMOアカデミーが新たに設立した研究所で、次世代のインターネット技術の研究に特化しています。チームが開発したARおよびVR技術は、越境電子商取引やデジタル都市エリアなど、さまざまなシナリオに応用されています。たとえば、杭州文山デジタルライフブロックに1:1復元された3次元「デジタルツイン」が構築され、杭州オリンピックスポーツセンターの10万平方メートルの地下駐車場にARナビゲーションサービスが開発されました。

<<:  人工知能が建築を変える3つの方法

>>:  人工知能のおかげで、赤信号待ちは過去のものになるだろう

ブログ    
ブログ    
ブログ    

推薦する

...

...

トップレベルの人工知能チームを構築するにはどうすればよいでしょうか?

市場には優れた AI ソフトウェア ツールが数多く存在しますが、プロジェクトを実装する際には強力なチ...

マスク氏:ヒューマン・マシン・インターフェース技術は「間もなく利用可能になる」、人間のIQはAIに匹敵する

イーロン・マスク氏は、人工知能が人類にもたらす避けられない課題に対処するためには、人間が機械と「つな...

自然言語処理がヒラリーとトランプの「話し方」を分析

[[173621]]編集者注:現地時間10月9日、米国大統領選挙の2人の候補者による第2回公開討論会...

マスク氏はOpenAIを訴えた。彼らはAGIを作成し、それをマイクロソフトにライセンス供与したが、これは設立協定に対する露骨な裏切りである。

つい先日、「劇的な対立に耽溺する」マスク氏は新たな行動を起こした。共同設立者の一人であるOpenAI...

効率的な本人認証の鍵:生体認証技術

生体認証技術は、指紋、顔の特徴、虹彩などの人体の固有の生理学的特徴と人間の行動特性を利用して個人のア...

4分でノーベル賞の再現に成功! CMU は化学研究を覆す GPT-4 化学者、自律コーディング、ロボット制御を開発し、Nature に発表

ChatGPT モデルは今年人気となり、予想外に化学の分野全体を覆しました。まず、Google De...

ディープラーニングにおける正規化技術の包括的な概要

ディープニューラルネットワークのトレーニングは困難な作業です。 長年にわたり、研究者たちは学習プロセ...

AIと機械学習の統合アーキテクチャ:インテリジェントな意思決定を可能にする

人工知能 (AI) と機械学習の台頭により、あらゆる業界に大きな変化が起きています。データ量が増加し...

あらゆる場所でのAI実現へ: 人工知能分野におけるインテルの躍進

[51CTO.comからのオリジナル記事]クラウドコンピューティング、ビッグデータ、5G、モノのイン...

...

...

蘇寧における知識抽出分野におけるディープラーニングの試みと実践

[[257470]] 【51CTO.comオリジナル記事】背景近年、膨大なデータの蓄積、計算能力の向...

AIoT: IoTと人工知能の完璧な組み合わせ

ビッグデータを備えたモノのインターネットは産業用 IoT を企業の神経系と考えてください。これは、生...