AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年のテーマです。視覚入力は、2D または 3D センサーによって取得された画像や点群など、さまざまなタイプになる可能性があることを考慮すると、この分野における重要な研究目標は、3D 環境の幾何学的構造とセマンティクスを理解することです。

従来の方法では通常、手作業で作成された特徴を利用して、オブジェクトまたはシーンの形状と意味を推定します。しかし、これらの方法は新しいオブジェクトやシーンに一般化するのが難しく、視覚的な遮蔽という重大な問題を克服するのが困難です。

今年 9 月にオックスフォード大学でコンピューター サイエンスの博士課程を卒業した Bo Yang 氏は、論文「3D オブジェクトの再構築とセグメント化の学習」でこのテーマを調査しました。従来の方法とは異なり、著者らは、大規模な現実世界の 3D データでトレーニングされたディープ ニューラル ネットワークを通じて、一般的で堅牢な表現を学習し、その中のシーンとオブジェクトを理解します。

全体として、この論文では、現実世界の 3 次元環境の機械認識という目標を達成するための一連の新しいデータ駆動型アルゴリズムを開発しています。著者らは「この論文は人工知能と機械理解の限界を押し広げるものと言える」と述べている。

この博士論文は 143 ページあり、 6 つの章から構成されています。 Synced では、論文の核心部分を簡単に紹介しました。興味のある読者は、原文の論文を読むことができます。

論文アドレス: https://arxiv.org/pdf/2010.09582.pdf

論文概要

第 2 章では、まず、シングルビューおよびマルチビュー 3D オブジェクト再構築、3D ポイント クラウド セグメンテーション、生成的敵対ネットワーク (GAN)、注意メカニズム、セットのディープラーニングなど、3D オブジェクト再構築とセグメンテーションに関するこれまでの研究をレビューします。さらに、この章の最後には、シングルビュー/マルチビュー 3D 再構成と 3D ポイント クラウド セグメンテーションの観点から、SOTA 手法と比較した本研究の新規性について紹介します。

単一ビューに基づく3Dオブジェクトの再構築

第 3 章では、単一の深度ビューからオブジェクトの高密度 3D 形状を学習するための GAN ベースのディープ ニューラル アーキテクチャを提案しています。著者らは、このシンプルだが効果的なモデルを 3D-RecGAN++ と呼んでいます。これは、スキップ接続 3D エンコーダー/デコーダーと敵対的学習を組み合わせて、単一の 2.5D ビューから完全な細粒度の 3D 構造を生成します。モデル ネットワーク アーキテクチャのトレーニングおよびテストのプロセスを次の図に示します。

次に、著者らは条件付き敵対的トレーニングを使用して、エンコーダー/デコーダーによって推定された 3D 形状を改良します。3D 形状改良のための識別器構造図は次のとおりです。

最後に、著者らは提案された3D-RecGAN++とSOTA法を比較し、制御変数の研究を実施しました。合成データセットと実際のデータセットに関する広範な実験結果により、提案されたモデルが適切に機能することが実証されています。

複数のビューに基づく3Dオブジェクトの再構築

第 4 章では、著者らは、複数のビューからより適切な 3D オブジェクトの形状を推論するための新しい注意ベースのニューラル モジュールを提案しています。このシンプルだが効率的なアテンション集約モジュールは AttSets と呼ばれ、その構造を下の図に示します。既存の方法と比較して、この方法はさまざまな画像から有用な情報を集約することを学習できます。

さらに、研究者らは、一定数の入力画像に対して推定された 3D 形状が堅牢であることを保証するために、2 段階のトレーニング アルゴリズムを導入しました。研究者らは複数のデータセットで実験を行い、この方法が物体の3D形状を正確に復元できることを実証した。

点群から3Dオブジェクトをセグメント化する方法を学ぶ

第 5 章では、研究者らは大規模な 3D シーン内のすべての個別の 3D オブジェクトを識別するための新しいフレームワークを提案しました。既存の研究と比較して、私たちのフレームワークは、面倒な前処理/後処理の手順なしで、すべてのターゲットインスタンスを直接かつ同時に検出、セグメント化、認識できます。研究者らは、複数の大規模な実世界のデータセットにおいて、この手法がベースラインよりもパフォーマンスが向上することを実証しました。
著者について

この記事の著者である Bo Yang は現在、香港理工大学のコンピュータサイエンス学部の助教授です。彼は北京郵電大学と香港大学でそれぞれ学士号と修士号を取得し、その後オックスフォード大学のコンピュータサイエンス学部に入学して博士号取得を目指し、ニキ・トリゴニ教授とアンドリュー・マーカム教授の指導を受けました。

Bo Yang 氏の第一著者および共著者としての論文は、International Journal of Computer Vision (IJCV)、NeurIPS、CVPR などの学術会議に採択されています。彼の Google Scholar ホームページには、彼が合計 22 本の論文を執筆し、400 回以上引用されていることが示されています。

紙のカタログは次のとおりです。

<<:  貪欲アルゴリズム: K回の反転後の配列の合計を最大化する

>>:  15歳の少女が農場の収穫機にヒントを得てピンポン球を拾うロボットを発明

ブログ    
ブログ    

推薦する

スマート、インテリジェントなインタラクティブ推奨システムと販売前ショッピングガイドロボットをリリース

昨日、北京のマイクロソフトビルでSmarterが開催されました。カンファレンスのテーマは「インテリジ...

業界丨2020年のインテリジェントウェーブを理解するには、BaiduとGoogleのAIの足跡から始める

2020年が過ぎました。順調で平和な生活を送ったか、非常に困難な生活を送ったかにかかわらず、私たちは...

顔認識に関する国家基準が策定中:顔のスキャンは許可されず、検証後にデータは削除される必要がある

近年、顔認識技術が急速に発展し、顔をスキャンするだけで高速鉄道駅に入ることができるので非常に便利です...

年末総括:セキュリティ業界は2020年にCOVID-19パンデミックの課題に対処するのに貢献した

新型コロナウイルス感染症のパンデミックは、セキュリティ業界を含む世界中のあらゆる業界のあらゆる側面に...

...

LeCun 氏と xAI 共同創設者の衝突: GPT-4 の主要な推論欠陥に対する解決策はないのか?ネットユーザー:人間も「ランダムなオウム」

最近、ルカン氏を含む一群の大物が再びLLMを攻撃し始めた。最新のブレークスルーは、LLM にはまった...

Go 言語 - データ構造とアルゴリズム プロジェクト

[[404457]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

ライブチャットとチャットボット: どちらの顧客サービス方法が優れているのでしょうか?

[[267030]] [51CTO.com クイック翻訳] ビジネスの世界は大きな変化を遂げてきま...

コレクション | データアナリストがよく使用する機械学習アルゴリズム 10 個!

機械学習の分野では、「世の中にただ飯はない」という格言があります。簡単に言えば、あらゆる問題に対して...

Pika 1.0 はアニメーション業界に完全な革命をもたらします!ドリームワークスの創設者は、3年後にはアニメーションのコストが10分の1に下がると予測

最近、ドリームワークスの創設者ジェフリー・カッツェンバーグ氏は、生成AIの技術がメディアとエンターテ...

人工知能チュートリアル(I):基礎

今日、コンピュータサイエンスの分野の学生や実務家にとって、人工知能、データサイエンス、機械学習、ディ...

GPT-4を粉砕せよ! Google DeepMind CEOが明かす:次世代の大規模モデルはAlphaGoと統合される

Googleは本当に全力を尽くしています。 AlphaGoとGPT-4に似た大規模モデルを組み合わせ...

AI を活用した検索と推奨はどれほど強力でしょうか?

著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...

機械学習はどのように機能するのでしょうか? Googleはこの小さな実験で、

機械学習に関しては、それに関するプロジェクトを 1 つまたは 2 つ聞いたことがあるかもしれません。...

AIが「ツール人」を救う: RPA+AIがすべてを自動化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...