単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

本論文では、単眼輝度画像から顔の深度マップを推定する敵対的アーキテクチャを提案する。 画像対画像のアプローチに従うことで、教師あり学習と敵対的トレーニングの利点を組み合わせ、強度の顔画像を対応する深度マップに変換することを効果的に学習する条件付き生成的敵対的ネットワークを提案します。 2 つの公開データセット、つまり Biwi データベースと Pandora データセットを使用して、提案モデルが視覚的な外観と情報内容の両方の点で高品質の合成深度画像を生成することを実証します。 さらに、顔認証タスクのために実際の深度マップでトレーニングされた深層モデルによって生成された深度マップをテストすることで、モデルが特徴的な顔の詳細を予測できることを実証します。

AI による単眼強度画像からの顔の深度マップ推定のための敵対的アーキテクチャ はじめに: 深度推定は、2 つの高品質ステレオ カメラ (つまり、人間の目) と特別な学習ツール (つまり、人間の脳) の存在から人間が自然に恩恵を受けるタスクです。人間が単一の単眼画像から奥行きを評価するのに優れているのはなぜでしょうか。また、この学習プロセスはどのようにして起こるのでしょうか。一つの仮説は、過去の視覚経験を通じて世界の三次元構造を推定する教師を発達させるというもので、その視覚経験には触覚刺激(小さな物体の場合)や動き(広い空間の場合)に関連する多数の観察が含まれる[43]。このプロセスにより、人間は単眼画像からでも、見た物体や光景の構造モデルを推測する能力を発達させることができます。

深度推定は人間の脳の自然な活動ですが、異なる 3D マップが同じ 2D 画像を生成する可能性があるため、このタスクはコンピューター ビジョンの設定には適さない問題です。さらに、強度画像と深度マップに属する情報ソースが非常に異なるため、テクスチャデータと形状データをこれら 2 つの領域間で変換することは非常に困難です。伝統的に、コンピュータビジョンコミュニティは、ステレオカメラ[16、40]、動きからの構造[4、6]、影と光の拡散からの深さ[35、37]など、さまざまな方法で深度推定の問題に幅広く取り組んできました。上記の方法には、深度の均一性や値の欠損(深度画像に穴が開く)などのさまざまな問題があります。その他の難しい要素は、カメラのキャリブレーション、セットアップ、および後処理の手順に関連しており、時間と計算コストがかかる可能性があります。最近、ディープニューラルネットワークの進歩により、研究チームは、以前に報告された問題を克服するために、強度画像からの単一の深度推定タスクを研究してきました。

単眼輝度画像からの顔の深度マップ推定のための敵対的アーキテクチャによる人工知能への貢献: この論文では、顔の単眼輝度画像から深度マップを生成するフレームワークを提案します。敵対的アプローチ[12, 28]を採用して、対応するグレースケール画像から顔の深度マップを推定できる完全畳み込みオートエンコーダを効果的にトレーニングします。提案手法の訓練とテストには、多数の深度画像と強度画像のペアからなる2つの公開データセット、すなわちPandora [3]とBiwi Kinect Head Pose [9]データセットが利用される。私たちの知る限り、これは、人間の顔など、小さなサイズで細部までこだわったオブジェクトを扱うグローバルなディープシーン推定とは異なる敵対的アプローチを通じてこのタスクに取り組む最初の試みの 1 つです。 ***、さまざまなピクセル単位のメトリックを導入して、システムのパフォーマンスを効果的に測定する方法を研究します。さらに、オリジナルの顔深度画像でトレーニングされた顔検証モデルを導入し、生成された画像が人間の視覚で検査された場合だけでなく、深層畳み込みネットワークで処理された場合にも、オリジナルの人物の顔の特徴を維持しているかどうかを確認します。

単眼輝度画像からの顔深度マップ推定のための敵対的アーキテクチャ ディープラーニング アーキテクチャ: このセクションでは、顔輝度画像からの深度推定モデルを提案し、cGAN アーキテクチャ、そのトレーニング プロセス、および採用された前処理顔切り取りアルゴリズム (セクション 3.2) について詳しく説明します。 このモデルの実装は[12]で提案されたガイドラインに従っています。 Goodfellow らによる研究に続き、 [12]およびMirza et al. [28]では、提案されたアーキテクチャは、顔のグレースケール画像の強度画像を入力として深度マップIgen = tt(Igray)を予測し、対応する深度マップを推定する推定関数に対応する生成ネットワークttと識別ネットワークdttから構成される。 (ターゲット関数には、敵対的損失と MSE 損失が含まれます)。

人工知能ディープラーニングによる単眼輝度画像からの顔深度マップ推定のための敵対的アーキテクチャ 結論: 本論文では、輝度画像から顔深度マップを推定する方法を提案しました。 生成された画像の品質を評価するために、元の深度マップで事前トレーニングされた Siamese ネットワークを使用して顔検証タスクを実行します。 生成された画像でテストしたときに Siamese ネットワークの精度が低下しないことを示すことにより、提示されたフレームワークが視覚的な外観と識別情報の両方の観点から高品質の深度マップを生成できることを実証します。 また、提案されたアーキテクチャは、敵対的ポリシーのトレーニング時にオートエンコーダや文献の競合製品よりも優れていることも実証しています。私たちのアプローチは柔軟性が高いため、タスク固有の損失を導入してモデルを拡張し、さまざまなシナリオに適用する予定です。

<<:  機械学習と予測アプリケーションに必要な50のAPI

>>:  ネットワークの構築から面接の最後の質問まで、AI企業に応募するための包括的なガイドをご紹介します

ブログ    

推薦する

予測:2022年のモノのインターネットの発展における3つの主要な技術トレンド

IoT がどのように発展していくかを予測することは困難ですが、一部の IoT テクノロジーは数年以内...

130年の歴史を持つアメリカのブランド、カーハートがAIを活用して売上を伸ばす方法

戦略的利益のために AI を活用している企業の中に、アメリカの衣料品会社 Carhartt がありま...

...

世界初のAI生成薬がヒト臨床試験に進出

6月30日のニュースによると、今週、完全に人工知能によって設計された世界初の医薬品が人間の臨床試験段...

AI はサプライ チェーンのセキュリティの確保にどのように役立ちますか?

サプライ チェーンは、生産におけるあらゆるリンクの源です。原材料から製造、流通まで、各ステップで最も...

話題の「人工知能」について、気になるNの質問にお答えします

人工知能は、かなり長い間人気を博してきました。多くの投資家、起業家、そしてあらゆる規模の企業が、この...

インタビュー必読: 4 つの典型的な電流制限アルゴリズムの説明

[[402482]]最近、当社の業務システムは、トークン バケット アルゴリズムに基づいて実装された...

Baidu PaddlePaddleがソフトウェアグリーンアライアンス開発者会議に登場。最新の2つの成果は産業実装に直接つながるものだった。

11月19日、アリババ、百度、ファーウェイ、テンセント、網易など国内有名企業が企画・主催する201...

Amazon SageMaker を使用した機械学習モデルのトレーニングとデプロイ

[[248715]] [51CTO.com 速訳] re:Invent 2017 カンファレンスで ...

デジタルパフォーマンスの向上における人工知能の役割

AI は、正確なバイヤーペルソナをターゲットにすることで、パーソナライゼーションを迅速かつ簡単に実現...

2020年に人工知能を変える8つのトレンド

人工知能は長い間、架空の物語、SF、さらには映画にも登場してきました。人々の目には、これは技術的な魔...

機械学習アルゴリズム(1):決定木とランダムフォレスト

モデルの組み合わせ (ブースティング、バギングなど) と決定木に関連するアルゴリズムは多数あります。...

...

JDロジスティクスは知能を高めつつ、宅配業者から仕事を奪っている

JD.comは早くも2017年8月に、陝西省の地域をカバーする中国初のドローン空域の承認を取得しまし...