髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

多くのディープラーニング手法は優れたマッティング結果を実現しますが、高解像度の画像を適切に処理することはできません。現実世界では、切り抜き技術の使用を必要とする画像は、通常、解像度が 5000 × 5000 以上の高解像度画像です。ハードウェアの制限を克服し、高解像度の画像に切り抜き方法を適用するにはどうすればよいでしょうか? UIUC、Adobe Research、オレゴン大学の研究者が新しいアプローチを考案しました。

画像の切り取りは、画像やビデオの編集や合成において重要な技術です。通常、ディープラーニング手法では、入力画像全体と関連するトライマップを入力として受け取り、畳み込みニューラル ネットワークを使用して前景マスク (アルファ マット) を推測します。この方法は、画像マッティングの分野で SOTA 結果を実現します。ただし、ハードウェアの制限により、実際の切り抜きアプリケーションではこれらの方法が失敗する可能性があります。これは、現実世界で切り抜く必要がある入力画像のほとんどが非常に高解像度であるためです。

最近、イリノイ大学アーバナ・シャンペーン校 (UIUC)、Adobe Research、オレゴン大学の研究者らが、高解像度の入力画像を処理する初のディープラーニング マッティング手法である HDMatt という新しい手法を提案しました。

早くも2017年にAdobeなどの機関が「Deep Image Matting」という論文を発表しました。これは大規模なデータセットとディープニューラルネットワークを使用して画像の自然な構造を学習し、画像の前景と背景をさらに分離するものです。その論文の第一著者である Ning Xu 氏は、この論文の第二著者です。しかし、今回、研究者たちは高解像度の画像に焦点を当てました。

論文アドレス: https://arxiv.org/pdf/2009.06613.pdf

具体的には、HDMatt メソッドは、新しいモジュール設計を使用して、高解像度の入力画像に対してパッチベースの切り抜きとステッチの方法でマッティングを実行し、異なるパッチ間のコンテキスト依存性と一貫性の問題を解決します。元のパッチベースの推論方法では各パッチを個別に計算しますが、この研究では、クロスパッチのコンテキスト依存性をモデル化するために指定されたトライマップによってガイドされる新しいモジュール、CrossPatch Contextual module (CPC) を提案します。

広範囲にわたる実験により、この方法の有効性と高解像度の入力画像に対する必要性が実証されています。 HDMatt メソッドは、Adobe Image Matting と AlphaMatting の両方のベンチマークで新しい SOTA パフォーマンスを実現し、よりリアルな高解像度画像で優れた結果を実現します。

次の図は、高解像度画像を処理する際の HDMatt メソッドと以前のベスト メソッド ContextNet の比較を示しています。

ContextNet は、それぞれダウンサンプリング (DS) とクロッピング (C) 戦略を適用します。図からわかるように、DS により細部がぼやけ、切り抜きによりパッチ間で不一致が生じます。

本研究で提案された HDMatt 法は、これら 2 つの欠陥を解決し、カットアウト効果が真値に最も近くなる (上図 c) ことから、この方法が細かい詳細に適合できることがわかります。

この研究の主な貢献は次のとおりです。

これはディープラーニングをベースとした初の高解像度画像マット化手法であり、ハードウェアリソースの制約下で現実世界での高品質な HR マット化を実現します。

パッチ間の長距離コンテキスト依存性を捕捉するために、新しいモジュール CPC が提案されています。 CPC 内では、新たに提案された Trimap ガイド付き非局所 (TGNL) 操作は、参照パッチのさまざまな領域からの情報を効率的に伝播することを目的としています。

定量的および定性的な実験の点では、HDMatt メソッドは、Adobe Image Matting (AIM)、AlphaMatting ベンチマーク、および実際の高解像度画像データセットで新しい SOTA パフォーマンスを実現します。

HDMattメソッド

高解像度画像のマッティング問題を解決するために、本研究では、まず入力画像とトライマップをパッチに切り取り、次に各パッチのアルファ値を推定する HDMatt 法を提案しました。 1 つのパッチの情報のみを使用すると、情報の損失や、異なるパッチ間の予測の不一致が発生します。そこで本研究では、各クエリパッチのクロスパッチ情報を効率的に活用するための新しいクロスパッチコンテキストモジュール(CPC)モジュールを提案する。最後に、各パッチの推定アルファ値が連結され、画像全体の最終的な前景マスクが出力されます。

下の図 2 は HDMatt メソッドの全体的なフレームワークを示しています。

下の図 3 は CPC モジュールのワークフローを示しています。

実験

Adobe 画像マッティングベンチマークデータセット

以下の表 1 は、Adobe Image Matting テスト セットにおける HDMatt メソッドとその他の SOTA メソッドのパフォーマンス比較結果を示しています。 HDMatt メソッドは、すべての評価メトリックにおいて他のメソッドよりも優れています。

研究者らは、以下の図 4 に示すように、これらの方法 (IndexNet と ContextNet を含む) の実際の効果も比較しました。

HDMatt メソッドは、大きな未知の領域 (つまり、前景または背景の情報が少ない領域) の処理に適していることがわかります。

AlphaMatting ベンチマーク データセット

表 2 は、AlphaMatting ベンチマーク データセットで SAD 指標に関して最高のパフォーマンスを示した 4 つの方法を示しています。HDMatting 方法は、より大きなトライマップまたはユーザー トライマップを持つ画像で優れたパフォーマンスを発揮します。これは、トライマップ内に多数の未知の領域がある場合でも、HDMatt メソッドが長距離のコンテキスト依存性を効果的にキャプチャできることをさらに裏付けています。

下の図は、AlphaMattingテストセットにおけるさまざまな方法のマッティング結果を示しています。左から右に、入力画像、Trimap、AdaMatting [1]、SampleNet [35]、GCA Matting [24]、HDMattです。図からわかるように、一番右の列の HDMatt 方式が最も細かい切り抜き効果が得られます。

実画像

これらのデータセットに加えて、研究者らはインターネット上で最大 6000 × 6000 の解像度を持つ高解像度画像も収集し、これらの実際の画像でテストしました。

下の図 5 は、画像全体を入力として使用した場合の IndexNet、ContextNet、および HDMatt メソッドのパフォーマンスを示しています。結果から、HDMatt メソッドはより細かく正確な詳細を抽出できると同時に、推論速度も速いことがわかります。ただし、このアプローチでは、依然として細かい詳細の一部が失われます。

コンテキストパッチに基づく注目度の可視化

下の図 7 は、特定のクエリ パッチ上の選択されたコンテキスト パッチに基づく注目マップを示しています。

制御変数研究

次の表は、制御変数調査の結果を示しています。

<<:  写真の中のキャラクターを動かしたり歌わせたりできます!このAIブラックテクノロジーは台無しになった

>>:  人工知能の発達により、親は子供たちに新しいエリートの考え方を教えざるを得なくなった

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指...

Cloud Pak for Data 3.0は、企業のコスト削減と効率性の向上を支援し、AI導入を加速します。

[[335519]]感染症流行後も実体経済は厳しい状況が続いている。生産停止、収益の急激な減少、資...

ディープラーニングの概要: パーセプトロンからディープネットワークまで

近年、人工知能の分野は再び活発化しており、伝統的な学術界に加え、Google、Microsoft、F...

シンプルなデータ暗号化と復号化アルゴリズムの実装方法を教えます

この記事では、シンプルだが実用的な暗号化方式を実装する方法を紹介します。実際のプロジェクト開発におけ...

次世代AIの成功は効果的なパイロット戦略から始まります

生成 AI は世界を席巻していますが、企業はどのようにしてこのテクノロジーの可能性を真に活用し、その...

NLPとナレッジグラフの統合

この記事は、中国情報処理学会の事務局長である白碩博士が杭州金融ナレッジグラフフォーラムで行った講演を...

2025年以降の人工知能の未来(パート2)

前回の記事では、2025年以降の人工知能の未来についてお話ししました(パート1)。今日は、5G、6G...

2020年Qizhi開発者会議が北京で盛大に開幕、第一弾の1000万インセンティブボーナスが発表された

2020年12月2日午前9時、知恵とリソースを集めることを目的とした2日間のOpenI/O 2020...

...

将来、仮想現実、人工知能、そして人体はどのように融合するのでしょうか?

仮想現実や人工知能などのテクノロジーが人体とどのように統合されるかを探ります。将来、仮想現実と現実の...

...

人工知能が新たな領域を切り開く:バーチャルクリエイターの背後にある戦い

2011 年に Apple が Siri を発表して以来、世界最大のテクノロジー企業は現実世界の仮想...

学問に戻りましょう!シュム氏は清華大学の非常勤教授として、コンピュータビジョンとグラフィックスの博士課程の学生を募集する。

[[317132]]出典:中国ビジネスニュースマイクロソフトの元副社長、ハリー・シャム博士が学界復...

Google の内部対立が激化!従業員が共同書簡に署名:AIマスターのジェフ・ディーン氏は謝罪すべき!

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ユーザーはChatGPTが怠惰になったと不満を述べ、OpenAIはモデルを調整しておらず原因を調査中であると回答した。

12月12日、OpenAIの最新バージョンのチャットボットChatGPTが「怠惰」になったと不満を...