完璧な切り抜き王ビンビン! ByteDanceのインターンが開発したAIにより、4K 60fps動画のリアルタイム切り抜きが可能に

完璧な切り抜き王ビンビン! ByteDanceのインターンが開発したAIにより、4K 60fps動画のリアルタイム切り抜きが可能に

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ふわふわの髪とハンサムな動きを見ると、グリーンスクリーンの前で大ヒット映画を撮影しているのではないかと思ってしまうだろうか?

いや、いや、いや

これは実はAIがビデオを使ってリアルタイムで画像を切り出す効果なのです。

リアルタイムのビデオ切り抜きが髪の毛一本一本と同じくらい詳細になるとは思ってもみませんでした。

アルファ チャネルに切り替えて、もう一度見てみましょう。言うまでもなく、鳩よ、お金をちょうだい (犬の頭)。

これは、ByteDance のインターンによる最新の研究、リアルタイムの高解像度ビデオ切り抜き方法です。

補助入力を必要とせずRVMと呼ばれるこの AI にビデオを投入するだけで、わずか数分でポートレートを高精度に切り抜き、背景を任意に処理できるグリーン スクリーンに置き換えることができます。

こんなにスムーズだとは信じられませんか?私たち自身もオンラインデモで試してみました。

それに対して、現在のオンライン会議ソフトウェアでは、髪の毛が顔を覆ってしまうと、人物が消えてしまいます...

髪の毛が明らかにボサボサです。

ネットユーザーが率直にこう言ったのも不思議ではない。

この AI を携帯電話に組み込むなんて想像もつきません。

現在、この論文はWACV 2022に選定されています。

あなたも試してみることができます

現在、RVM は GitHub でオープンソース化されており、次の 2 つの試用方法が提供されています。

それですぐに試してみました。

まずは効果を見てみましょう:

あまり難しくないものから始めましょう。

絵の中の人物が基本的に動かない状況では、RVM は非常に優れたパフォーマンスを発揮し、手動の切り抜きとほとんど区別がつかないと言えます。

今では、ワン・ビンビンが「どうぶつの森」に登場しても違和感はありません。

だから、心を開くのがずっと簡単になりました...

えーっと、本題に戻りましょう。キャラクターの動きがもっとドラマチックになったらどうなるでしょうか?

複数人のダンスビデオの場合も、RVM は非常に優れたパフォーマンスを発揮します。

動き回って髪の毛が飛び散ってもカットアウト効果に影響しません。

欠陥は、文字が遮られている場合にのみ表示されます。

先行方法の MODNet と比較すると、確かにかなりの進歩が見られます。

ただし、ビデオの背景が暗い場合は、RVM のパフォーマンスに影響することもわかりました。

たとえば、背景光が薄暗い場合、カットアウト効果は非常に不十分です。

ブロガーの髪の毛が完全にボサボサになっているのがわかります。

そして、身体の境界は十分に明確ではありません。

したがって、自分でビデオを撮影して試してみたい場合は、必ず明るいシーンを選択してください。

時間情報の使用

では、このような「魔法」はどのようにして実現されるのでしょうか?

いつものように、まずは紙を見てみましょう〜

実際、ビデオの切り抜きのためのアルゴリズムは今日では珍しくなく、そのほとんどはビデオ内の各フレームを独立した画像として扱う方法を使用して切り抜きを実現します。

これとは異なり、本論文では、研究者らはビデオの時間情報を活用した再帰アーキテクチャを構築し、時間的一貫性切り抜き品質の大幅な改善を達成しました。

上の図からわかるように、RVM ネットワーク アーキテクチャは次の 3 つの部分で構成されています。

  • 単一フレームの特徴を抽出するために使用される特徴抽出エンコーダー。
  • 時間情報を集約する円形デコーダー。
  • 高解像度のアップサンプリング用の深度ガイドフィルタリング (DGF) モジュール。

その中で、ループメカニズムの導入により、AIは連続したビデオストリームで自己学習し、どの情報を保持する必要があるか、どの情報を忘れてもよいかを理解できるようになります。

具体的には、再帰型デコーダーはマルチスケール ConvGRU を採用して時間情報を集約します。その定義は次のとおりです。

このエンコーダー/デコーダー ネットワークでは、AI が高解像度ビデオをダウンサンプリングし、DGF を使用して結果をアップサンプリングします。

さらに、研究者らは、カットアウトとセマンティックセグメンテーションの両方のターゲットデータセットを使用してネットワークをトレーニングするという新しいトレーニング戦略を提案しました。

これを行う利点は次のとおりです。

まず、ポートレートの切り抜きはポートレートのセグメンテーションタスクと密接に関係しています。AI は、人物の本体を堅牢に特定するために、シーンを意味的に理解することを学習する必要があります。

第二に、既存のマッティング データセットのほとんどは、実際のアルファ チャネルと前景情報のみを提供するため、背景画像を合成する必要があります。しかし、前景と背景の照明が異なる場合が多く、合成効果に影響を及ぼします。セマンティックセグメンテーションデータセットを導入すると、過剰適合を効果的に防ぐことができます。

最後に、セマンティックセグメンテーションデータセットには、より豊富なトレーニングデータがあります。

この調整後、RVM は以前のバージョンと比べてどのような改善が行われましたか?

効果の比較からもそれがはっきりと感じられます。

さらに、RVM は MODNet よりも軽量で高速です

下の表からわかるように、RVM は 1080p ビデオでは最も処理速度が速く、512×288 では BGMv2 よりわずかに遅く、4K ビデオでは FGF を使用した MODNet よりわずかに遅くなります。研究者らは、これはRVMがアルファチャンネルに加えて前景も予測するためだと分析した。

より直感的なデータとしては、NVIDIA GTX 1080Ti では、RVM は 4K ビデオを 76FPS で、HD ビデオを 104FPS で処理できるということです。

第一著者 ByteDanceインターン

この論文は、筆頭著者のLin Shanchuanが ByteDance でのインターンシップ中に完成しました。

[[420430]]

彼はワシントン大学で学士号と修士号を取得し、AdobeやFacebookなどの大手企業でインターンシップを経験しました。

2021年3月から6月まで、林山川はByteDanceでインターンをしました。 8月にマイクロソフトに入社しました。

実際、Lin Shanchuan 氏は以前、AI 切り抜き手法でCVPR 2021 最優秀学生論文賞を受賞していました。

第一著者として論文「Real-Time High-Resolution Background Matting」を発表し、Background Matting V2方式を提案した。

この方法では、4K ビデオを 30FPS で、HD ビデオを 60FPS で処理できます。

CVPR では、Background Matting シリーズの方法が複数回選択されていることは注目に値します。以前は、第 1 世代の背景マットは CVPR 2020 に含まれていました。

両論文の責任著者は、ワシントン大学の准教授である Ira Kemelmacher-Shlizerman です。彼女の研究分野には、コンピューター ビジョン、コンピューター グラフィックス、AR/VR などがあります。

[[420431]]

なお、この論文の第二著者は、ByteDanceの研究科学者であるLinjie Yang氏です。彼は清華大学で学士号を取得し、香港中文大学で博士号を取得しました。

[[420432]]

ちなみに、Colabで試すだけでなく、Web版でもこのAIの効果をリアルタイムで体験できます。アドレスはこちらです:

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub アドレス:
https://github.com/PeterL1n/RobustVideoMatting
論文の宛先:
https://arxiv.org/abs/2108.11515
参考リンク:
https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/ より

<<:  トランスフォーマーは人気を失っているのか?常識的な問題を解決したい場合、ニューラルネットワークは答えではない

>>:  デイリーアルゴリズム: 有効な括弧

推薦する

人工知能を開発するには何が必要ですか?

独自の人工知能システムを構築するにはどうすればよいでしょうか?多くのことと同様に、答えは「それは状況...

...

自然言語処理における大きな前進: Word2Vec モデルを適用して単語ベクトル表現を学習する

一般的な自然言語処理システムでは、単語のエンコードは任意であるため、個々の記号間の可能な関係に関する...

AI、ブロックチェーン、ロボット:テクノロジーは仕事の未来をどのように変えるのでしょうか?

編集者注:人工知能、ブロックチェーン、ロボットなどの破壊的な新技術が継続的に発展する中、人々はそれら...

「星から来た」ロボットは自閉症の子供たちを治せるのか?

[[236328]]私の友人のチャンさんは、8歳の自閉症の男の子の母親です。彼女の息子は2歳のとき...

産業オペレーションの深化が人工知能コンピューティングセンター構築の鍵

新たな科学技術革命と産業革命の到来とともに、デジタル経済は第四次産業革命の重要な礎となり、新たな組織...

AIドローンレースが人間のチャンピオンに勝利、ネイチャー誌が表紙:AlphaGoの成果を現実世界にもたらす

AIは再び人間の世界チャンピオンを破り、ネイチャー誌の表紙を飾りました。 AlphaGo が前回囲碁...

ガートナー: データサイエンスと機械学習の未来に影響を与える 5 つのトレンド

Gartner, Inc. は、人工知能のデータ需要を満たすために急速に進化している分野であるデータ...

自動運転データの所有権をめぐる戦い

次のようなシナリオを想像してください。 あなたはレベル3の自動運転機能を備えたAudi A8を所有し...

人工知能によって破壊される可能性のある7つの業界

[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...

GAN はたった 1 枚の画像でトレーニングできます。 Adobe が画像生成方法を改善 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習の変革: 多分野にわたる問題に立ち向かい、新しい機械学習エコシステムを構築する

機械学習の手法は、生命、物理学、社会経済などの複雑なシステムにますます応用されています。特定のタスク...

Googleは、自社のBardを含むチャットボットの使用には注意するよう従業員に警告している。

ロイター通信は6月19日、事情に詳しい4人の関係者の話として、グーグルの親会社アルファベットはチャッ...

なぜAIは東京オリンピックでバレーボールの試合を無料で観戦できるのか?

[[416801]]ビッグデータダイジェスト制作出典: Wired 8月8日の夜、第32回夏季オリ...