AIがあなたをビデオから消去しました!効果はシルキーで跡が残りません

AIがあなたをビデオから消去しました!効果はシルキーで跡が残りません

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

男は自転車で砂丘を横切り、跡形もなく姿を消した。目撃者によると、男は目の前で姿を消したという。

テニス選手とラケットがボールを強く打ちすぎて破壊される:

ハイキング好きの男子大学生が、山奥やゴビ砂漠に入った後に行方不明になった。

白いバンは不思議なことに消え、監視カメラにもその痕跡は見つからなかった。

若い女の子が広場で踊り、そして真っ昼間に姿を消した。

週末、中学生がブランコ​​で遊んでいたところ、ブランコが空中に飛んでしまい、ブランコの椅子だけが残された。両親は、1秒前まで子供は無事だったと話している。

馬術選手が柵を越えた後、騎手と馬の両方が消え、ネットユーザーたちはポータルが現れたのではないかと疑った。

船員は海に出た後、謎の失踪を遂げ、主催者は捜索したが、依然として発見できなかった。

この奇妙な現象から、人々は「9と3/4番線」で使われたものと同じ魔法がビデオでも使われたのではないかと疑っている。

そうです、これが今年のECCVで最も驚くべきAI透明マント技術です。

ネットユーザーたちは驚き、このシーンはサノスのようだと言った。

この技術が泥棒に使われたら、家具が「浮かんで行ってしまう」のではないかと人々は心配し始めた。

海外のネットユーザーの中には、広告をブロックするのに使えると喜んでいる人もいて、とてもよかったです。

この透明マントはどうやって作られたのでしょうか?

光学フローエッジガイダンスに基づくビデオ補完アルゴリズム

透かしを完全に除去し、文字を削除する AI の「不可視性」のスーパーパワーは、実際にはオプティカルフローに基づくビデオ復元アルゴリズムです。

以前、QuantumBit は、香港中文大学と南洋理工大学の SenseTime 共同研究室のオプティカルフロー誘導ビデオ復元アルゴリズムを紹介しました。

しかし、従来のオプティカルフローベースの方法では、動きの境界の鮮明さを維持できないことが多く、復元された画像が十分に滑らかになりません。

さらに、従来の方法では、隣接するフレーム間のローカルなオプティカルフロー接続で色が伝播されるため、透かしやオブジェクトで覆われたビデオのすべての領域をこの方法で復元できるわけではなく、アーティファクトが発生します。

これらの問題に対処するために、バージニア大学と Facebook の研究チームは主に次の 3 つのアプローチを採用しました。

  • 部分的スムーズフローの完了
  • 非ローカルフロー近隣
  • シームレスなブレンド

具体的には、まず、ネットワークの入力には、修復するビデオ自体と、アルゴリズムによって合成する必要がある部分を示すバイナリマスクビデオが含まれます。

次に、隣接フレーム間のオプティカルフローと、隣接しないフレームのセット間のオプティカルフローを計算し、フローのエッジを抽出して完成させます。下の図の赤い線の部分は、ニューラル ネットワークによって「塗りつぶされた」エッジです。

次に、フロー エッジを使用して、ビデオ内の透かしや人物によってブロックされた欠落領域の復元をガイドします。

次のステップは、オプティカルフローの軌跡に従って、欠落している各ピクセルの候補ピクセルのセットを計算することです。各候補ピクセルには、対応する信頼スコアとバイナリ有効性インジケーターがあります。

上図を例にとると、緑色の領域は欠落部分であり、黄色の線、オレンジ色の線、茶色の線はそれぞれ最初の非ローカル フレーム、現在のフレーム、3 番目の非ローカル フレームのスキャン ラインを表しています。

オプティカルフローの軌跡(黒点線)を追跡することで、図中の青いピクセルの候補ピクセルが計算されていることがわかります。しかし、人間の足の動きによって生じる遮蔽により、赤色ピクセルの候補ピクセルを計算することが困難になります。

ただし、隣接していないフレームの非局所的なオプティカル フローを導入すると、赤いピクセルは追加の非局所領域 (黄色と茶色の線上の赤いピクセル) を取得し、そこから脚によってブロックされた実際の背景を計算できます。

次に、各欠落ピクセルの候補を、勾配領域で信頼度加重平均を使用して融合し、色を再構築します。

最後に、欠落したピクセルがなくなるまでこのプロセスが繰り返されます。

実験結果: SOTA

視覚的な観点から見ると、この AI の不可視スキルは非常に成功しています。

Diffusion や SenseTime の Xu Rui らのアルゴリズムと比較すると、新しい方法では、より明確な動きの境界とより滑らかな効果が得られます。

では、定量的な比較の結果はどうでしょうか?データを直接見てみましょう。

DAVIS データセットでは、研究者らは自分たちのアプローチを既存の方法と比較し、透かしのような静的オブジェクトと動くオブジェクトの 2 種類の合成マスクのビデオ完成結果を比較しました。

結果は、新しい方法がすべての指標で最高のパフォーマンスを達成することを示しています。

著者について

このクールな AI 透明マントは、バージニア工科大学と Facebook によって開発されました。

第一著者はバージニア工科大学の博士課程3年生であるチェン・ガオ氏です。彼の研究対象は計算写真学とコンピュータービジョンであり、バージニア工科大学の助教授である Jia-Bin Huang 氏の指導を受けています。

[[340938]]

この作品はFacebookでのインターンシップ中に完成しました。現在、彼はGoogleで研究インターンとして働いています。

作者はまた、この AI 透明マントのコードは近々オープンソース化され、オンラインデモも公開される予定であると述べました。

ポータル

プロジェクトアドレス:
ホームページ

論文の宛先:
https://arxiv.org/abs/2009.01835

<<:  データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

>>:  企業が人工知能を応用する際に直面する課題

ブログ    
ブログ    
ブログ    

推薦する

Pandasの魅力:データ処理から機械学習まで

パート01、 シリーズとデータフレーム: Pandas のコアPandas の 2 つの主要なデータ...

米国の都市、犯罪増加で顔認識技術の禁止を撤回

バージニア州は7月に地元警察による顔認識技術の使用禁止を解除する予定だが、カリフォルニア州とニューオ...

例 | CNN と Python を使用した肺炎検出

導入こんにちは!数時間前にディープラーニング プロジェクトを終えたので、その成果を共有したいと思いま...

マスク氏はオープンAIの主任科学者に質問した。「いったい何を見てそんなに怖くなったのですか?」

2015年11月27日、イーロン・マスクはイリヤ・スツケヴァー氏がOpenAIの主任科学者として参...

人工知能の台頭は難しく、普通のAI開発者が普及する

[[241542]] Forbes によれば、FORTRAN のパンチカードから Go を使用した分...

IDCは、年平均成長率31.4%で、世界のAIソフトウェアの収益は2027年に2,790億ドルに達すると予測している。

11月2日、市場調査会社IDCが発表した最新の予測レポートによると、世界のAIソフトウェア市場規模...

人工知能がインダストリー4.0における製造業に革命をもたらす

人工知能 (AI) という用語は、流行語の地位を超え、業界全体にわたる技術革新の基礎となっています。...

本物そっくりの「人工顔」は顔認識を騙せるのか?

[[360561]]過去数年間に自分の写真をオンラインに投稿したことがあれば、Clearview ...

...

ゲームに「顔認識」を追加したことで生まれた考え

最近、国内で人気の「チキン早食い」ゲームに「顔認識システム」が導入され、大きな論争を巻き起こした。多...

GitHub ホットリスト 1 位: 数百万のトークン コンテキスト、動画も生成可能、カリフォルニア大学バークレー校制作

今日の GitHub ホット リストのトップは、最新のオープン ソース ワールド モデルです。コンテ...

ディープラーニングのコードを信頼できるのはなぜでしょうか?

ディープラーニングは、正確性を評価するのが難しい分野です。ランダムな初期化、膨大なデータセット、重み...

2016年の音声認識の発展を技術的な観点から振り返る

ディープラーニングと人工ニューラルネットワークの発展により、音声認識は 2016 年に一連のブレーク...

...

...