53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

スローモーション動画を作るには、高価な高速カメラを使う必要がありますか?

いいえ!AIを使用できます。

わかりますか?これがAIによって実現された効果です!

実際の高速カメラの数千フレームには匹敵しませんが、アーティファクトやノイズなしで1 秒あたり53 フレーム960 フレームに簡単に変換できます。

多くのネットユーザーは、その結果を見て、「詳細なチュートリアルが本当に欲しい」「アプリを作れますか?」と言わずにはいられませんでした...

この素晴らしい研究成果は、CVPR 2021にも選ばれました。研究者は、ファーウェイ・チューリッヒ研究センターとチューリッヒ大学の研究者です。

もちろん、特別なカメラも使用されました

この効果を実現するために、ビデオのオプティカルフローから粒子の動きを推測するという従来のアイデアは使用されませんでした。代わりに、最初に 2 台のカメラを使用して画像をキャプチャしました。

1 つは、低フレーム (20 ~ 60 FPS) の実画像を記録する通常のカメラです。

スローモーション効果を実現するには、少なくとも 1 秒あたり 300 フレームが必要です。20 フレームのビデオでは、スローモーションに直接合成するには情報が少なすぎます。

何をするか?もう一つの特殊なカメラで——

つまり、イベント カメラ (ニューロモルフィック カメラとも呼ばれます) は、新しいタイプのセンサーを使用して「イベント」をキャプチャし、つまりピクセルの明るさの変化を記録します。

イベントカメラはまだ比較的新しいものです。研究室には数多くありますが、市場に大規模に投入されるまでには至っていません。価格は 1 台あたり 2,000 ドル以上です。

カメラに記録される情報は圧縮されるため、低解像度で高速に撮影することができ、画像情報量を増やす代わりに画質を犠牲にすることになります。

最終的な情報量は、AI が粒子の動きを理解し、その後の補間を容易にするのに十分です。

2台のカメラで同時に撮影された内容は次のとおりです。

写真を撮影した後、機械学習を使用して両方のカメラからの情報を最大限に活用して補間することができます。

ここで研究者らが提案する AI モデルは Time Lens と呼ばれ、 4 つの部分に分かれています。

まず、2 台のカメラでキャプチャされたフレーム情報とイベント情報が、最初の 2 つのモジュール (ワープベースの補間モジュールと合成補間モジュール) に送信されます。

変形ベースの補間モジュールは、U 字型ネットワークを利用して動きをオプティカル フロー表現に変換し、イベントを実際のフレームに変換します。

合成補間モジュールは、U 字型ネットワークを使用して 2 つのフレームの間にイベントを配置し、各イベントに対して新しい可能なフレームを直接生成します (同じイベントに対して 2 つのフレームが生成されます)。

このモジュールは、フレーム間で表示される新しいオブジェクトや照明の変化 (水の反射など) を非常にうまく処理します。

ただし、この時点で、合成されたビデオにノイズという問題が発生する可能性があります。

ここで、2 番目の補間合成モジュールからの新しい情報を使用して最初のモジュールを改良する 3 番目のモジュールが役立ちます。

つまり、同じイベントの生成された 2 つのフレームから最も重要な情報を抽出し、変形の最適化を実行します。U-net ネットワークを再度使用して、イベントの3 番目のフレーム バージョンを生成します。

最後に、これら3 つの候補フレームは、注目度ベースの平均化モジュールに入力されます。

このモジュールは、3 つのフレーム表現の中から最適なものを選択し、それらを最終フレームに構成します。

フレーム間の最初のイベントの高解像度フレームが得られたので、イベント カメラによって提供されるすべてのイベントに対してこのプロセスを繰り返すと、必要な最終結果が得られます。

このように、AI を使用してリアルなスローモーション ビデオを作成できます。どうですか?

カメラパラメータ図を添付します。

スマートフォンや他の機種では実現できない成果を実現

この AI モデルは効果的だとおっしゃっていますが、確実に知るには比較する必要があります。

たとえば、上記の比較では、最良の補間モデルの 1 つであるDAIN (CVPR 19 用に選択) とどちらが優れているかを示しています。

さらに、その補間方法の計算の複雑さも最適です。画像解像度が 640×480 の場合、DAIN モデルは研究者の GPU 上で単一の補間を実行するのに 878 ミリ秒かかりますが、AI では138 ミリ秒しかかかりません

また、推奨はされませんが、ビデオ入力が5 フレームしかない場合でも、モデルはスローモーションを生成できます。

他のモデルとの比較実験データについては、興味のある方は論文を参照してください。

最後に、著者は結果を紹介する動画の中で、高価なプロ用機器には及ばないものの、少なくともスマートフォンや他のモデルでは達成できない結果を達成したと改めて述べた。

著者について

第一著者のStepan Tulyakov氏は、チューリッヒのHuawei Research Centerの機械学習研究者です。

[[424524]]

共同筆頭著者のダニエル・ゲーリッグ氏はチューリッヒ大学の博士課程の学生です。チューリッヒ工科大学で機械工学の学位を取得。

[[424525]]

論文の宛先:

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

オープンソースアドレス:

https://github.com/uzh-rpg/rpg_timelens

<<:  Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

>>:  MITはレーザー彫刻機にAIを搭載し、材料を自動的に識別し、98%の精度で彫刻の強度を判定した。

推薦する

AIoTは自律時代を推進します。人工知能はIoTインフラに新たな競争上の優位性をもたらします。

人工知能とモノのインターネット (AIoT) は、テクノロジー分野における新しいプレーヤーの 1 つ...

...

...

より良い機械学習にはより良いデータ注釈が必要

Apple の誰かがラベル付きデータを収集するために数億ドルを費やしましたが、まだ良い結果は得られて...

食品市場における産業用ロボット、2026年までに7億4500万米ドルに達すると予想

[[433247]]包装食品の需要増加により、食品ロボット市場規模の成長が促進されると予想されます。...

CycleGAN が敵対的ネットワーク画像処理ツールを生成

1. GANの紹介「食べるために一生懸命働く人、食べるために一生懸命働く人こそが人々の中で最も優れて...

オックスフォード大学の科学人気記事、数分でわかる「機械学習とは何か」

[[389147]]人間は経験を通して学び、成長する能力を持っている学習能力と経験を通じてタスクを...

AIによる顔の変形は危険だが、VRスキーは素晴らしい

[[402233]]市民がVRスキー体験。本紙(記者 陳龍)5月27日、2021年中国国際ビッグデー...

自動運転にはバブルが必要

業界に「金儲けの見込み」があれば、必然的に「混乱」が起こります。 10年前はスマートフォンでしたが、...

技術楽観論者と悲観論者がシリコンバレーでAIの危険性を議論

ChatGPTの立ち上げから1年以上が経った今、2023年のAIに関する最大の話題は、技術そのもので...

Microsoft と Meta が提携し、Bing 検索を Meta AI チャットボットに統合

9月28日早朝、Meta Connect 2023において、MetaはMeta AIという新しいチャ...