写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

編集者として、執筆という主な仕事に加えて、イラストレーションという非常に重要な問題を考慮する必要があることがよくあります。

動画が主流の時代ですから、文字だけの記事はグラフィック記事ほど目立ちません。そのため、私は記事を書くたびに、著作権フリーの画像サイトから、記事のテーマに合った、できれば高解像度の画像を選ぶようにしています。

しかし、常にアクシデントが起こります。時には、解像度が不十分だが最適な画像に遭遇すると、非常に困惑します。低解像度の画像を記事に直接挿入すると、視覚的に不快感を覚えるのは明らかです。PS や Windows に付属する描画ツールでさえ、画像の解像度を変更できますが、強制的に引き伸ばした結果は、画像が非常にぼやけてしまうことだけです。

画像を引き伸ばした後、画像の端に明らかなバリが現れていることがわかります。

画像をロスレスで拡大する方法はありますか?

実は、それは本当に存在するのです。GitHub のこのプロジェクト「waifu2x」でそれが実現できます。

プロジェクトのアドレスは https://github.com/nagadomi/waifu2x です。興味のある友人は勉強することができます。Web バージョンのアドレスは http://waifu2x.udp.jp/ です。

早速ですが、waifu2x を使用した後の画像と通常のストレッチの画像を比較してみましょう (左側がストレッチ、右側が waifu2x を使用した効果です)。

waifu2xを使用して画像を拡大すると、「5G」の端のバリが目立たなくなったことがわかります。一部の領域ではまだノイズの問題がありますが、全体的には直接ストレッチするよりもはるかに優れた効果があります。

では、なぜ waifu2x はロスレスで画像を拡大できるのでしょうか? これは、waifu2x が SR-CNN と呼ばれる畳み込みアルゴリズムを使用しているためです。 従来、画像の超解像問題は、低解像度画像 (LR) が入力されたときに高解像度画像 (HR) を取得する方法を研究します。

最近傍補間、双線形補間、双三次補間などの従来の画像補間アルゴリズムでは、ある程度この効果を実現できますが、これらのアルゴリズムによって得られる高解像度の画像効果は理想的ではありません。

SR-CNN は、CNN 構造 (つまり、ディープラーニングに基づく) を使用した最初のエンドツーエンドの超解像アルゴリズムです。ディープラーニング手法を使用してアルゴリズムプロセス全体を実装し、その効果は従来のマルチモジュール統合方法よりも優れています。

SR-CNN プロセスは次のとおりです: 最初の入力前処理。入力された低解像度 LR 画像は、バイキュービックアルゴリズムを使用してターゲットサイズに拡大されます。

アルゴリズムの次の目標は、入力された比較的ぼやけた LR 画像を畳み込みネットワークで処理し、元の画像の高解像度 HR 画像に可能な限り類似した超解像度 SR 画像を取得することです。

バイキュービック、SC、NE+LLE、KK、ANR、A+などの超解像アルゴリズムと比較すると、SR-CNNはほとんどの指標で最高のパフォーマンスを発揮し、復元速度も最先端にあります。また、RGBチャンネルのジョイントトレーニング効果が最も優れているため、写真と比較して、イラスト(お気に入りの2次元画像)を拡大する場合、waifu2xの方が有利になります。

SR-CNN 畳み込みアルゴリズムの詳細については、https://arxiv.org/abs/1501.00092 をご覧ください。

写真はロスなく拡大できますが、動画はどうでしょうか?

結果は確かに実現可能ですが、今回使用したツールは Topaz Gigapixel AI for Video と呼ばれます。このソフトウェアは何千ものビデオでトレーニングされており、複数の入力ビデオ フレームからの情報を組み合わせて、リアルなディテールと動きの一貫性を保ちながらビデオを 8K 解像度にアップスケールします。

AI ソフトウェアなので、高速なコンピューターが必要です。推奨されるシステム構成は、32 GB の RAM と 6 GB 以上のビデオ メモリを搭載した NVIDIA グラフィック カードです。古いコンピュータでもかろうじて動作しますが、速度は非常に遅くなります。

では、Topaz Gigapixel AI for Video はどのようにしてビデオを拡大するのでしょうか。実際、インストール時に、このソフトウェアは TensorFlow ライブラリと cuDNN ライブラリをインストールすることがわかります。つまり、このソフトウェアはディープラーニングに基づく畳み込みニューラル ネットワークを使用して各フレームを処理し、プロセス全体にわたって CUDA ユニットを実行していることは明らかです (そうでなければ、それほど遅くなりません)。

グラフィック カードに詳しい人なら、グラフィック カードがコンピューター ホストの重要なコンポーネントとして、コンピューター内でデジタル信号をアナログ信号に変換し、グラフィックの出力と表示を行うデバイスであることを知っています。

グラフィック カードはコンピューターのマザーボードに接続され、コンピューターのデジタル信号をアナログ信号に変換してモニターに表示します。同時に、グラフィック カードには画像処理機能もあり、CPU を補助して全体的な動作速度を向上させることができます。グラフィック カードは、プロのグラフィック デザインに携わる人にとって非常に重要です。

民間および軍事用のグラフィック カード チップの主なサプライヤーには、AMD と NVIDIA があります (Intel も今年はこの競争に加わる予定です)。

GPUの構造は比較的単純で、多数のコンピューティングユニットと非常に長いパイプラインを備えています。行列の乗算や加算など、均一なタイプの大量のデータを処理するのに特に適しています。そのため、AI分野でのグラフィックカードの応用は非常に広範囲になっています。CUDAは、NVIDIAが立ち上げた並列コンピューティングフレームワークで、自社のGPUでのみ使用できます。

このフレームワークをインストールすることによってのみ、複雑な並列コンピューティングを実行できます。主流のディープラーニング フレームワークはすべて GPU 並列アクセラレーション用の CUDA に基づいており、Tensorflow も例外ではありません。

残念ながら、Topaz Gigapixel AI for Video の価格はまだ比較的高価です。 約 200 ドルという価格は、多くの人を躊躇させるかもしれません。 しかし、古い映画やテレビ番組の復元や修復にはまだ非常に役立ちます。 現在、Bilibili で検索できるかなりの数の [4K 復元] ビデオがこのソフトウェアに基づいて作成されています。

考えてみてください。AIの出現は確かに生活における多くの実際的な問題を解決しました。畳み込みニューラルネットワークの急速な発展がなければ、昔の映画やテレビ番組の高解像度リメイクを見ることは想像の中にしか存在しなかったかもしれません。

<<:  ハードコア冬季オリンピック!上海交通大学が開発した、障害物を回避したり方向転換したりできるスキーロボットがオンラインになった。

>>:  自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

ブログ    
ブログ    

推薦する

人工知能搭載の携帯電話は私たちの生活をどのように変えるのでしょうか? 携帯電話メーカーが何をしてきたか見てみましょう。

チャットができる「インテリジェント音声アシスタント」から、さまざまな家電を操作できるスマートスピーカ...

Web3.0時代: インターネット上で作成したものはすべてあなたのものになります

Web3.0 の最も特別な点は、ユーザーが作成したデジタル コンテンツの所有権と管理権がユーザーに...

機械学習が近い将来教育を変える5つの方法

テクノロジーは私たちの生活、仕事、遊び方を変えており、教育も例外ではありません。機械学習は他の分野を...

2020年のロボットとドローンに関する7つの予測

IDCの最新予測によると、ロボットシステムとドローンへの総支出は2020年に1,287億ドルに達し、...

...

図解された Raft コンセンサス アルゴリズム: ログを複製する方法は?

[[402526]]ラフトログフォーマットRaft アルゴリズムでは、分散一貫性を実現するために必...

NTU Yu Yangによる徹底分析:「世界モデル」とは何か?

メディアがSoraを大々的に宣伝するなか、OpenAIの紹介資料ではSoraを「世界シミュレーター」...

AIは科学者のツールになり得るか? Nature がトップクラスの学者 5 人にインタビュー: コードの書き方を学び、期待を下げよう

[[430245]]人工知能(AI)は、専用の研究分野から他の分野のツールへと徐々に移行しており、学...

...

機械経済の到来: つながる世界を動かす

機械経済は、長年にわたる急速な社会の発展と新しい製造プロセスへの移行によって進化してきました。第一次...

...

...

量子超越性のマイルストーン! Googleの量子コンピュータは47年分の計算を6秒で完了し、世界初のスーパーコンピュータを上回る

Googleは再び「量子超越性」を達成したのか?最近、Google は、同社の量子コンピュータが、世...

人工知能と機械学習モデル向けのオープンソースフレームワークトップ5

[[253697]] [51CTO.com クイック翻訳] 過去 10 年間の人工知能の急速な成長...

自動運転車の未来はどうなるのか?マッキンゼーは言う

自動運転車は徐々に現実のものとなりつつありますが、まだ多くの疑問が残っています。消費者は本当に運転の...