写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

編集者として、執筆という主な仕事に加えて、イラストレーションという非常に重要な問題を考慮する必要があることがよくあります。

動画が主流の時代ですから、文字だけの記事はグラフィック記事ほど目立ちません。そのため、私は記事を書くたびに、著作権フリーの画像サイトから、記事のテーマに合った、できれば高解像度の画像を選ぶようにしています。

しかし、常にアクシデントが起こります。時には、解像度が不十分だが最適な画像に遭遇すると、非常に困惑します。低解像度の画像を記事に直接挿入すると、視覚的に不快感を覚えるのは明らかです。PS や Windows に付属する描画ツールでさえ、画像の解像度を変更できますが、強制的に引き伸ばした結果は、画像が非常にぼやけてしまうことだけです。

画像を引き伸ばした後、画像の端に明らかなバリが現れていることがわかります。

画像をロスレスで拡大する方法はありますか?

実は、それは本当に存在するのです。GitHub のこのプロジェクト「waifu2x」でそれが実現できます。

プロジェクトのアドレスは https://github.com/nagadomi/waifu2x です。興味のある友人は勉強することができます。Web バージョンのアドレスは http://waifu2x.udp.jp/ です。

早速ですが、waifu2x を使用した後の画像と通常のストレッチの画像を比較してみましょう (左側がストレッチ、右側が waifu2x を使用した効果です)。

waifu2xを使用して画像を拡大すると、「5G」の端のバリが目立たなくなったことがわかります。一部の領域ではまだノイズの問題がありますが、全体的には直接ストレッチするよりもはるかに優れた効果があります。

では、なぜ waifu2x はロスレスで画像を拡大できるのでしょうか? これは、waifu2x が SR-CNN と呼ばれる畳み込みアルゴリズムを使用しているためです。 従来、画像の超解像問題は、低解像度画像 (LR) が入力されたときに高解像度画像 (HR) を取得する方法を研究します。

最近傍補間、双線形補間、双三次補間などの従来の画像補間アルゴリズムでは、ある程度この効果を実現できますが、これらのアルゴリズムによって得られる高解像度の画像効果は理想的ではありません。

SR-CNN は、CNN 構造 (つまり、ディープラーニングに基づく) を使用した最初のエンドツーエンドの超解像アルゴリズムです。ディープラーニング手法を使用してアルゴリズムプロセス全体を実装し、その効果は従来のマルチモジュール統合方法よりも優れています。

SR-CNN プロセスは次のとおりです: 最初の入力前処理。入力された低解像度 LR 画像は、バイキュービックアルゴリズムを使用してターゲットサイズに拡大されます。

アルゴリズムの次の目標は、入力された比較的ぼやけた LR 画像を畳み込みネットワークで処理し、元の画像の高解像度 HR 画像に可能な限り類似した超解像度 SR 画像を取得することです。

バイキュービック、SC、NE+LLE、KK、ANR、A+などの超解像アルゴリズムと比較すると、SR-CNNはほとんどの指標で最高のパフォーマンスを発揮し、復元速度も最先端にあります。また、RGBチャンネルのジョイントトレーニング効果が最も優れているため、写真と比較して、イラスト(お気に入りの2次元画像)を拡大する場合、waifu2xの方が有利になります。

SR-CNN 畳み込みアルゴリズムの詳細については、https://arxiv.org/abs/1501.00092 をご覧ください。

写真はロスなく拡大できますが、動画はどうでしょうか?

結果は確かに実現可能ですが、今回使用したツールは Topaz Gigapixel AI for Video と呼ばれます。このソフトウェアは何千ものビデオでトレーニングされており、複数の入力ビデオ フレームからの情報を組み合わせて、リアルなディテールと動きの一貫性を保ちながらビデオを 8K 解像度にアップスケールします。

AI ソフトウェアなので、高速なコンピューターが必要です。推奨されるシステム構成は、32 GB の RAM と 6 GB 以上のビデオ メモリを搭載した NVIDIA グラフィック カードです。古いコンピュータでもかろうじて動作しますが、速度は非常に遅くなります。

では、Topaz Gigapixel AI for Video はどのようにしてビデオを拡大するのでしょうか。実際、インストール時に、このソフトウェアは TensorFlow ライブラリと cuDNN ライブラリをインストールすることがわかります。つまり、このソフトウェアはディープラーニングに基づく畳み込みニューラル ネットワークを使用して各フレームを処理し、プロセス全体にわたって CUDA ユニットを実行していることは明らかです (そうでなければ、それほど遅くなりません)。

グラフィック カードに詳しい人なら、グラフィック カードがコンピューター ホストの重要なコンポーネントとして、コンピューター内でデジタル信号をアナログ信号に変換し、グラフィックの出力と表示を行うデバイスであることを知っています。

グラフィック カードはコンピューターのマザーボードに接続され、コンピューターのデジタル信号をアナログ信号に変換してモニターに表示します。同時に、グラフィック カードには画像処理機能もあり、CPU を補助して全体的な動作速度を向上させることができます。グラフィック カードは、プロのグラフィック デザインに携わる人にとって非常に重要です。

民間および軍事用のグラフィック カード チップの主なサプライヤーには、AMD と NVIDIA があります (Intel も今年はこの競争に加わる予定です)。

GPUの構造は比較的単純で、多数のコンピューティングユニットと非常に長いパイプラインを備えています。行列の乗算や加算など、均一なタイプの大量のデータを処理するのに特に適しています。そのため、AI分野でのグラフィックカードの応用は非常に広範囲になっています。CUDAは、NVIDIAが立ち上げた並列コンピューティングフレームワークで、自社のGPUでのみ使用できます。

このフレームワークをインストールすることによってのみ、複雑な並列コンピューティングを実行できます。主流のディープラーニング フレームワークはすべて GPU 並列アクセラレーション用の CUDA に基づいており、Tensorflow も例外ではありません。

残念ながら、Topaz Gigapixel AI for Video の価格はまだ比較的高価です。 約 200 ドルという価格は、多くの人を躊躇させるかもしれません。 しかし、古い映画やテレビ番組の復元や修復にはまだ非常に役立ちます。 現在、Bilibili で検索できるかなりの数の [4K 復元] ビデオがこのソフトウェアに基づいて作成されています。

考えてみてください。AIの出現は確かに生活における多くの実際的な問題を解決しました。畳み込みニューラルネットワークの急速な発展がなければ、昔の映画やテレビ番組の高解像度リメイクを見ることは想像の中にしか存在しなかったかもしれません。

<<:  ハードコア冬季オリンピック!上海交通大学が開発した、障害物を回避したり方向転換したりできるスキーロボットがオンラインになった。

>>:  自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

ブログ    
ブログ    
ブログ    

推薦する

スタンフォード大学: 人工知能に関する 4 年間の学部課程一覧

最近、数年間業界で働いているスタンフォード大学の AI 卒業生が、AI と機械学習のキャリアのために...

人工知能アルゴリズムが核融合の応用に一歩近づく

核融合は現在一般的に使用されている核分裂法よりも安全で環境に優しいことはよく知られています。しかし、...

人工知能によって破壊される可能性のある7つの業界

[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...

...

...

バイトマルチモーダル大規模モデル PixelLM: SA に頼らない効率的なピクセルレベル推論

マルチモーダルな大規模モデルが爆発的に増加していますが、画像編集、自動運転、ロボット工学などのきめ細...

将来、人工知能技術は動物実験に取って代わる可能性を秘めているのでしょうか?

動物実験は動物に対して行われる最も残酷な行為の一つと考えられています。研究によると、マウス、カエル、...

データ構造とアルゴリズムの簡単な紹介

一般的なデータ構造にはどのようなものがありますか? 基本的な操作は何ですか? 一般的なソート アルゴ...

Java 実装と読み取り/書き込みロック アルゴリズムの考え方

問題の背景: 複数のスレッドが共有リソースへの読み取りおよび書き込みアクセスを実行します。書き込みス...

...

...

2020年のコロナウイルスパンデミックが仕事の未来に与える影響

[[323304]] [51CTO.com クイック翻訳] 疫病の影響により、多くの企業従業員がリモ...

海外メディア:人間はますます余暇を持ち、AIは資本主義を排除する

ベストセラー作家のバーナード・マー氏はフォーブス誌に「人工知能はいかにして資本主義を殺すか」と題する...

人工知能システム:無制限の核融合反応を現実のものに

近年、研究者らはトカマクの停止や損傷の原因となる核分裂反応を研究している。核分裂反応を予測・制御でき...

現代のストレージシステムの背後にある古典的なアルゴリズムを解釈する

アプリケーションによって処理されるデータの量は増加し続けています。データの増加は、ストレージ機能の拡...