写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある

編集者として、執筆という主な仕事に加えて、イラストレーションという非常に重要な問題を考慮する必要があることがよくあります。

動画が主流の時代ですから、文字だけの記事はグラフィック記事ほど目立ちません。そのため、私は記事を書くたびに、著作権フリーの画像サイトから、記事のテーマに合った、できれば高解像度の画像を選ぶようにしています。

しかし、常にアクシデントが起こります。時には、解像度が不十分だが最適な画像に遭遇すると、非常に困惑します。低解像度の画像を記事に直接挿入すると、視覚的に不快感を覚えるのは明らかです。PS や Windows に付属する描画ツールでさえ、画像の解像度を変更できますが、強制的に引き伸ばした結果は、画像が非常にぼやけてしまうことだけです。

画像を引き伸ばした後、画像の端に明らかなバリが現れていることがわかります。

画像をロスレスで拡大する方法はありますか?

実は、それは本当に存在するのです。GitHub のこのプロジェクト「waifu2x」でそれが実現できます。

プロジェクトのアドレスは https://github.com/nagadomi/waifu2x です。興味のある友人は勉強することができます。Web バージョンのアドレスは http://waifu2x.udp.jp/ です。

早速ですが、waifu2x を使用した後の画像と通常のストレッチの画像を比較してみましょう (左側がストレッチ、右側が waifu2x を使用した効果です)。

waifu2xを使用して画像を拡大すると、「5G」の端のバリが目立たなくなったことがわかります。一部の領域ではまだノイズの問題がありますが、全体的には直接ストレッチするよりもはるかに優れた効果があります。

では、なぜ waifu2x はロスレスで画像を拡大できるのでしょうか? これは、waifu2x が SR-CNN と呼ばれる畳み込みアルゴリズムを使用しているためです。 従来、画像の超解像問題は、低解像度画像 (LR) が入力されたときに高解像度画像 (HR) を取得する方法を研究します。

最近傍補間、双線形補間、双三次補間などの従来の画像補間アルゴリズムでは、ある程度この効果を実現できますが、これらのアルゴリズムによって得られる高解像度の画像効果は理想的ではありません。

SR-CNN は、CNN 構造 (つまり、ディープラーニングに基づく) を使用した最初のエンドツーエンドの超解像アルゴリズムです。ディープラーニング手法を使用してアルゴリズムプロセス全体を実装し、その効果は従来のマルチモジュール統合方法よりも優れています。

SR-CNN プロセスは次のとおりです: 最初の入力前処理。入力された低解像度 LR 画像は、バイキュービックアルゴリズムを使用してターゲットサイズに拡大されます。

アルゴリズムの次の目標は、入力された比較的ぼやけた LR 画像を畳み込みネットワークで処理し、元の画像の高解像度 HR 画像に可能な限り類似した超解像度 SR 画像を取得することです。

バイキュービック、SC、NE+LLE、KK、ANR、A+などの超解像アルゴリズムと比較すると、SR-CNNはほとんどの指標で最高のパフォーマンスを発揮し、復元速度も最先端にあります。また、RGBチャンネルのジョイントトレーニング効果が最も優れているため、写真と比較して、イラスト(お気に入りの2次元画像)を拡大する場合、waifu2xの方が有利になります。

SR-CNN 畳み込みアルゴリズムの詳細については、https://arxiv.org/abs/1501.00092 をご覧ください。

写真はロスなく拡大できますが、動画はどうでしょうか?

結果は確かに実現可能ですが、今回使用したツールは Topaz Gigapixel AI for Video と呼ばれます。このソフトウェアは何千ものビデオでトレーニングされており、複数の入力ビデオ フレームからの情報を組み合わせて、リアルなディテールと動きの一貫性を保ちながらビデオを 8K 解像度にアップスケールします。

AI ソフトウェアなので、高速なコンピューターが必要です。推奨されるシステム構成は、32 GB の RAM と 6 GB 以上のビデオ メモリを搭載した NVIDIA グラフィック カードです。古いコンピュータでもかろうじて動作しますが、速度は非常に遅くなります。

では、Topaz Gigapixel AI for Video はどのようにしてビデオを拡大するのでしょうか。実際、インストール時に、このソフトウェアは TensorFlow ライブラリと cuDNN ライブラリをインストールすることがわかります。つまり、このソフトウェアはディープラーニングに基づく畳み込みニューラル ネットワークを使用して各フレームを処理し、プロセス全体にわたって CUDA ユニットを実行していることは明らかです (そうでなければ、それほど遅くなりません)。

グラフィック カードに詳しい人なら、グラフィック カードがコンピューター ホストの重要なコンポーネントとして、コンピューター内でデジタル信号をアナログ信号に変換し、グラフィックの出力と表示を行うデバイスであることを知っています。

グラフィック カードはコンピューターのマザーボードに接続され、コンピューターのデジタル信号をアナログ信号に変換してモニターに表示します。同時に、グラフィック カードには画像処理機能もあり、CPU を補助して全体的な動作速度を向上させることができます。グラフィック カードは、プロのグラフィック デザインに携わる人にとって非常に重要です。

民間および軍事用のグラフィック カード チップの主なサプライヤーには、AMD と NVIDIA があります (Intel も今年はこの競争に加わる予定です)。

GPUの構造は比較的単純で、多数のコンピューティングユニットと非常に長いパイプラインを備えています。行列の乗算や加算など、均一なタイプの大量のデータを処理するのに特に適しています。そのため、AI分野でのグラフィックカードの応用は非常に広範囲になっています。CUDAは、NVIDIAが立ち上げた並列コンピューティングフレームワークで、自社のGPUでのみ使用できます。

このフレームワークをインストールすることによってのみ、複雑な並列コンピューティングを実行できます。主流のディープラーニング フレームワークはすべて GPU 並列アクセラレーション用の CUDA に基づいており、Tensorflow も例外ではありません。

残念ながら、Topaz Gigapixel AI for Video の価格はまだ比較的高価です。 約 200 ドルという価格は、多くの人を躊躇させるかもしれません。 しかし、古い映画やテレビ番組の復元や修復にはまだ非常に役立ちます。 現在、Bilibili で検索できるかなりの数の [4K 復元] ビデオがこのソフトウェアに基づいて作成されています。

考えてみてください。AIの出現は確かに生活における多くの実際的な問題を解決しました。畳み込みニューラルネットワークの急速な発展がなければ、昔の映画やテレビ番組の高解像度リメイクを見ることは想像の中にしか存在しなかったかもしれません。

<<:  ハードコア冬季オリンピック!上海交通大学が開発した、障害物を回避したり方向転換したりできるスキーロボットがオンラインになった。

>>:  自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

ブログ    
ブログ    

推薦する

LLM にとってベクター データベースが重要なのはなぜですか?

翻訳者 |ブガッティレビュー | Chonglou Twitter 、 LinkedIn 、またはニ...

LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

大規模言語モデルは推論できますか?出現したさまざまな能力の源は何でしょうか?少し前に、LeCun 氏...

...

...

0からNまで、ハンワンテクノロジーが再び人工知能のトレンドに火をつける

本日、「0からNへ・原始開拓」をテーマにした2021年漢王科技秋季新製品発表会がオンラインで開催され...

...

人工知能から新素材まで、IBMが5つの革新的な技術を発表

[原文は51CTO.comより] 2019年のIBM中国フォーラム(シンクサミット)で、IBMは各分...

DeepMindの長い記事によると、AlphaZeroのブラックボックスニューラルネットワークが学習した知識は基本的に人間の知識と似ているという。

AlphaZero がチェスをプレイすることと人間がチェスをプレイすることの違いは何ですか?あなた...

Llama インデックスを使用したマルチエージェント RAG の構築

検索拡張生成 (RAG) は、大規模言語モデル (LLM) の機能を強化する強力な手法として登場しま...

自動運転車を巡る最大の論争の一つは、それが保険業界にどのような影響を与えるかということだ。

自動運転車は新しい概念ではありません。ほぼすべての大手自動車メーカーが何らかの形の自動運転車を開発し...

Meta と Microsoft が、開発者が生成型 AI アプリケーションを構築できるようにオープンソース モデル Llama 2 をリリース

7月19日、MetaとMicrosoftは協力して、研究や商用目的で無料で使用できるMetaの次世代...

リモートワークにおけるAIの活用事例

世界中の組織がリモートワークに移行する必要に迫られ、業務を維持するために技術的な対策が必要になりまし...

複合現実技術による医療シナリオ、Weizhuo Zhiyuan は 3D シーンを使用して病変を正確に特定します

[51CTO.comからの原文] 今日の医療業界は、次第にテクノロジー化と精密化が進んでいます。医療...