デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

高画質を追求する時代において、低画質に対する許容度はますます低くなっています。

Zhihuで「低解像度」「画質が悪い」と検索すると、「解像度が低い写真を改善する方法」「画質が悪い写真を保存する方法」などの質問が多数表示されます。

では、モザイクレベルの画像を数秒で高解像度に変換するとどうなるのでしょうか?デューク大学の研究者は AI アルゴリズムを使用して、次のことを伝えます。

GitHub リンク: https://github.com/adamian98/pulse

前例のない「モザイク」が瞬時に高画質化

デューク大学の研究者は、PULSE(Photo Upsampling via Latent Space Exploration)と呼ばれる AI アルゴリズムを提案しました。

このアルゴリズムは、ぼやけて認識できない顔の画像を、これまでよりも細かくリアルなディテールを持つコンピューター生成画像に変換できます。

入力された低解像度画像に基づいて、システムは一連の高解像度画像を生成します。

前の方法を使用してぼやけた「ヘッドショット」を鮮明にする場合、写真を元の解像度の 8 倍までしか拡大できません。

しかし、デューク大学のチームは、わずか数秒で16×16ピクセルの低解像度(LR)画像を64倍の1024×1024ピクセルの高解像度(HR)画像に拡大できる新しい方法を提案しました。

同社のAIツールは、本来存在しない特徴を「想像」することができる。毛穴、小じわ、まつ毛、髪の毛、無精ひげなど、元のLR写真では見えない細部も、同社のアルゴリズムで処理するとはっきりと見えるようになる。

具体的な例を見てみましょう。

左の画像は元の低解像度画像、右の画像はシステムによって作成された高解像度画像です。

「これほど少ないピクセル数でこれほど詳細な超解像度画像を作成することはこれまで不可能だった」と、チームを率いたデューク大学のコンピューター科学者シンシア・ルーディン氏は語った。

実際の応用に関しては、論文の共著者であるサチット・メノン氏は次のように述べている。「これらの研究では、顔を概念実証としてのみ使用しました。

しかし、理論的には、この技術は汎用性があり、医学や顕微鏡から天文学や衛星画像まで、さまざまな分野で画像品質の向上に使用できる可能性がある。 「

従来の業務を打破して最高の結果を達成する

低精細を高精細に変換する同様の手法はこれまでも数多くありましたが、64倍という画素拡大レベルを実現したのは業界でも初めてです。

従来の方法: ピクセルマッチング、バグが発生しやすい

このような問題に対処する場合、従来の方法では通常、LR 画像を取得して、必要な追加ピクセル数を「推測」し、以前に処理された HR 画像内の対応するピクセルを LR 画像に一致させようとします。

単純にピクセルを一致させた結果、髪の毛や肌の質感などの領域にピクセルの不一致が生じます。

さらに、この方法では、HR 画像の光感度などの知覚的詳細も無視されます。そのため、最終的には滑らかさと感度に問題が発生し、結果は依然としてぼやけて見えたり、非現実的に見えたりします。

これまでの方法の中には奇妙な結果をもたらすものもありました。

新しい手法:低解像度画像の「リンク」

デューク大学のチームが提案した新しい方法は、新たなアイデアを開拓したと言える。

PULSE システムは、LR 画像を取得した後、新しい詳細をゆっくりと追加するのではなく、AI によって生成された HR 画像を反復処理し、これらの HR 画像に対応する LR 画像を元の画像と比較し、最も近い画像を見つけます。

たとえて言うと、LR 画像で「点をつなぐ」ゲームを行い、最も類似した LR バージョンを見つけて、逆方向に作業するのと同じです。この LR 画像に対応する HR 画像が最終的な出力結果です。

オリジナルのLR画像(上)、PULSEによるHR画像出力(中央)

HR画像に対応するLR画像(下)

研究チームは、同じ写真のデータセットでトレーニングされた、ジェネレーターとディスクリミネーターの 2 つのニューラル ネットワークで構成される生成的敵対的ネットワーク (GAN) を使用しました。

ジェネレーターはトレーニングされた顔をシミュレートして AI が作成した顔を提供し、一方、識別器はその出力を受け取り、偽物と間違われるほどリアルかどうかを判断します。

経験を積むにつれて、ジェネレーターはどんどん良くなり、最終的には識別器が違いを判別できなくなります。

実験には実際の画像がいくつか使用され、効果の比較が下の図に示されています。

上段が実画像、中段が実画像をダウンサンプリングして得られたLR画像です。

下の行は、LR 画像に基づいて PULSE によって生成された HR 画像を示しています。

生成された高解像度画像はまだ元の画像と若干のギャップがありますが、以前の方法よりもはるかに鮮明です。

評価: 他の方法より優れており、実際の写真に近いスコアを獲得

研究チームは、有名な高解像度の顔データセット CelebA HQ でアルゴリズムを評価し、64 倍、32 倍、8 倍のスケーリング係数で実験を実行しました。

研究者らは 40 人に、PULSE と他の 5 つのスケーリング方法で生成された 1,440 枚の画像を 1 から 5 のスケールで評価するよう依頼しました。その結果、PULSE が最も優れたパフォーマンスを発揮し、実際の高品質の写真とほぼ同等のスコアを獲得しました。

HR は実際の高解像度ポートレート データセットであり、そのスコアは PULSE よりわずか 0.14 高いだけです。

チームメンバーは、PULSE は、元の画像が目や口を認識できない場合でも、ノイズの多い低品質の入力からリアルな画像を作成できると述べています。これは他の方法では実現できないことです。

他の方法と比較して、PULSE はよりリアルに詳細を処理できます。

しかし、研究者らは、このシステムはまだ本人確認には利用できないと述べている。「防犯カメラで撮影されたピントが合っていない、認識できない写真を、実際の人物の鮮明な画像に変えることはできない。存在しないが本物のように見える新しい顔を生成することしかできない。」

具体的な応用シーンとしては、上記以外にも、将来的には医療や天文学の分野でも活用される可能性があり、一般の人々にとって、このブラックテクノロジーがあれば、N年前に撮影された古い写真を高解像度にすることができる。これは編集者にとって素晴らしいニュースです。高解像度のイラストを探す手間が省けるからです。

<<:  コレクションにおすすめ!素晴らしい AWS 機械学習ツールキットの概要

>>:  セキュリティとインテリジェンス: 銀行における IoT の導入と応用

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

今後のブロックチェーンの3大発展トレンド。2018年には不人気になるのか?

昨日、デジタル通貨は再び全面的に急落し、ビットコインの価格は一時8,000ドルを下回りました。暗号通...

IoTとAIがキャッシュレス小売業をどう推進するか

Amazon Go ストアのオープンは、私たちの買い物方法に大きな変化をもたらします。私たちは初め...

大規模な機械学習: データサイエンスを本番システムアーキテクチャに導入するための典型的なパターン

ここ数年、データサイエンスの概念は多くの業界で受け入れられてきました。データ サイエンス (科学的研...

2021年に注目すべき5つのAIトレンド

[[392513]] 2020年にCOVID-19が世界的に猛威を振るう中、人々は人工知能技術の助け...

...

...

テクノロジー大手はAIの研究開発に数十億ドルを費やしているが、かつて人間に勝ったAIが売却されようとしているという自慢が疑問視されている

グーグルやフェイスブックなどのテクノロジー大手は長年にわたり、人工知能(AI)に数十億ドルを投資し、...

北京交通大学がソースの交通モデル TransGPT·Zhiyuan をオープン、商用利用は無料

半年以上にわたる好調なビジネスを経て、国内の大型モデル分野は中盤戦に突入し、長年垂直分野に深く関わっ...

...

人工知能プログラミングは、人間がよりインテリジェントな機械を作成するのに役立ちますか?

テクノロジーが急速に進歩するにつれ、人工知能プログラミングはますます成熟しつつあります。その開発は、...

...

...

南京科技大学とオックスフォード大学は、1行のコードでゼロショット学習法の効果を大幅に向上させるプラグアンドプレイ分類モジュールを提案した。

ゼロショット学習は、トレーニングプロセス中に出現しなかったカテゴリの分類に重点を置いています。意味記...

無人スーパーマーケットの仕組みをご存知ですか?

[[280914]]近年、無人スーパーマーケットが大人気となり、さまざまなeコマース企業が独自の無...