モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

サスペンスやSF作品では、ぼやけた写真がコンピューターの画面に表示され、捜査官が画像を強調するように依頼すると、画像が魔法のように鮮明になり、重要な手がかりが明らかになる、といったシーンがよく見られます。

これは素晴らしいことのように思えるかもしれないが、実際には何十年もの間、完全に架空の筋書きだったのだ。 AI の生成能力が成長し始めたときでさえ、しばらくの間は困難でした。「画像を拡大しただけでは、ぼやけてしまいます。細部はたくさんありますが、すべてが間違っています」と、Nvidia の応用ディープラーニング研究担当副社長、ブライアン・カタンザーロ氏は言います。

しかし、研究者たちは最近、画像強化ツールに AI アルゴリズムを組み込み始めており、プロセスはより簡単かつ強力になっていますが、画像から取得できるデータには依然として限界があります。しかし、研究者たちは拡張アルゴリズムの限界を押し広げ続ける中で、これらの制限に対処する新しい方法、さらにはそれらを克服する方法を見つけています。

過去 10 年間、研究者たちは、詳細で印象的な写真を生成できる生成的敵対的ネットワーク (GAN) モデルを使用して画像を強化し始めました。

「突然、画像がずっと良く見えるようになった」とイスラエルのテヘラン工科大学の電気技師、トメル・ミカエリ氏は言う。しかし、彼はGANによって生成された画像が、拡張された画像が表示されている基礎となる現実にどれだけ近いかを測定する歪みのレベルが高いことにも驚いた。 GAN によって生成された画像は美しく自然に見えますが、実際には不正確な詳細を「捏造」または「想像」しており、大きな歪みが生じています。

ミカエリ氏は、写真修復の分野は主に 2 つのカテゴリに分かれることに気づきました。1 つは美しい写真で、その多くは GAN によって生成されました。もう 1 つはデータを表示しますが、見栄えが良くないため、写真はあまり表示されません。

2017 年、ミカエリ氏と大学院生のヨチャイ・ブラウ氏は、人間の主観的判断と相関する知覚品質の既知の尺度を使用して、歪みと知覚品質の観点からさまざまな画像強調アルゴリズムのパフォーマンスをより正式に調査しました。ミカエリ氏の予想通り、いくつかのアルゴリズムは非常に高い視覚品質を備えており、他のアルゴリズムは非常に正確で歪みが非常に少ないものでした。しかし、どちらも両方の利点を備えているわけではないので、どちらか一方を選択する必要があります。これは知覚歪みのトレードオフとして知られています。

ミカエリ氏はまた、きれいな画像アルゴリズムと優れた統計アルゴリズムを公平に比較するために、特定のレベルの歪みに対して最高の画像品質を生み出すアルゴリズムを考案するよう他の研究者に要求しました。それ以来、何百人もの AI 研究者が、このトレードオフを説明するミカエリとブラウの論文を引用しながら、アルゴリズムの歪みと知覚品質を発表してきました。

知覚の歪みのトレードオフの影響は、それほどひどくない場合もあります。たとえば、Nvidia は高解像度の画面では一部の低解像度のビジュアルコンテンツをうまくレンダリングできないことを発見し、2023 年 2 月にディープラーニングを使用してストリーミングビデオの品質を向上させるツールをリリースしました。この場合、Nvidia のエンジニアは、アルゴリズムがビデオをアップスケールすると元のビデオにはなかった視覚的な詳細が生成されるという事実を受け入れ、正確さよりも知覚的な品質を選択しました。

「このモデルは空想だ。すべては推測だ」とカタンザーロ氏は語った。「超解像モデルがほとんどの場合間違った推測をしたとしても、それが一貫している限りは問題ではありません。」

マウスの脳内の血流の表示（左）と、AI ツールを使用して画像の品質と精度を向上させた後の同じ表示。画像提供: デューク大学のJunjie Yao氏とXiaoyi Zhu氏。

特に、研究や医療の分野での応用では、より高い精度が求められます。 AIは画像処理の分野で大きな進歩を遂げてきたが、「過剰適合や誤った特徴の追加など、望ましくない副作用が生じることもあるため、細心の注意を払って扱う必要がある」と、ノースカロライナ州ダーラムにあるデューク大学の生物医学エンジニア、ジュンジエ・ヤオ氏は言う。

昨年、彼は論文の中で、知覚と歪みのトレードオフの正確さの面で安全に動作しながら、脳の血流と代謝を測定する既存の方法を改善するために AI ツールを使用する方法について説明しました。

画像から抽出できるデータ量の制限を回避する 1 つの方法は、より多くの画像からのデータを単純に組み合わせることです。これまで、画像を通じて環境を研究する研究者たちは、さまざまな情報源からの視覚データを統合する上で一定の進歩を遂げてきた。2021年には、中国と英国の研究者が2つの異なるタイプのデータを融合し、コンゴ盆地の森林破壊をより詳しく調査した。コンゴ盆地は世界で 2 番目に大きい熱帯雨林であり、生物多様性に最も富んだ地域のひとつです。研究者らは、数十年にわたって森林破壊を測定してきた2機のランドサットからデータを取得し、ディープラーニング技術を使用して画像の解像度を30メートルから10メートルに向上させた。次に、研究者たちはこの画像セットを、わずかに異なる検出器アレイを持つ2つのSentinel-2衛星のデータと融合しました。実験では、この複合画像により、「Sentinel-2 または Landsat-7/8 画像を単独で使用した場合よりも 11% ～ 21% 多くの乱れた領域を検出できる」ことが示されました。

直接的な突破口が開けない場合、ミカエリ氏は情報の入手可能性を厳しく制限する別の方法を提案している。低品質の画像をどのように改善するかについて明確な答えを求めるのではなく、モデルは元の画像の複数の異なる解釈を示すことができます。彼は論文「Explorable Super Resolution」の中で、画像強化ツールがユーザーに複数の提案を提供できる方法を示しました。灰色のシャツを着ているように見える人物のぼやけた低解像度画像は、シャツが白黒の縦縞、横縞、またはチェック柄である高解像度画像に再構築できます。これらはすべて、同様に妥当です。

別の例では、ミカエリ氏はナンバープレートの低品質の写真を撮影し、AI 画像強化を使用して、ナンバープレートの数字 1 が 0 に最も似ていることを示しました。しかし、ミカエリ氏が設計した、よりオープンエンドな別のアルゴリズムで画像を処理したところ、その数字は 0、1、8 のどれになる可能性も同じくらい高くなりました。このアプローチは、数値が 0 であると誤って結論付けることなく、他の数値を除外するのに役立ちます。

こうした幻想を和らげることはできるが、犯罪を解決する強力な「ブースト」ボタンは依然として夢のままだ。

さまざまな分野のさまざまな専門分野が独自の方法で知覚と歪みのトレードオフを探求する中、AI 画像からどれだけの情報を抽出できるか、そしてこれらの画像はどの程度信頼できるかという中心的な疑問が残っています。

「これらの美しい画像を出力するには、アルゴリズムが細部を作り上げているだけであることを忘れてはならない」とミカエリ氏は語った。

<<: GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

>>: GPUが急成長を遂げるGenAIの時代において、AMDはNvidiaのCUDAソフトウェアの堀を超えつつある