AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

写真撮影は携帯電話の最大のセールスポイントとなっており、大手メーカーは1億画素、スーパーナイトシーン、光学ズームなど、さまざまな機能でDxOのスコアを磨くことに熱心に取り組んでいます。

[[316548]]

しかし、異なる携帯電話で撮影した写真の質感は異なります。一方ではレンズモジュールが異なり、他方ではイメージプロセッサ(ISP)のソフトウェアチューニングも異なります。

最近、スイス連邦工科大学チューリッヒ校(ETHZ)は、携帯電話のISPを単一のエンドツーエンドのディープラーニングモデルで置き換えることができる新しいアルゴリズムPyNetを提案しました。

トレーニングしたカメラ アルゴリズムは、携帯電話の ISP を使用せずに、ある携帯電話から別の携帯電話に移植できます。たとえ 2 つの携帯電話チップが異なるメーカーのものであるとしても、まったく問題はありません。

Huawei P20とCanon SLRカメラ5D Mark IVで調整されたアルゴリズムがBlackBerry KeyOneに移植され、オリジナルのISP出力に比べて写真品質が大幅に向上しました。

Huawei P20はKirin 970チップと12メガピクセルのSony IMX 380カメラを採用しており、BlackBerry KeyOneはSnapdragon 625と12メガピクセルのSony IMX 378カメラを採用しています。

現在、PyNET のソースコード、データセット、事前トレーニング済みモデルが GitHub で公開されています。

PyNET の原則

シャッターボタンを押すと、1秒以内に携帯電話から写真が出力されますが、その背後にあるプロセスは非常に複雑です。

携帯電話で写真を撮ると、最初に出力されるのは、変更されていない元の感光情報ファイルRAWです。

RAW は、携帯電話の SoC 内の ISP による一連の処理を経て、画像計算専用に使用され、元々暗い元の画像が美しい結果に変わります。

プロセスには、ノイズの除去、ホワイトバランスの補正、露出の調整、色のコントラストの補正、超解像度などが含まれます。

現在、NPU などの AI コアを搭載した携帯電話が増えており、AI コンピューティング能力はますます強化されています。将来、NPU は画像コンピューティングの ISP の代わりに使用できるでしょうか?これはETHZの研究者の考えです。

研究者らはまず、Huawei P20で撮影された2万枚のRAWオリジナル画像と、Canon SLR 5D Mark IVで同じシーンで撮影された写真をトレーニング用のデータセットとして収集した。

ただし、トレーニング プロセスでは画像の元のサイズは使用されず、代わりに 448×448 ウィンドウを使用して画像の一部が選択され、最終的に 48043 個の RAW-RGB 画像ペアが生成されました。

より小規模なトレーニング結果を元のサイズの画像で使用できるようにするために、PyNET は階層型アーキテクチャを採用しています。

以下は PyNET のネットワーク アーキテクチャです。このモデルは逆ピラミッド型になっており、5 つの異なるレベルで画像を処理できます。

PyNET アーキテクチャには、さまざまなサイズ (3×3 から 9×9) の畳み込みフィルターを使用して特徴マップを並列に処理し、対応する畳み込み層の出力を連結する複数のブロックがあります。

より低いスケールで得られた出力は、転置畳み込み層を介してアップサンプリングされ、高レベルの特徴マップと積み重ねられ、その後、後続の畳み込み層で処理されます。

PyNET は最下層から順番にモデルをトレーニングします。まず低いスケールで良好な画像再構築結果を取得し、それを使用して非常に低解像度の画像を処理し、グローバルな画像操作を実行します。

最下層を事前トレーニングした後、元の解像度の画像でトレーニングされるまで、同じ手順が次のレベルに適用されます。

それぞれの上位レベルでは、モデルの下位部分から高レベルで高品質な特徴を取得し、主に、欠落している低レベルの詳細を再構築して結果を改良することを学習します。

トレーニング後、Huawei P20 で撮影された RAW 画像は処理のために PyNET に送信され、画像は Huawei の内蔵 ISP と同様に処理されます。

Amazon Mechanical Turk プラットフォームでの手動スコアリングでは、PyNet で処理された画像は P20 で直接出力された画像よりも見栄えが良いことが示されています。

インストールとトレーニング

PyNET は TensorFlow で実装されており、SciPy、NumPy、imageio、pillow のインストールが必要です。トレーニング中に CUDA と cuDNN が必要になるため、NVIDIA GPU も必須です。

さらに、事前トレーニング済みの VGG-19、PyNet モデル、および RAW-RGB 画像ペア データセットをダウンロードする必要があります。

著者らは、16GB のビデオ メモリを搭載した Tesla V100 GPU でモデルをトレーニングすることを推奨しています。

強力なコンピューティング リソースがない場合は、オープン ソース コードの dng_to_png.py を使用して RAW を PNG 形式の画像に変換することもできますが、ここで使用されているのは公式の P20 および Canon SLR チューニング結果です。

論文アドレス: https://arxiv.org/abs/2002.05509

ソースコード: https://github.com/aiff22/PyNET

<<:  2020年中国インテリジェントIoT(AIoT)白書

>>:  世界自動運転年間「強さ」リストが発表、百度がウェイモを抜いて首位に、ウェイモ:評価基準に反対

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

革新的なAIソフトウェア企業5社、次のAIユニコーンはあなたかもしれません

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

ジェネレーティブ AI 時代のデータ センターの再構築

最近の人工知能に関する議論には、OpenAI の大規模言語モデル (LLM) の GPT ファミリー...

脳コンピューターインターフェースと仮想世界: 頭の後ろにチューブを挿入することは、必ずしもマトリックスのようになるわけではない

人間の脳にチップを埋め込み、脳とコンピューターの統合によってそれを制御するという話は、SFの世界から...

人工知能の次の転換点: グラフニューラルネットワークが急速な爆発の時代を先導する

01 GNN: アーリーアダプターから急成長へ今年以来、グラフニューラルネットワーク (GNN) 技...

エキサイティング!自動運転におけるGPT-4Vの予備研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

準備はできたか? GNN グラフ ニューラル ネットワーク 2021 年の主要なアプリケーション ホットスポット 5 つ

[[378224]]今年から始めます。グラフニューラルネットワークは研究者の間で話題になっており、こ...

Google Cloud AI が機械学習にどのように役立つかを包括的に説明します

[51CTO.com クイック翻訳] 調査によると、Google Cloud AI および機械学習プ...

ジェネレーティブ AI に投資する前に CIO が答えるべき 11 の質問

生成型AIの重要性を考慮すると、CIOは監査、運用、戦略の全体的なアプローチを積極的に更新する必要が...

...

ノーベル賞を予約しますか? DeepMind の創設者が「ノーベル賞」ラスカー賞を受賞、AlphaFold が「科学のための AI」のベンチマークに

9月21日、生理学・医学分野の最高賞であるラスカー賞が発表されました!ラスカー賞には、基礎医学研究賞...

AIがITスキルと人材の需要をどのように変えているのか

AI は急速に日常のビジネス運営に不可欠な要素になりつつあり、すでに運用プロセスの改善、顧客サービス...

人工知能分野で急成長を遂げている企業の主な問題点

AI 分野で急成長しているビジネスを運営し、成長させるには、プロセスの構築、顧客の成功、人材の獲得、...

...