AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

写真撮影は携帯電話の最大のセールスポイントとなっており、大手メーカーは1億画素、スーパーナイトシーン、光学ズームなど、さまざまな機能でDxOのスコアを磨くことに熱心に取り組んでいます。

しかし、異なる携帯電話で撮影した写真の質感は異なります。一方ではレンズモジュールが異なり、他方ではイメージプロセッサ（ISP）のソフトウェアチューニングも異なります。

最近、スイス連邦工科大学チューリッヒ校（ETHZ）は、携帯電話のISPを単一のエンドツーエンドのディープラーニングモデルで置き換えることができる新しいアルゴリズムPyNetを提案しました。

トレーニングしたカメラアルゴリズムは、携帯電話の ISP を使用せずに、ある携帯電話から別の携帯電話に移植できます。たとえ 2 つの携帯電話チップが異なるメーカーのものであるとしても、まったく問題はありません。

Huawei P20とCanon SLRカメラ5D Mark IVで調整されたアルゴリズムがBlackBerry KeyOneに移植され、オリジナルのISP出力に比べて写真品質が大幅に向上しました。

Huawei P20はKirin 970チップと12メガピクセルのSony IMX 380カメラを採用しており、BlackBerry KeyOneはSnapdragon 625と12メガピクセルのSony IMX 378カメラを採用しています。

現在、PyNET のソースコード、データセット、事前トレーニング済みモデルが GitHub で公開されています。

PyNET の原則

シャッターボタンを押すと、1秒以内に携帯電話から写真が出力されますが、その背後にあるプロセスは非常に複雑です。

携帯電話で写真を撮ると、最初に出力されるのは、変更されていない元の感光情報ファイルRAWです。

RAW は、携帯電話の SoC 内の ISP による一連の処理を経て、画像計算専用に使用され、元々暗い元の画像が美しい結果に変わります。

プロセスには、ノイズの除去、ホワイトバランスの補正、露出の調整、色のコントラストの補正、超解像度などが含まれます。

現在、NPU などの AI コアを搭載した携帯電話が増えており、AI コンピューティング能力はますます強化されています。将来、NPU は画像コンピューティングの ISP の代わりに使用できるでしょうか?これはETHZの研究者の考えです。

研究者らはまず、Huawei P20で撮影された2万枚のRAWオリジナル画像と、Canon SLR 5D Mark IVで同じシーンで撮影された写真をトレーニング用のデータセットとして収集した。

ただし、トレーニングプロセスでは画像の元のサイズは使用されず、代わりに 448×448 ウィンドウを使用して画像の一部が選択され、最終的に 48043 個の RAW-RGB 画像ペアが生成されました。

より小規模なトレーニング結果を元のサイズの画像で使用できるようにするために、PyNET は階層型アーキテクチャを採用しています。

以下は PyNET のネットワークアーキテクチャです。このモデルは逆ピラミッド型になっており、5 つの異なるレベルで画像を処理できます。

PyNET アーキテクチャには、さまざまなサイズ (3×3 から 9×9) の畳み込みフィルターを使用して特徴マップを並列に処理し、対応する畳み込み層の出力を連結する複数のブロックがあります。

より低いスケールで得られた出力は、転置畳み込み層を介してアップサンプリングされ、高レベルの特徴マップと積み重ねられ、その後、後続の畳み込み層で処理されます。

PyNET は最下層から順番にモデルをトレーニングします。まず低いスケールで良好な画像再構築結果を取得し、それを使用して非常に低解像度の画像を処理し、グローバルな画像操作を実行します。

最下層を事前トレーニングした後、元の解像度の画像でトレーニングされるまで、同じ手順が次のレベルに適用されます。

それぞれの上位レベルでは、モデルの下位部分から高レベルで高品質な特徴を取得し、主に、欠落している低レベルの詳細を再構築して結果を改良することを学習します。

トレーニング後、Huawei P20 で撮影された RAW 画像は処理のために PyNET に送信され、画像は Huawei の内蔵 ISP と同様に処理されます。

Amazon Mechanical Turk プラットフォームでの手動スコアリングでは、PyNet で処理された画像は P20 で直接出力された画像よりも見栄えが良いことが示されています。

インストールとトレーニング

PyNET は TensorFlow で実装されており、SciPy、NumPy、imageio、pillow のインストールが必要です。トレーニング中に CUDA と cuDNN が必要になるため、NVIDIA GPU も必須です。

さらに、事前トレーニング済みの VGG-19、PyNet モデル、および RAW-RGB 画像ペアデータセットをダウンロードする必要があります。

著者らは、16GB のビデオメモリを搭載した Tesla V100 GPU でモデルをトレーニングすることを推奨しています。

強力なコンピューティングリソースがない場合は、オープンソースコードの dng_to_png.py を使用して RAW を PNG 形式の画像に変換することもできますが、ここで使用されているのは公式の P20 および Canon SLR チューニング結果です。

論文アドレス: https://arxiv.org/abs/2002.05509

ソースコード: https://github.com/aiff22/PyNET

<<: 2020年中国インテリジェントIoT（AIoT）白書

>>: 世界自動運転年間「強さ」リストが発表、百度がウェイモを抜いて首位に、ウェイモ：評価基準に反対

ブログ

AIアルゴリズムがARライブブロードキャスト体験を向上させ、Taobao Maker Festivalのリアルで幻想的な体験をもたらします

ブログ

メタバース内の物に触れるために、ザッカーバーグは6ドルの電子スキンを新たに作った。

ブログ

10行のPythonコードで画像認識

ブログ

AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

PyNET の原則

インストールとトレーニング

AIアルゴリズムがARライブブロードキャスト体験を向上させ、Taobao Maker Festivalのリアルで幻想的な体験をもたらします

遺伝的アルゴリズムに基づく高周波タグアンテナの最適設計

人工知能の時代において、自己成長と教育においてどのような取り組みがなされるべきでしょうか？

メタバース内の物に触れるために、ザッカーバーグは6ドルの電子スキンを新たに作った。

10行のPythonコードで画像認識

推薦する

2021年4月のドローン業界の重要な動向の概要

Nature: 光コンピューティングと AI 推論を統合して高速かつ高帯域幅の AI コンピューティングを実現

テンセントがキング・オブ・グローリーAIの最新情報を公開、トッププロ選手を一騎打ちで圧倒

脚付きロボットの新たなスキル：ANYmalは山登りを学んでいる

ユーザーはChatGPTが怠惰になったと不満を述べ、OpenAIはモデルを調整しておらず原因を調査中であると回答した。

人工知能革命は雇用を創出するのか、それとも雇用を破壊するのか?

コードで機械の心を構築するまで、どれくらい時間がかかるのでしょうか?

OpenAI、開発者向けGPTチャットボットAPIのメジャーアップデートを発表、価格を値下げ

第1回自動車開発者会議（2021）が成功裏に終了しました