Nvidiaは写真編集ソフトウェアGANを

Nvidiaは写真編集ソフトウェアGANを

[[438694]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Nvidia の最新 AI ツールが再びネットユーザーを興奮させている。

"待ちきれない!"

あるネットユーザーはデモ動画を見た後こう言った。

手先の器用さに乏しい人にとって、NVIDIA の EditGAN は、基本的な知識がなくても写真編集ができる魔法のツールです。

高品質かつ高精度で画像を修正できるため、写真編集がこれまで以上に簡単になります。

たとえば、肖像画や彫刻を「ウインク」させます。

写真をアップロードしたりスケッチを描いたりできれば、簡単に写真を編集できます。このような「魔法の」ツールがネットユーザーの間で人気があるのも不思議ではありません。

EditGAN では、ホイールのスポークのサイズや方向を変更することもできます。

もちろん、目の方向や髪の毛の量などをコントロールするなど、実物の写真でも問題ありません。

猫の耳のサイズを変更することもできます。

画像をアップロードするだけで、プログラムがセマンティックセグメンテーションスケッチを生成し、そのスケッチ上で直接ペイントしたり変更したりできるようになります。

△ スケッチに歯を加えると笑顔になります

EditGAN は変更したい部分のみを修正し、残りの部分はそのまま残します。

最近の GauGAN2 と同様に、NVIDIA は EditGAN 用のコンピュータ ソフトウェアも開発しました。

この研究はNeurIPS 2021に採択されました。

この記事の第一著者は、トロント大学の中国人博士課程学生で、同大学の Vector Institute と NVIDIA でも研究を行っている Ling Huan 氏です。

[[438700]]

GANを搭載した初の画像エディタ

研究者らによると、EditGAN は初のGAN 駆動型画像編集フレームワークであり、その主な機能は以下のとおりです。

1. 非常に高精度な編集を提供する
2. 少量の注釈付きトレーニングデータのみが必要です
3. リアルタイムでインタラクティブに実行できる
4. 複数の編集を直接合成できる
5. 実際の埋め込み画像、GAN生成画像、さらにはドメイン外画像にも適しています。

まず、EditGANはStyleGAN2を使用して画像を生成します。

StyleGAN2 のワークフローは、画像を取得し、それを潜在空間にエンコードし、ジェネレーターを使用してこのエンコードされたサブスペースを別の画像に変換することです。

問題は、この空間が多次元であるため、このサブスペースのどの部分が画像内のどの特徴を再構築する役割を担っているかを視覚化して識別することが難しいことです。

通常、モデル内の潜在空間のどの部分がどの機能を制御しているかを知るには、大規模な注釈付きデータセットが必要です。

EditGAN は、ラベル付けされたデータセットの例をいくつか学習するだけで、セグメンテーションを画像に一致させることができるため、画像ごとの編集が可能になります。

EditGAN は、これまでにない詳細と自由度を提供しながら、完全な画像品質を維持します。

さらに重要なのは、EditGAN は潜在空間のどの部分がコントロールに対応するかを認識するだけでなく、それらをスケッチに対応させることもできることです。この方法では、スケッチを修正することで画像を簡単に修正できます。

EditGAN は DatasetGAN に基づいており、画像モデリングとそのセマンティックセグメンテーションを組み合わせています。

EditGAN の重要なアイデアは、画像とピクセルレベルの言語セグメンテーションの結合分布を活用することです。

具体的には、GAN の潜在空間に画像を埋め込み、セグメンテーション編集に基づいて条件付き潜在コード最適化を実行します。

上記は、EditGAN のトレーニング プロセスを示しています。セマンティック セグメンテーションを変更し、編集領域内の新しいセグメンテーションと編集領域外の RGB の外観と一致するように共有潜在コードを最適化します。対応する勾配は共有ジェネレータを通じて逆伝播されます。

最適化を償却するために、著者らは実装された編集の潜在空間で「編集ベクトル」を見つけます。このフレームワークにより、任意の数の編集ベクトルを学習し、それをリアルタイムの速度で他の画像に直接適用することができます。

Pピクチャーツールは近日リリース予定

著者チームは、NVIDIA の内部 GPU クラスター上の V100 を使用して、基盤となる StyleGAN2、エンコーダーとセグメンテーション ブランチのトレーニング、および埋め込みと編集の最適化を実行しました。

このプロジェクトでは約 14,000 GPU 時間が使用され、そのうち約 3,500 GPU 時間が最終実験に使用され、残りは研究プロジェクトの初期段階での調査とテストに使用されました。

EditGANの動作については、V100で30(60)ステップの最適化を実行するのに11.4(18.9)秒かかります。

トレーニングすることはできませんが、トレーニング済みのモデルを使用して画像を Photoshop で加工することは可能です。

NVIDIAがこれまでにリリースしたCanvasは、GauGAN2などの最新の成果を統合しており、手描きのスケッチから詳細なPSファイルを生成できます。

おそらく Canvas もすぐに EditGAN を統合するでしょう。

良いニュースとしては、Nvidia がコードと編集ツール ソフトウェアがまもなく利用可能になると言っていることです。ぜひ試してみたいですか?

論文の宛先:
https://arxiv.org/abs/2111.03186

補足資料:
https://nv-tlabs.github.io/editGAN/editGAN_supp_compressed.pdf

説明ビデオ:
https://www.youtube.com/watch?v=bus4OGyMQec

<<:  ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

>>:  Google は NLP モデルのデバッグを許可しており、必要なのは「ドラフト ペーパー」だけです。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ジョン・マカフィーの意見: 人工知能は人類を滅ぼすのか?

2017 年 3 月 9 日、ハッカー アンダーグラウンド テクノロジーの専門家であり作家でもある...

...

時系列を大規模モデルと組み合わせることはできますか?アマゾンの最新研究:大規模モデルで時系列予測を説明できる

最近、Amazon は時系列予測にビッグモデルを使用する方法に関する論文を発表しました。これは時系列...

SQLにおける機械学習の詳細な説明

ML 以前の世界が存在していたことを信じられないこともあります。現代のデータ分析の多くは ML 技術...

機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

最近、「機械学習」という言葉をよく耳にするようになりました(通常は予測分析や人工知能の文脈で)。過去...

通信ネットワークにおけるOSPFプロトコルの適用とアルゴリズムの最適化

3G通信技術は広く利用されており、4Gに向けてますます進化しています。通信ネットワーク内のアクセスス...

...

研究者:大規模な言語モデルを微調整すると「セキュリティ」が弱まり、ハッカーによるバックドア攻撃に対して脆弱になる

10月16日、既存の大規模言語モデルをさまざまなユーザーニーズに合わせて修正することで、関連モデルの...

C# のデータ構造とアルゴリズムにおける線形リストの構築クラスの簡単な分析

C# のデータ構造とアルゴリズムで線形リストを構築するためのクラスは何ですか? C# のデータ構造と...

組織の AI 戦略が失敗する 7 つの理由

[[359773]] AI テクノロジーを導入している多くの組織は、成功を収めるどころか、テクノロジ...

ドローンが田舎に飛来、その価値は想像もできない

現在、技術の継続的な進歩と産業発展の継続的な加速により、エンターテインメント、輸送、救助などの分野で...

AIによる決定をどのように説明するのでしょうか?この記事では、アルゴリズムの適用シナリオと解釈可能性を整理します。

英国の情報コミッショナー事務局(ICO)とアラン・チューリング研究所は共同で「AIによる説明決定」ガ...

AIの未来: 汎用人工知能

人工知能を真に理解するために、研究者は、環境に対する人間のような理解を再現できる基礎的な AGI 技...

Slik-wrangler、機械学習と人工知能のデータ前処理とモデリングのためのツール

現在、人工知能(AI)と機械学習は私たちの日常生活に入り込み、徐々に私たちの生活を変えつつあります。...