Nvidia は年末に大きな動きを見せます!強力な画像ジェネレーターStyleGAN2のリリース

Nvidia は年末に大きな動きを見せます!強力な画像ジェネレーターStyleGAN2のリリース

今年初め、NVIDIA の研究エンジニアは、生成的敵対ネットワーク用のスタイルベースのジェネレーター アーキテクチャとして StyleGAN のソース コードをリリースしました。

たとえば、無数のリアルな顔を生成できます。

また、ロリからロイヤルシスターへの変身プロセスを見ることもできます。

強力ではありますが、あくまでも最初のバージョンなので、欠陥があるのは仕方ありません。現在、アップグレード版StyleGAN2が誕生しました。NVIDIAは最近、「StyleGANの画質の分析と改善」という最新の論文を発表しました。StyleGANの生成効果を分析し、不完全な作業に対する改善と最適化の方法を設計しました。どのようなアップグレードがあるのか​​見てみましょう。

1. 機能アーティファクトを排除する

上図に示すように、StyleGAN 画像には水滴に似たアーティファクトがあります。これらは生成時にはあまり目立ちませんが、この問題は常に存在しており、64×64 画像の生成時から存在しています。解像度が高くなるほど、水滴現象は深刻になります。この問題は StyleGAN2 ではもう発生しません。

Nvidia の研究者は StyleGAN アーキテクチャを再設計し、一般的なブロッビー アーティファクトの起源を研究し、ジェネレーターがアーキテクチャの設計上の欠陥を回避するためにそれらを生成していることを発見しました。 NVIDIA は、アーティファクトを除去するためにジェネレーターで使用される正規化を再設計しました。

上図に示すように、(a) は元の StyleGAN アーキテクチャ、(b) は元の StyleGAN アーキテクチャの詳細、(c) は元のアーキテクチャにいくつかの変更を加えたもの、(d) は変更されたアーキテクチャです。

改善後の効果は以下のとおりです。

前述のアーティファクトはなくなり、完全な制御性が維持されます。

2. 詳細生成の改善

StyleGAN で使用されている Progressive Growing トレーニング方法を見てみましょう。詳細は位置に対して強い好みを持っています。特徴が移動しても、位置は変化したりそれに応じて移動したりすることはできません。

StyleGAN 2の研究者が最適化しました。上の図に示すように、upとdownはそれぞれバイリニアアップサンプリングとダウンサンプリングを表しています。歯や目などの特徴が画像上をスムーズに移動すると、その部分が所定の位置に留まり、次に望ましい位置にジャンプすることがあります。下の図は関連するアーティファクトを示しています。生成された顔の特徴は同時に変化することがあります。

一般的に、StyleGAN 2 の改善点は次のとおりです。

生成された画像の品質が大幅に向上しました(FIDスコアが高く、アーティファクトが少ない)

歯や目などの細部をより完璧にする、段階的成長に代わる新しい方法が提案されている

スタイルミキシングの改善

より滑らかな補間(追加の正規化)

より速いトレーニング

力強い感じがしませんか?自分で体験してみませんか? 関連するアドレスは次のとおりです:

論文アドレス: https://arxiv.org/pdf/1912.04958.pdf

Githubアドレス: https://github.com/NVlabs/stylegan2

<<:  2020年AIセキュリティの「技術」と「トレンド」を理解する丨年末レビュー

>>:  人工知能の時代では、プログラマーは排除されるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

単語の順序はGPT-4の読解力には影響しないが、他の大規模モデルでは影響しない。

研究によると、漢字の文字の順序は必ずしも読み方に影響しない(英語の場合は各単語の文字の順序が影響する...

食品産業における人工知能:農家の意思決定を支援する

人工知能は食品システムを最適化できると思いますか? 精密農業からパーソナライズされた栄養管理まで、農...

ディープラーニングをめぐる激しい議論:ルカン氏は大きな動きを見せ、マーカス氏は厳しい発言をした

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

これらは、データ構造とアルゴリズムにおける動的プログラミングのコツです。

[[442276]]動的計画法理論の基礎動的プログラミングとは何か動的プログラミング (英語: D...

初心者のためのディープラーニングの10,000語レビュー

論文: ディープラーニングの最近の進歩: 概要論文アドレス: https://arxiv.org/p...

...

今年の機械学習研究で最もホットな分野は何ですか?幾何学的ディープラーニングの最大の勝者、Redditは混乱に陥っている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

絶対確実な協働ロボット

人間とロボットが協力して協働ロボットを作る[[321860]]協働ロボットは人間と対話し、協働するよ...

2024年に人工知能はどこへ向かうのでしょうか?

2023年はテクノロジー分野にとって波乱に富んだ年であり、言語学習モデルが爆発的に増加し、人工知能...

人工知能産業は活況を呈しているが、スタートアップ企業は資金調達が難しくなっている

12月13日、人工知能(AI)スタートアップ企業へのベンチャーキャピタルの収益が鈍化している可能性が...

中国語で最も強力なオープンソース モデルがここにあります! 130億のパラメータ、商用利用の閾値0、Kunlun Wanweiより

最も徹底したオープンソース モデルがここにあります - 130 億のパラメーター、申請なしで商用利用...

Java仮想マシンオブジェクトの生存判定とガベージコレクションアルゴリズム

[[323332]]この記事では主に、オブジェクトが生きているかどうかを判断する方法を説明し、Jav...

OpenAIはMicrosoftに対抗するためChatGPTパーソナルアシスタントの発売を計画

6 月 27 日のニュース: わずか半年で、ChatGPT は世界で最も有名なインターネット ブラン...

ディープラーニングアーキテクチャにおける予測コーディングモデルに関しては、PredNetに目を向ける必要があります。

[[434722]] 0. はじめに予測的コーディングは認知科学における仮説です。高レベルの神経活...