この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 データセットは GAN をトレーニングするには小さすぎますか? 1 つの画像から始めてみましょう。 昨年、Googleは、GANを使用して単一の自然画像から学習する初の無条件生成モデルであるSinGANを提案しました(ICCV 2019 Best Paper)。 最近、Adobe とハンブルク大学の研究者がこの手法を改良し、GAN が単一の画像でトレーニングと生成機能を改善できるようにするいくつかのメカニズムを調査しました。 研究者たちは改良されたモデルをConSinGANと名付けた。 それではまずConSinGANの効果を見てみましょう。 上図の左側はトレーニングに使用した単一の画像であり、右側は ConSinGAN でトレーニングした後に生成された複雑なグローバル構造です。 効果がかなりリアルであることがわかります。 もちろん、ConSinGAN は、画像の超解像、画像のアニメーション、画像のかすみ除去など、他の多くのタスクの処理にも使用できます。 次の 2 つの画像は、画像の調和と画像編集への効果を示しています。 ConSinGAN はどのようにそれを実現するのでしょうか? トレーニングアーキテクチャの最適化: 並列 SinGANまず、SinGANのトレーニングプロセスを見てみましょう。 SinGAN は、画像に対して複数の個別の生成ネットワークをトレーニングします。下の図は最初のジェネレーターであり、ランダム ノイズから画像を生成する唯一の無条件ジェネレーターでもあります。 △ SinGANで訓練された最初のジェネレータここでの識別器は画像全体を見ることはなく、このようにして「実際の」画像パッチがどのように見えるかを学習します。 このようにして、ジェネレーターは、全体的には異なるがパッチの点では類似している画像を生成することで、「不正行為」の目的を達成できます。 より高い解像度で動作するジェネレーターは、前のジェネレーターによって生成された画像を入力として受け取り、現在のものよりも高い解像度の画像を生成します。 すべてのジェネレーターは個別にトレーニングされます。つまり、現在のジェネレーターをトレーニングしている間、以前のすべてのジェネレーターの重みは一定に保たれます。 このプロセスを下の図に示します。 しかし、Adobe とハンブルク大学の研究者は、一度にトレーニングできるのは 1 つのジェネレーターのみであり、画像 (特徴マップではない) を 1 つのジェネレーターから次のジェネレーターに転送できるため、ジェネレーター間の相互作用が制限されることを発見しました。 そのため、彼らはジェネレーターをエンドツーエンドでトレーニングしました。つまり、複数のジェネレーターが同時にトレーニングされ、各ジェネレーターは前のジェネレーターによって生成された特徴(画像ではなく)を入力として受け取りました。 これが ConSinGAN という名前の由来です。並列 SinGAN です。プロセスは以下の図に示されています。 しかし、そのような対策を講じると、過剰適合という問題に直面することになります。つまり、最終モデルでは「新しい」画像は生成されず、トレーニング画像のみが生成されることになります。 これを防ぐために、研究者たちは2つの対策を講じました。
下の図は、これら 2 つの方法を使用して実装されたモデルを示しています。デフォルトでは、最大 3 つのジェネレーターが同時にトレーニングされ、下位のジェネレーターの学習率はそれぞれ 1/10 と 1/100 に調整されます。 このプロセスには興味深い現象があります。 低いジェネレーターに高い学習率を使用すると、生成される画像の品質は高くなりますが、鮮明さは低下します。 逆に、低いジェネレーターに小さい学習率を使用すると、生成される画像はより多様になります。下の図の通りです。 コードはオープンソースですConSinGAN のコードは GitHub でオープンソース化されています。 いつものように、まず実行に必要な環境を紹介します: Python 3.5、Pytorch 1.1.0。 インストールも非常に簡単です:
論文のデフォルトパラメータを使用してモデルをトレーニングするには:
Nvidia GeForce GTX 1080Ti では、モデルのトレーニングに約 20 ~ 25 分かかります。 学習率とトレーニング段階の数が異なると、実験の結果に影響します。研究者は、2 つのデフォルト値をそれぞれ 0.1 と 6 にすることを推奨しています。 もちろん、学習率を変更することもできます。
トレーニングエポックの数を変更します。
もちろん、このモデルは「画像コーディネート」や「画像編集」といったタスクにも対応可能ですので、詳細はGitHubを参照してください。 ポータル論文の宛先: GitHub プロジェクト アドレス: |
<<: 中国の自動運転はアメリカの自動運転と比べてどう劣っているのか?
>>: 小中学生の安全を守るためにロボットは今や欠かせない存在です!
強化学習と意思決定に関する学際会議 (RLDM) の重要な前提は、複数の分野が長期にわたる目標指向の...
今、これまで以上に、教師たちは助けを必要としています。数週間のうちにすべての授業をオンラインに移行す...
世界的なパンデミックは2年近く続いており、リモートワークで何日も過ごし、他の人との物理的な接触を切望...
Frontier Insightsの今号では、VRで制御できるロボット プログラム、フル充電で消毒剤...
「無力で、自分のやりたいことができない」。これは、世界一の囲碁プレイヤーである柯潔氏が4月27日に...
Stable Diffusion は強力な画像生成 AI モデルですが、通常は多くのチューニングと...
マルウェア、ランサムウェア、ウイルス、サービス拒否攻撃など、これらの脅威は回復が困難なため、企業を窮...
どのビジネスリーダーも、顧客サービスがビジネスの最優先事項になっていることを認めるでしょう。同社は、...
自動車が発明された日から、自動運転機能への要望は、何世代にもわたるエンジニアたちの焦点となってきまし...
ますます成熟する人工知能は、新型コロナウイルス感染症対策の最前線で「逆転者」と呼ばれる特別な集団とな...
近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づ...
[[385209]]ビル・ホームズは、象徴的なフェンダー・ストラトキャスターとテレキャスターのギター...