速度は数十倍に向上。たった1枚の写真と1つの文章だけで、Googleの新しいモデルは20秒で顔を変えることができる。

速度は数十倍に向上。たった1枚の写真と1つの文章だけで、Googleの新しいモデルは20秒で顔を変えることができる。

以前、Googleとボストン大学の研究者は、DreamBoothと呼ばれる「パーソナライズされた」テキストから画像への拡散モデルを提案しました。ユーザーは3〜5個のサンプルと1つの文章を提供するだけで、AIが写真レベルの画像をカスタマイズできます。

「パーソナライゼーション」とは、入力画像を参考にして、生成された画像がさまざまな状況や異なるスタイルにおいてそのアイデンティティに非常に忠実であり続けることができる、というように理解できます。

例えば、左側の子犬の写真 4 枚を入力すると、DreamBooth は景勝地を旅する子犬、海で泳ぐ子犬、小屋で眠る子犬、さらには髪を刈っている人間など、さまざまなタイプの子犬を生成でき、生成された写真は元の画像の特徴を非常によく保持します。

写真

ただし、パーソナライゼーション プロセスには、時間とメモリ要件の点で依然として多くの課題が残っています。特に、単一のパーソナライズされたモデルの場合、微調整には多くの GPU 時間の投資が必要です。それだけでなく、パーソナライズされたモデルには大きなストレージ容量も必要です。

これらの課題を克服するために、8 か月後、Google は新しい生成モデル HyperDreamBooth を提案しました。 HyperDreamBooth は、重要な顔の知識を保持しながら、さまざまなコンテキストとスタイルの顔を生成できます。

HyperDreamBooth は、たった 1 つの参照画像を使用して、約 20 秒で顔のパーソナライズ処理を実現します。これは、DreamBooth の 25 倍、Textual Inversion の 125 倍の速度です。それだけでなく、生成される画像は DreamBooth と同じ品質で、スタイルも多様です。さらに、HyperDreamBooth は通常の DreamBooth モデルの 10,000 分の 1 の大きさです。

写真

論文アドレス: https://arxiv.org/pdf/2307.06949.pdf

論文ホームページ: https://hyperdreambooth.github.io/

技術的な詳細に入る前に、いくつかの効果を見てみましょう。

下の図では、左の列は入力画像で、画像が与えられただけです。中央の列は、さまざまなプロンプトに基づいて生成された顔です。プロンプトは、Instagram の V 字型の顔の自撮り写真、ピクサーの漫画キャラクターの V 字型の顔、ロックスターの V 字型の顔、木の樹皮のような V 字型の顔です。一番右のものは、プロが撮影した人物の写真から V 字型の顔を生成します。結果は、HyperDreamBooth がキャラクターの主要な顔の特徴の整合性を維持しながら、かなりの編集可能性を備えていることを示しています。

写真

Textual Inversion や DreamBooth 方式と比較した HyperDreamBooth の利点は何ですか?

下の図は 2 つの例と 5 つのスタイルを示しています。結果から、HyperDreamBooth は入力画像の特徴を良好に維持でき、編集性も高いことがわかります。

写真

次に、HyperDreamBooth がどのように実装されているかを見てみましょう。

方法の紹介

この研究で提案された方法は、軽量 DreamBooth (LiDB)、LiDB の重みを予測するための HyperNetwork、およびランク緩和高速微調整という 3 つのコア部分で構成されています。

LiDB の中心的なアイデアは、ランク 1 LoRa 残差の重み空間をさらに分解することです。具体的には、この研究では、下の図に示すように、ランク 1 LoRA 重み空間でランダム直交不完全基底を使用してこれを実現します。

写真

HyperDreamBooth のトレーニングと高速微調整は、以下の図 2 に示されており、2 つの段階に分かれています。

写真

ステージ 1: 顔画像に基づいてネットワークの重みを予測するように HyperNetwork をトレーニングします。この研究では、L2 損失とバニラ拡散再構築損失関数を使用して、事前に計算されたパーソナライゼーション重みを監督に使用しました。ステージ 2: 顔画像が与えられると、HyperNetwork はネットワークの重みの初期推定値を予測し、その後、再構成損失を使用して微調整し、忠実度を高めます。

ハイパーネットワークアーキテクチャ

この研究で使用された HyperNetwork アーキテクチャを以下の図 4 に示します。その中で、Visual Transformer (ViT) エンコーダーは顔画像を潜在的な顔の特徴に変換し、それを潜在層の重み特徴 (0 に初期化) に接続します。 Transformer デコーダーは、連結された特徴のシーケンスを受け取り、デルタ予測を使用して初期重みを調整することにより、重み付けされた特徴の値を繰り返し予測します。

写真

トランスフォーマー デコーダーが HyperNetwork で使用されるのは今回が初めてであることは注目に値します。

次の図に示すように、HyperNetwork + 高速微調整により良好な結果が得られました。

写真

実験

次の表は、HyperDreamBooth と DreamBooth および Textual Inversion を比較したものです。 HyperDreamBooth がすべての指標で最高のスコアを獲得したことがわかります。

写真

次の表は、異なる反復回数での比較結果を示しています。比較モデルには、HyperDreamBooth、DreamBooth、400 回の反復の DreamBooth-Agg-1、および 40 回の反復の DreamBooth-Agg-2 が含まれます。結果は、HyperDreamBooth が 3 つの指標すべてにおいて他のモデルよりも優れていることを示しています。

次の表は、アブレーション実験の結果を示しています。主な比較は、HyperNetwork がパフォーマンスに与える影響です。

写真

ユーザー調査。この調査では、ユーザーが投票によって評価に参加することもでき、その結果、ユーザーは HyperNetwork によって生成された結果を強く好んでいることが示されました。

詳細については、原文論文を参照してください。

<<:  タンパク質言語モデルを数千億のパラメータに拡張し、Baitu BioscienceとTsinghua xTrimoPGLMモデルの詳細な解釈

>>: 

ブログ    
ブログ    
ブログ    

推薦する

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が7倍に向上

[[441513]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において...

ロボット兵士はもはやSFではない

ロボット兵士はまもなく現実のものとなり、戦争作戦の遂行において人間の兵士を支援し、負傷した兵士に医療...

...

メディア分野における人工知能の革新は期待に値する

過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...

モデル入力は目に頼りません!中国人著者:強化学習は人間と同じ知覚能力を持つ

[[439504]]人間の適応力は恐ろしいですね!目の見えない人は目で世界を見ることはできませんが、...

Pythonでゲームボーイエミュレーターを作成し、AIモデルをトレーニングする:デンマーク人の大学のプロジェクトが大ヒット

Atari ゲームを使って人工知能を研究するのは、ちょっと現実的ではないと感じますか?これでゲームボ...

人工知能分野で急成長を遂げている企業の主な問題点

AI 分野で急成長しているビジネスを運営し、成長させるには、プロセスの構築、顧客の成功、人材の獲得、...

「顔認証」は大人気だけど、知らないことも多い

[[185752]] CeBITカンファレンスでのジャック・マー氏の「顔スキャン」支払いから、マイク...

ロボットが人間に取って代わるのは時間の問題です。まずこれらの仕事がなくなるでしょう。

インテリジェント時代の到来とともに、テクノロジー生活は家庭システム全体を席巻しています。さまざまなス...

...

人工知能とソフトウェアアーキテクチャ

[[192443]] AlphaGoの登場により、2016年は人工知能元年とも言えるでしょう。蘇州で...

...

AIが米国の8年生の理科テストに高得点で合格。常識や推論の問題を解くことができ、同じ舞台でAIと競争する準備が整った。

8年生の理科のテストに60点で合格すれば、8万ドル(57万人民元相当)の賞金を獲得できます。 [[...

ベクトルデータベースが生成AIを強化する方法

ベクトル データベースは、LLM と外部情報の間のブリッジとして機能し、生成 AI システムの基本機...