女性用メイクアップムスク!超楽しいモデルStyleCLIPがオープンソースになりました。急いで自分の顔を変えてみましょう

女性用メイクアップムスク!超楽しいモデルStyleCLIPがオープンソースになりました。急いで自分の顔を変えてみましょう

[[421561]]

マスク氏は科学研究に本当に多大な貢献をしてきました!最近、イスラエルの研究者が新しい生成モデル StyleCLIP を発表しました。テキストプロンプトを入力するだけで、希望する偽の画像を取得できます。たとえば、「メイク」と入力すると繊細なマスクが得られ、「ショートヘア」と入力するとマスクのヘアスタイルを変更できます。「婦人服」と入力するとどうなるでしょうか?

ムスクは科学研究の名の下に、またもネットユーザーからからかわれています。希望するヘアスタイルや肌の色の名前を入力するだけで、対応するヘアスタイルのムスクをすぐに入手できます。

例えば、青白く(Pale)と入力すると真っ白なムスクが手に入り、日焼けした(Tanned)と入力すると日光浴をしているムスクの限定版が手に入ります。

メイク、巻き毛、ストレートヘアなどを入力すると、マスク氏の肖像画がさらに表示されますが、3 行目のヘアスタイルはマスク氏の頭にはまったく似合いません。

これはイスラエルの研究者による研究で、StyleCLIP と呼ばれています。これは AI ベースの生成的敵対的ネットワークを使用して写真に超現実的な修正を加えるもので、ユーザーは特定の写真ではなく、欲しいものの説明を入力するだけで済みます。

​​https://arxiv.org/pdf/2103.17249.pdf​​

このモデルは、かなり面白い結果を生み出すこともできます。たとえば、FacebookのCEO、マーク・ザッカーバーグの顔は、ハゲにしたり、眼鏡をかけたり、あごひげを生やしたりと、自由に変更できる。

この「火星人」の顔には、少しばかり人間らしさが残っているようでした。

コードは現在オープンソースなので、ぜひ試してみて、どんなヘアスタイルが自分に合うか見てみましょう。

​​https://github.com/orpatashnik/StyleCLIP​​

スタイルクリップ

StyleCLIP モデルは主に StyleGAN モデルと CLIP モデルで構成されています。

StyleGAN はさまざまな領域で非常にリアルな画像を生成できます。最近では、StyleGAN の潜在空間を使用して生成された画像と実際の画像を処理する方法を理解することに多くの研究が行われています。

しかし、意味的に意味のある可能性のある操作を発見するには、多くの場合、複数の自由度を綿密に検査する必要があり、そのためには集中的な手作業が必要となり、あるいは、希望するスタイルごとに注釈付きの画像コレクションを作成する必要があります。

アノテーションをベースにしているため、マルチモーダルモデル CLIP (Contrastive Language-Image Pre-training) の機能を活用して、手動操作を必要としないテキストベースの StyleGAN 画像処理を開発できますか?

例えば、「かわいい猫」と入力すると、目を細めた猫の目が拡大され、かわいい子猫の特徴がすべて得られます。また、トラをライオンに変えることもできます。

CLIP のセマンティック表現機能を活用するために、次の 3 つの方法が提案されています。

1. 潜在最適化技術

与えられた潜在コードは、生成された画像と与えられたターゲットテキスト間の CLIP 空間距離が最小化されるように、標準的なバックプロパゲーション法を使用して変更されます。

2. 潜在マッパー

ネットワークは、入力の潜在コードを、生成された画像内のテキスト記述のプロパティを変更するコードに変換するようにトレーニングされます。このマッパーは、同じグローバル CLIP 損失を使用してトレーニングされ、ターゲット テキストまでの CLIP 空間距離を最小限に抑えます。研究者らは、いくつかの劇的な形状変更については、このような潜在マッパーをトレーニングすることで認識結果を改善できることを発見した。

テキストガイド マッパーのアーキテクチャ。「サプライズ」を入力すると、ソース イメージが潜在コード w に変換されます。 3 つの個別のマッピング関数をトレーニングして残差 (青) を生成し、これを w に追加してターゲット コードを生成します。このターゲット コードから、事前トレーニング済みのスタイル (緑) から画像 (右) が生成され、CLIP 損失を使用して生成効果が評価されます。

マッパーは、入力画像の他の視覚的特性を保持しながら、テキストプロンプト t によって示される画像の必要な属性を操作するようにトレーニングされます。

元の入力画像の視覚特性を維持するためには、潜在空間における操作ステップの L2 ノルムを最小化することも必要です。

テキストヒントは、一度に 1 つの属性に限定されません。たとえば、ストレート/カール、ショート/ロングの 4 つの異なるヘア属性の組み合わせを同時に設定でき、それぞれの組み合わせで目的の結果が生成されます。このレベルの制御は、以前の方法では不可能でした。

潜在マッパーは入力画像ごとにカスタマイズされた操作ステップを推測するため、潜在空間内のステップの方向が異なる入力間でどの程度変化するかを調べることも興味深いことです。

3. グローバルディレクション

隠しコードのどの次元が画像空間に変化をもたらすかを決定することによって、GAN 隠し空間における意味のある変化の方向が検出されます。潜在マッパーは高速な推論を可能にするが、研究者らは、きめ細かい操作が必要な場合、そのマッピング機能が不十分な場合があることを発見した。

さらに、特定のテキスト プロンプトの場合、さまざまな操作手順の指示は類似する傾向があります。したがって、テキストの手がかりを単一のグローバルな StyleGAN スタイル空間にマッピングする方法が必要であり、この論文で提案された方法は他の潜在空間よりも効果的であることが示されています。

実験部分では、入力を、特定の強いテキスト「トランプ」、特定の弱いテキスト「モヒカン」、より一般的なテキスト「しわなし」とともに、TediGAN などの他のテキスト駆動型画像処理方法と比較します。

シワのないテキスト キューの場合、Global Direction モデルでは、他のプロパティにほとんど影響を与えずにシワを正常に削除できますが、Mapper モデルではこれができません。

複雑で特殊な属性 (特に ID に関連する属性) の場合、Mapper はより優れた生成結果を生成できると結論付けることができます。

しかし、より単純で一般的なプロパティの場合は、操作をさらに分離しながらグローバル方向で十分です。

そして、TediGAN によって生成された結果は、3 つの実験すべてにおいて理想的ではないことがわかります。

しかし、StyleCLIP には、言語と視覚の統合埋め込みを実現するために事前トレーニング済みの StyleGAN ジェネレーターと CLIP モデルに依存しているため、特定の事前トレーニング済みモデルのドメイン外のポイントに画像を操作できないなどの欠陥もあります。

同様に、画像が埋め込まれていない CLIP スペースの領域にマップされるテキスト キューでは、望ましい結果が得られるとは期待できません。

また、見た目を大きく変える操作は実現が困難です。例えば、トラをライオンに変身させることは簡単ですが、トラをオオカミに変身させることの成功率は低いです。

<<:  確かにGANによって生成されました!中国のチームは瞳孔の形状で「本物」と「偽物」の肖像画を判定する

>>:  中国の博士が、パラメータのわずか 33% で画像復元フィールドを圧縮するモデル SwinIR を提案しました。

ブログ    
ブログ    

推薦する

完全にプログラム可能な初の光量子コンピュータが発表されました。最強のスーパーコンピュータ「富岳」の7.8兆倍の性能です。

スーパーコンピュータは、従来のコンピュータでは解決できない問題を解決するためによく使用されます。しか...

XML暗号化アルゴリズムが解読され、W3C標準が改訂される

シカゴで開催された ACM コンピュータおよび通信セキュリティ会議で、2 人のドイツ人研究者が、ワー...

無線測定・制御、顔認識、ドローン検査などハイテクが「史上最難関の大学入試」を護衛

本人確認のための顔認識、路上の車両の無線測定と制御、空中検査を行うドローン...人々の日常生活におけ...

IoTがAIの可能性をどう活用できるか

過去 10 年間、モノのインターネットはビジネスの世界で着実に導入されてきました。企業はすでに Io...

YouTube でフォローすべき 5 人のデータ サイエンティストと機械学習エンジニア

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

人気のSoraはDiTを最前線に押し上げ、GitHubのホットリストにも載りました。新しいバージョンのSiTに進化しました。

リリースされてから1週間近く経ちますが、OpenAIの動画生成モデルSoraの衝撃はまだまだ続きます...

...

米メディア:なぜソフトロボットは科学者を魅了するのか?

[[374766]]米フォーチュン誌のウェブサイトは1月1日、「なぜ『ソフトロボット』はNASAや...

ブロックチェーンとAIを最大限に活用する方法

急速に進化する今日のテクノロジー環境において、成功を目指す企業にとって、常に時代の先を行くことが重要...

2020年中国インテリジェントIoT(AIoT)白書

インテリジェントなモノのインターネット(AIoT)は、2018年に登場した概念です。さまざまな情報セ...

業界初のAIリアルタイムステルス技術、ステルスの超能力を手に入れるために快手へ

先ほど終わった快手千夜一夜パーティで、ディルラバ・ディルムラトの突然の登場に、司会者と観客から「かっ...

ネイチャーが中国のAIの現状を分析。2030年に世界をリードできるか?

ネイチャー誌の最近の分析記事では、中国の人工知能研究は質の面で急速な進歩を遂げているが、影響力の大き...

...

新しいエッジAI手法であるTinyMLは、超低消費電力でエッジデバイス上で機械学習を実行します。

人工知能 (AI) はクラウドからエッジへと急速に移行しており、ますます小型の IoT デバイスに導...

...