南洋理工大学と香港中文大学の Talk-to-Edit: 対話により非常にきめ細かな顔の編集が可能に

南洋理工大学と香港中文大学の Talk-to-Edit: 対話により非常にきめ細かな顔の編集が可能に

  [[425172]]

南洋理工大学と香港中文大学の研究者らは、ユーザーとシステム間の対話を通じてきめ細かい属性操作を実行できるインタラクティブな顔編集フレームワーク「Talk-to-Edit」を提案した。さらに、この研究では、大規模な研究を促進するために、視覚言語の顔編集データセットCelebA-Dialogも作成しました。

髪型を変えたいですか? 20年後の自分の姿がどうなるか知りたいですか?フォトショップで加工した後でも、期待した効果が得られないことにまだ不安を感じていますか?この「Talk-to-Edit」をぜひ試して、編集方法を伝えると、数分で編集できるようになります。

では早速、写真を見てみましょう。

ユーザーはシステムと通信することで顔の編集を完了します。

顔のさまざまな特徴を編集します。

エディター、イケメン、美女(GAN反転を使用):

この研究は、南洋理工大学と香港中文大学が提案したインタラクティブな顔編集フレームワーク「Talk-to-Edit」から生まれたもので、ユーザーとシステム間の対話を通じてきめ細かい属性操作を実行できます。さらに、この研究では、大規模な研究を促進するために、視覚言語の顔編集データセットCelebA-Dialogも作成しました。

  • 論文アドレス: https://arxiv.org/abs/2109.04425
  • コード: https://github.com/yumingj/Talk-to-Edit
  • プロジェクトページ: https://www.mmlab-ntu.com/project/talkedit/index.html
  • 研究室ホームページ: https://www.mmlab-ntu.com

方法と結果

この研究で提案された Talk-to-Edit パイプラインを下の図に示します。

この研究では、セマンティック フィールドを使用して、顔の特徴の継続的かつ非常にきめ細かい制御可能な編集を実現します。会話機能は、Language Encoder モジュールと Talk モジュールによって実装されます。次に、各モジュールの動作原理と効果について説明します。

(1)意味フィールド

背景:GAN[1, 2]は潜在空間内の異なる潜在ベクトルに基づいて異なる画像を生成できる。潜在空間ベースの画像編集手法[3, 4, 5, 6, 7]は、事前に学習されたGANとその潜在空間を使用して、画像に対応する潜在ベクトルを制御的に変更し、それによって間接的に画像を編集します。しかし、これらの方法では、顔の特定の特徴を編集するには、潜在空間内の特定の方向に沿って「直線的に歩く」こと(下の図(b)の茶色のパス(1)など)によって実現できることを前提としています。

本研究で用いた手法は、「一直線に歩く」という仮定を捨て、「歩く」過程における瞬間の隠れベクトル(上図(b)の黒い経路(2)など)に基づいて、現在の最適な進行方向を継続的に探索するものである。そこで研究者らは、潜在空間内にベクトル場を構築して各潜在ベクトルの最適な「順方向」を表現し、潜在ベクトルを現在の潜在ベクトルの最適な「順方向」に沿って移動させることで、画像の特定の意味的特徴を変更した。このベクトル場は意味場と呼ばれます。この研究における編集方法は、ベクトル場のフィールドラインに沿って、電位が最も速く増加する方向に移動することと同等です。ここでの潜在的可能性とは、ある特徴の度合いを指します。例えば、「前髪」の特徴を編集する場合、潜在的ベクトルは、前髪が最も速く成長する方向(上の図(b)の黒いパス(2)など)のフィールドラインに沿って移動します。

セマンティックフィールドには、2 つの特徴があります。1) 同じ人物であっても、ある属性を常に変化させることで求められる「進むべき最善の方向」は常に変化します。 2) 同じ属性を編集する場合、対応する「前進する最適な方向」は人によって異なります。この研究では、ニューラルネットワークを使用してセマンティックフィールドをシミュレートし、上図(a)に示す方法を使用してセマンティックフィールドをトレーニングしました。実装の詳細については、論文とコードを参照してください。

下の表に示すように、実験結果によると、この研究方法は、「直線」仮定を使用したベースラインと比較して、顔編集プロセス中に人物のアイデンティティ特性をより適切に保持し、特定の意味的特徴を編集するときに他の無関係な意味的特徴への変更を減らすことができます。

下の図に示すように、コントラストは明らかです。

(2)言語エンコーダとトークモジュール

より便利で直感的なインタラクション方法をユーザーに提供するために、この研究では、ユーザーが編集できるようにする対話方式を使用します。 Talk-to-Edit は、LSTM ベースの言語エンコーダーを使用してユーザーの編集要件を理解し、エンコードされた編集要件をセマンティック フィールドに渡して編集をガイドします。 Talk モジュールは、現在の笑顔がちょうど良いかどうか、またはもう 1 レベル必要かどうかなど、編集の各ラウンドの後に、きめ細かい編集レベルをユーザーに確認することができます。 Talk モジュールは、ユーザーに他の編集の提案を提供することもできます。たとえば、ユーザーがメガネ機能の編集を試したことがないことがシステムによって検出された場合、写真にメガネを追加してみるかどうかをユーザーに尋ねます。

CelebA-Dialogデータセット

本研究ではCelebA [8]データセットに基づいてCelebA-Dialogデータセットを研究コミュニティに提供します。

(1)この研究では、各画像に対して非常にきめ細かい特徴注釈を提供している。上図に示すように、「笑顔」の意味特性は、笑顔の明るさに応じて 6 段階に分けられます。 CelebA-Dialog は、各画像の笑顔が 6 つのカテゴリのどれに属するかを正確にラベル付けします。

(2)本研究では、各画像の意味的特徴(画像キャプション)や画像編集に対するユーザの要求を非常にきめ細かく自然言語で記述した豊富な自然言語記述を提供する。

CelebA-Dialog は、高粒度の顔の特徴認識、自然言語ベースの顔の生成と編集など、さまざまなタスクの監視を提供できます。

Talk-to-Edit の研究では、CelebA-Dialog の非常にきめ細かい特徴注釈を使用して、非常にきめ細かい顔の特徴予測子をトレーニングし、それによってセマンティック フィールドのトレーニングに非常にきめ細かい監督を提供しました。

要約する

(1)本研究では、対話ベースの非常にきめ細かい顔編集システム「Talk-to-Edit」を提案する。

(2)本研究では、GAN潜在空間内の意味場を学習し、その潜在空間内のフィールドラインに沿って「歩く」ことで、連続的かつきめ細かい顔の特徴編集を実現する「セマンティックフィールド」を提案した。

(3)本研究は、大規模なデータセットCelebA-Dialogを研究コミュニティに貢献する。これは、将来の高粒度の顔編集タスクや自然言語駆動型の視覚タスクに大いに役立つと考えています。

Talk-to-Edit のその他のハイライト:

<<:  中国はビッグデータ、人工知能、遺伝子技術などに関する知的財産法制の整備を加速させる。

>>:  MITは、大規模な問題を解決するにはアルゴリズムがハードウェアよりも有用であることを証明した。

ブログ    
ブログ    

推薦する

米軍はドローンに対処するための新たな方法を考案した。ドローンの群れを破壊するマイクロ波兵器を開発するのだ。

【環球時報記者 徐陸明】6月17日、「国防ニュース」ウェブサイトの報道によると、最新の軍事予算文書...

3分レビュー:8月の自動運転業界の完全な概要

[[426135]]チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされ...

ディープラーニングの最適化手法の簡単な紹介: 勾配降下法

実際、ディープラーニングは多くの厄介な最適化問題を解決しています。ニューラル ネットワークは、問題に...

コレクションにおすすめ!素晴らしい AWS 機械学習ツールキットの概要

[[330619]]テクノロジーとエコロジーの継続的な進化、およびアプリケーション シナリオの継続的...

マスク氏はオープンAIの主任科学者に質問した。「いったい何を見てそんなに怖くなったのですか?」

2015年11月27日、イーロン・マスクはイリヤ・スツケヴァー氏がOpenAIの主任科学者として参...

金融AIが外灘サミットでデビュー: 完全な金融知識を備え、同時に数百万人と会話し、金融アドバイスを提供可能

「こんにちは。投資したいお金があります。期待収益は 6 ~ 10 ポイントです。1 年間投資したいと...

ディープラーニング プロジェクトの例: オートエンコーダを使用したぼやけた画像の復元

より鮮明な写真を撮るには、カメラ レンズの優先フォーカスを使用して同じ写真を再度撮影するか、ディープ...

無料の Python 機械学習コース 1: 線形回帰アルゴリズム

最も基本的な機械学習アルゴリズムは、単一の変数を持つ線形回帰アルゴリズムです。現在、非常に多くの高度...

AI 開発の世界では、自然言語処理を真に習得することはどれほど重要ですか?

人工知能開発の分野で最も重要な目標は、自然言語処理 (NLP) を真に習得したシステムを作成すること...

A*、ダイクストラ、BFS 経路探索アルゴリズムの視覚的な説明

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

機械学習を学ぶには? Alibaba のプログラマーが、わずか 7 つのステップで Python 機械学習を習得できるようお手伝いします。

概要: 現在、インターネット上の Python 機械学習リソースは非常に複雑で、初心者にとっては混乱...

AIが高度な数学の問題を生成し、新たな難易度に到達:MITは問題を生成し、質問に答え、採点できるアルゴリズムモデルを提案

少し前に、DeepMind による研究が Nature の表紙を飾り、直感を導くことで 2 つの主要...

人工知能の3つの主要分野とその産業応用

人工知能は、人間の知能の拡張と拡大をシミュレートするための理論、方法、技術、アプリケーション システ...

機械学習でデータベースを自動調整

この記事は、カーネギーメロン大学の Dana Van Aken、Andy Pavlo、Geoff G...

2元で何千枚もの顔写真が買える、AIブラック業界の真実はそれ以上だ!

最近では、「顔スキャン」、つまり顔認識技術を使うことで、解決できることが増えています。買い物の際の「...