ワイツマンとNVIDIAは、自然言語を使って写真を編集できるText2LIVEを共同でリリースした。

Photoshop のようなソフトウェアを使用することは、創造的な作業とみなされますか、それとも反復的な作業とみなされますか?

PS を使用する人にとって、画像を切り抜くなどの繰り返し作業は、特に髪の毛や不規則な形状、背景色に近い画像の場合、悪夢になる可能性があります。

画像の切り抜きやテクスチャの置き換え、マテリアルの追加などの作業を手伝ってくれる AI モデルがあれば、制作にかかる時間を大幅に節約できるのではないでしょうか。

視覚効果（VFX）を専門とする専門家の中には、画像や動画の合成における新たな取り組みや革新に興奮している人もいますが、一方で、絵画から動画の生成まであらゆることを実行できる人工知能の急速な発展に脅威を感じている人もいます。

例えば、初心者が偽の動画を生成するには、多くの学習と操作時間がかかります。ディープフェイクを使用すれば、閾値がなく、効率がはるかに高くなります。

しかし、幸いなことに、AI は現時点では全知全能ではありません。モデルはソフトウェア内の作業のごく一部しか実行できません。複数のモデルをパイプラインに組み立てる場合、それを操作するには依然として人が必要です。より複雑なタスクには、依然として人間の創造性が必要です。

ワイツマン科学研究所と NVIDIA の研究者は、Text2Live と呼ばれるモデルを提案しました。このモデルにより、ユーザーは自然言語のテキストをコマンドとして入力するだけで、特定の画像やビデオを処理できるようになります。モデルの目的は、既存のオブジェクトの外観 (オブジェクトのテクスチャなど) を編集したり、シーンに視覚効果 (煙、火など) をセマンティックな方法で追加したりすることです。

論文リンク: https://arxiv.org/pdf/2204.02491.pdf

Text2Live は、画像内の無関係なコンテンツを変更することなく、複雑な半透明効果で入力シーンを強化できます。

例えば、モデルに「煙」や「火」という呪文を唱えると、対応する効果を画像上に合成することができ、非常にリアルです。

パンの絵に「アイス」と言うと、アイスパンや「オレオケーキ」に変わります。

あるいは、動画に対して「キリンにスカーフを巻いて」と指示すると、キリンの首を正確に識別してフレームごとにスカーフを巻いたり、さまざまなエフェクトに変化させたりすることもできます。

自然言語によるプロット

視覚言語モデルの強力な意味表現機能に触発され、研究者たちは、なぜ自然言語コマンドを使って画像を編集できないのかと考えました。これにより、ユーザーは編集対象の外観やオブジェクト、領域を簡単かつ直感的に指定できますが、開発されたモデルは、テキストの手がかりに基づいてローカルで意味的な編集を認識できる必要があります。

マルチモーダル性については、4 億のテキストと画像のペアで学習された CLIP モデルがすぐに利用可能であり、視覚的およびテキスト空間におけるその膨大な豊かさは、さまざまな画像編集方法によって実証されています。

しかし、もう一つの難しさがあります。それは、現実世界のすべての画像で CLIP を使用して完璧なパフォーマンスを達成するのは簡単ではないということです。

既存の方法のほとんどは、事前トレーニング済みのジェネレーター (GAN や拡散モデルなど) と CLIP を組み合わせています。しかし、GAN では画像の領域が制限されており、入力画像を GAN の潜在空間に反転する必要があり、それ自体が困難な作業です。拡散モデルはこれらの障害を克服しますが、編集目標の達成と元のコンテンツに対する高い忠実度の維持との間でトレードオフに直面します。しかし、これらの方法をビデオに拡張するのは簡単ではありません。

Text2LIVE は異なる方法を採用し、単一の入力 (画像またはビデオとテキストプロンプト) からジェネレーターを学習することを提案します。

新たな疑問が生じます。外部の生成事前確率を使用せずに、ジェネレーターを意味のある高品質の画像編集操作に導くにはどうすればよいのでしょうか?

Text2LIVE には、この目標を達成するために設計された 2 つの主要コンポーネントがあります。

1. このモデルには、新しいテキストガイドの階層化編集が含まれています。つまり、編集された画像を直接生成するのではなく、入力レイヤーの上に RGBA レイヤー (色と不透明度) を合成して編集を表現します。

これにより、モデルは、編集レイヤーに直接適用されるテキスト駆動型の損失で構成される新しい目的関数を通じて、生成された編集コンテンツとローカリゼーションをガイドすることもできます。

たとえば、前の例では、テキストプロンプト「smoke」が使用され、編集された最終的な画像を出力するだけでなく、編集レイヤーによって表されるターゲット効果も表現されます。

2. モデルは、入力画像とテキストに対してさまざまなデータ拡張を実行して、さまざまな画像とテキストのトレーニング例で構成される「内部データセット」でジェネレーターをトレーニングします。実験結果では、この「内部学習法」が、複雑なテクスチャや半透明効果を高品質で生成できる強力な正規化として機能できることも示されています。

テキスト拡張では、主に 14 個の定義済みテンプレートプロンプトを使用して、CLIP ベクトルに多様性を提供します。

画像データのパイプラインは、単一の入力画像とターゲットテキストプロンプトでトレーニングされたジェネレーターで構成されます。

左側は、内部データセット、つまり、異なるトレーニングインスタンスとデータ拡張で構成された内部 (画像、テキスト) ペアの後に取得されたデータセットを生成するプロセスです。

右側では、ジェネレーターが画像を入力として受け取り、RGBA 編集可能なレイヤー (色 + 透明度) を出力し、入力に基づいて合成されて最終的な編集済み画像が形成されます。

ジェネレータの最適化機能は、複数の損失項の合計であり、各損失項は CLIP 空間で定義され、主なターゲットが含まれます。画像とターゲットテキストプロンプトの一致度を反映する構成損失、生成された編集レイヤーに適用されるスクリーン損失。主な技術は、純粋な緑の背景にノイズの多い背景画像を合成して、切り抜きの精度を判断することです。構造損失は、置き換えられたテクスチャと表示効果が元のターゲットの空間分布と形状を維持できることを保証します。

研究者らは、画像に加えて、Text2LIVE をテキストガイドによるビデオ編集の分野にも拡張しました。

現実世界のビデオは通常、複雑なオブジェクトとカメラの動きで構成され、シーンに関する豊富な情報が含まれています。しかし、一貫したビデオ編集を実現することは難しく、画像のすべてのフレームに同じ操作を単純に適用することはできません。

そこで研究者たちは、ビデオを2次元アトラスのセットに分解することを提案した。各アトラスは、ビデオ全体の前景オブジェクトまたは背景を表す統合された 2D 画像として表示できます。この表現方法により、ビデオ編集の作業が大幅に簡素化されます。単一の 2D アトラスに適用された編集は、ビデオ全体にわたって一貫した方法でマッピングされます。

ビデオトレーニングパイプラインには、(a) 2D アトラスのセット、ピクセルからアトラスへのマッピング関数、および各ピクセルの前景/背景の透明度値を含む「ビデオレンダラー」として使用できる事前トレーニング済みの固定階層型ニューラルアトラスモデル、(b) フレームワークが、選択された離散アトラス IA を入力として受け取り、それを出力するジェネレーターをトレーニングする、(c) アトラス編集レイヤー EA、(d) 事前トレーニング済みのマッピングネットワーク M を使用して、編集されたアトラスを各フレームにレンダリングする、(e) 元のビデオでの合成が含まれます。

実験の定量的評価では、研究者は人間の知覚評価の方法を選択し、参加者には参照画像とターゲット編集プロンプト、および 2 つの代替オプションが示されました。

参加者は、「テキストプロンプトに基づいて、どの写真が参照画像をより適切に編集したか」を選択する必要がありました。

実験データには 82 組の (画像、テキスト) が含まれており、画像編集方法に関する 12,450 人のユーザーの判断が収集されています。投票結果によると、Text2LIVE はすべてのベースラインモデルを大幅に上回っています。

動画実験では、参加者は「テキストをよりよく反映した、より品質の高い動画」を選択する必要があります。実験データには、19 組の (動画、テキスト) と 2,400 人のユーザーの判断結果が含まれています。ご覧のとおり、Frames ベースラインモデルはタイムラインに沿って一貫性のない結果を生成しますが、Atlas ベースラインはより一貫性のある結果を生成しますが、高品質のテクスチャを生成するパフォーマンスが低く、ぼやけた結果を生成することがよくあります。

<<: 美団における短編動画コンテンツ理解・生成技術の革新的実践

>>: 世界的EDA大手のシノプシスは米国から情報漏洩の疑いで捜査を受けており、ファーウェイとSMICもその渦中に巻き込まれている。