最近、AIGC の広大な世界で、セマンティック コンテンツを元の位置 (ハンドル ポイント) からターゲットの位置 (ターゲット ポイント) にドラッグすることで、特定の画像に対してきめ細かいカスタマイズされた編集操作を実行するという、注目の画像編集方法が登場しました。 たとえば、「猫にウインクさせる」という魔法のような操作を実現できます。 この驚くべき効果は、SIGGRAPH 2023 カンファレンスで発表された [Drag Your GAN] 論文 (略称 DragGAN) から生まれました。 さらに、DragGAN コードが公開されると、わずか数週間で 3 万個のスターが付き、ネットユーザーの間で「ドラッグ ブーム」が巻き起こった。 DragGAN のサポートにより、さまざまな AI 描画ツールの「アキレス腱」は弱点ではなくなりました。満足できない部分を修正するだけです。 最近、USTC と上海 AI ラボの研究者が別の関連研究「FreeDrag」を発表しました。 写真 論文: https://arxiv.org/abs/2307.04684 コード: https://github.com/LPengYang/FreeDrag プロジェクトページ: https://lin-chen.site/projects/freedrag/ 結果は、以前の DragGAN が 2 つの交互の反復プロセスで構成されていることを示しています。 1. 動作監視プロセスは、ハンドル ポイントを対応するターゲット ポイントに向かって移動するように誘導します。 2. ポイント トラッキング プロセスは、移動後のハンドル ポイントの正確な位置を特定し、次の移動の方向と制約機能を提供します。 したがって、DragGAN はポイント追跡の精度に大きく依存します。ただし、ポイント トラッキング戦略は、各移動後に、ハンドル ポイントの特性を完全に継承するポイントが既定の検索領域内に 1 つだけ存在すると暗黙的に想定しているため、本質的に不安定です。 この仮定は、次の 2 つのケースでは当てはまりません。 1. 画像内容の急激な変化による追跡の喪失 写真 DragGAN はコンテンツの変化により追跡ポイントを失う 2. 等高線や馬の脚など、検索エリア内の類似点によって発生する追跡エラー。 写真 DragGANは類似点があるためにポイントを誤って追跡する ポイント トラッキングが正しくないと、次の移動に対して間違った方向と制約機能が提供され、エラーが蓄積され、編集の品質が低下します。 方法の紹介不安定なポイント追跡プロセスが画像編集の品質を必然的に損なうことを防ぐため、中国科学技術大学と上海 AI ラボの研究者は共同で、特徴ガイド付きのポイントベースのインタラクティブ編集フレームワークである FreeDrag を提案しました。 FreeDrag は、適応的に更新されるテンプレート機能、ファジー ポジショニング、線形検索テクノロジを導入し、正確なポイント トラッキングを必要とせずに、より安定した信頼性の高いドラッグ編集を実現します。 図2 FreeDragのフローチャート 図 3. DragGAN ポイント トラッキングと FreeDrag ポイント ローカリゼーションの比較。 DragGAN では正確な位置決めが必要ですが、FreeDrag では特徴の違いを制限することで位置決めポイントが近くにあるように制限しますが、特定の位置は必要ありません。 動的に更新されるテンプレート機能 写真 研究者らはまず、追跡ポイントの損失の問題を軽減するために、動的に更新されるテンプレート機能技術を提案しました。テンプレート機能は、各動きの品質を測定することによって、つまりλの値を制御して各更新の割合を決定することによって、更新するかどうかを決定します。 λが大きいほど更新度合いが大きくなることを意味します。モバイル品質が高くなるほど、アップデートも大きくなります。動きの質は、動きの終了時の特徴量と前のテンプレート特徴量との間のL1距離( )を測定することによって測定されます。距離が小さいほど、動きの質が高くなります。 テンプレート機能の更新プロセスは、ハンドル ポイントの位置と機能に依存しないため、正確なポイント追跡の負担がなくなります。同時に、適応更新戦略によってもたらされるスムーズさにより、テンプレート機能の堅牢性が向上し、大幅なコンテンツの変更を克服し、編集されたコンテンツの異常な損失を回避できます。 ファジーポジショニングと線形探索 次に、研究者らは追跡ポイントの曖昧さの問題を軽減するために、ファジーポジショニングと線形探索技術を提案しました。 FreeDragは移動距離dと特徴量差l、つまり式(10)に基づいて各移動に適した目標点を見つける。 主な位置決め状況は、目標点に向かって移動し続ける(移動品質が高い)、現在の位置を維持する(移動が不完全)、後退する(移動が異常)の 3 つです。 DragGANで必要な正確なポイント追跡と比較して、式(10)によって検索される位置決めポイントは、ハンドルポイントの正確な位置を検索する必要がなく、特徴の差を制約することによって位置決めポイントがハンドルポイントの近くにあることを保証し、正確な位置決めの負担を取り除くため、「あいまい」です。 また、式(10)は、元のハンドル点と目標点が形成する直線上の点のみを探索する。この線形探索戦略は、隣接領域内の類似点の干渉を効果的に緩和し、動作監視の信頼性を確保し、点移動の安定性をさらに向上させる。 実験比較さまざまなシナリオにおける DragGAN と FreeDrag の比較を下図 (図 4) に示します。FreeDrag は、ハンドル ポイントの異常な消失 (図 4 の最初の例の口の消失や 2 番目の例のメガネの消失など) を効果的に防ぐことができます。同時に、コンテンツの変化や類似ポイントからの干渉による異常な編集を効果的に回避し、ポイントの移動の信頼性を確保します (図 4 の 3 番目の例の象の目や 4 番目の例の馬の足など)。 また、図4の例(5)~(8)から、FreeDragは安定した点の移動を通じて、所定の編集目標をより効率的かつ正確に達成できることが分かる。さらに、さまざまなシナリオでの多数の実験 (図 5) により、FreeDrag は安定したポイント移動を通じてより高い編集品質を実現できることが完全に検証され、インタラクティブなポイントベースの画像編集が新たな高みに到達するのに役立っています。 写真 図4 さまざまなシナリオにおけるDragGANとFreeDragの比較 図5 より多くのシナリオにおけるDragGANとFreeDragの比較 左の2枚の写真は元画像と編集対象(赤がハンドルポイント、青がターゲットポイント)、右の2枚の写真はそれぞれDragGANとFreeDragの処理です。 写真 写真 動的プロセス: https://lin-chen.site/projects/freedrag/ 象の目をドラッグする例では、DragGAN によって象の目を移動させる過程で、画像レイアウトが突然変化し、ポイント トラッキングが失われることがわかります。ポイント トラッキングが失われると、その後の動きに対して効果的なモーション モニタリングを提供できなくなり、意図した編集目的を達成できなくなります。 比較すると、動的に更新されるテンプレート機能の滑らかさのおかげで、FreeDrag は画像コンテンツの急激な変化をより適切に回避し、目の特徴を所定の位置に確実にドラッグすることができます。 馬の脚を引きずる例で言えば、DragGAN は馬の脚を動かす過程で誤ったポイント追跡を行っており、その後のモーション監視に誤った最適化方向を提供し、画像の品質を低下させていることがわかります。このエラーは複数の反復で蓄積され、編集結果の品質が急激に低下します。 それに比べて、FreeDrag のファジー ポジショニングと線形検索戦略は、類似ポイントの干渉を効果的に軽減し、ポイント移動の信頼性の高い監視信号を提供することで、意図した編集目的を高品質で達成します。 |
<<: 人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?
ディープラーニングは多くの初心者にとってわかりにくいかもしれません。急速に発展するにつれて、多くの新...
[[397251]]画像ソース: https://pixabay.com/images/id-610...
近年、社会構造の転換と国民の権利意識の強化に伴い、中国の裁判所が受理する事件の規模は毎年二桁増加し、...
ちょうど本日、上海人工知能研究所とSenseTimeは、香港中文大学および復旦大学と共同で、次世代大...
[[392872]]物流および貨物輸送組織のデジタル化が進むにつれて、企業は顧客、サプライ チェーン...
[[408565]]香港のサウスチャイナ・モーニング・ポストに6月29日に掲載された記事「中国の道...
[[256809]]アルゴリズムを理解しておらず、AI機能を備えたアプリを開発したいアプリ開発者の...
「スマート+」時代の到来とともに、人工知能、5G、モノのインターネット、ビッグデータなどの技術が徐...
機械学習、ビッグデータ、自動化は世界の産業システムに革命をもたらしており、エネルギー業界も例外ではあ...