ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

画像生成アルゴリズムといえば、皆さんもよくご存知でしょう。

ただし、ほとんどのアルゴリズムはラスター画像、つまりビットマップを対象としており、ベクター画像はサポートしていません。

ベクターグラフィックスを生成するアルゴリズムはいくつかありますが、教師ありトレーニングにおけるベクターグラフィックスデータセットの品質とサイズが限られているため制限があります。

この目的のために、ロンドン大学ユニバーシティ・カレッジとAdobe Researchの研究者らは、間接的な監視のためにラスタートレーニング画像のみを使用して複雑なベクターグラフィックを生成できる新しい方法、 Im2Vecを提案しました。

△Im2Vec補間効果

原則的なアーキテクチャ

ベクター監視なしでベクターグラフィックス生成モデルを構築するために、研究者は、生成されたベクターシェイプをレンダリングし、ラスターキャンバス上に合成できる微分可能なラスター化パイプラインを使用しました。

△ アーキテクチャ概要 1

具体的には、まず、エンドツーエンドの変分オートエンコーダをベクターグラフィックスデコーダーとしてトレーニングし、ラスターイメージを潜在コード z にエンコードし、次にそれを順序付けられた閉じたベクターパスのセットにデコードします。

複数のコンポーネントを持つグラフの場合、モデルは RNN を使用して各パスの潜在コードを生成します。

これらのパスは、DiffVG を使用してラスタライズされ、DiffComp を使用して結合され、ラスタライズされたベクターグラフィック出力が得られます。

最後に、ラスタライズされたベクターグラフィックスを元のベクターグラフィックスと比較し、両者の間の損失、つまりマルチ解像度ラスター損失を計算します。誤差逆伝播法と勾配降下法を使用してモデルをトレーニングします。

エンコードのプロセスは次のとおりです。

△ アーキテクチャ概要 2

パスデコーダーを使用して、パスコードが閉じたベジェパスにデコードされ、パスの閉じを保証するためにパス制御ポイントが単位円上に均一に抽出されます。

次に、これらの制御位置は、円形境界条件を持つ 1 次元畳み込みニューラルネットワーク (CNN) を使用して変形され、点密度の適応制御が実現されます。

制御点の均一な分布と同じ数のセグメントと比較して、適応方式はサンプリング密度を調整し、再構築の精度を向上させます。

同時に、トレーニングされた補助モデルを使用して、複雑さと忠実度のバランスを取り、最適なパスセグメントの数とパス制御ポイントの数を決定します。

△ 統合サンプリングと適応サンプリング: (a) 忠実度とフラグメント数 (b) 誤差とフラグメント数

最後に、別の 1D 円形 CNN を使用して調整ポイントを調整し、描画キャンバスの絶対座標系で最終的なパス制御ポイントを出力します。

既存技術との比較

研究者らは、再構築、生成、補間という 3 つのタスクにおける Im2Vec の定量的なパフォーマンスを評価するために、ラスターベースの ImageVAE とベクターベースの SVG-VAE および DeepSVG と比較しました。

リファクタリングのパフォーマンス評価

まず、さまざまな方法とデータセットの再構築損失を計算します。

SVG-VAE も DeepSVG も、ベクトル監視なしではデータセット上で実行できないことに注意してください。

同時に、研究者らは、異なるデータセットにおける各手法のグラフィックス再構築パフォーマンスの定性的な比較を実施しました。

フォント再構築の実験結果から、次のことがわかります。

Im2Vec は複雑なトポロジ構造をキャプチャし、ベクターグラフィックスを出力できます。
ImageVAE は忠実度は高いですが、出力されるラスター画像の解像度は限られています。
SVG-VAE と DeepSVG はベクター出力を生成できますが、複雑なフォントを正確に再現できないことがよくあります。

MNIST データセットのトレーニングの結果は次のようになります。

ラスターデータのみが存在し、ベクターグラフィックスのベンチマークがないため、このデータセットでは SVG-VAE も DeepSVG もトレーニングできません。

ImageVAE と Im2Vec の場合、数字クラスに特化または条件付けしないと、ImageVAE は低解像度のラスターイメージに制限されます (図 a)。一方、Im2Vec はベクター出力を生成できるため、編集可能性とコンパクトさという関連する利点があります。また、どちらも補間の生成で良好な結果を達成します (図 b)。

Emojis および Icons データセットでモデルの再構築パフォーマンスをテストすると、Im2Vec モデルは任意の解像度でラスタライズできることがわかります。

さまざまな方法による再構築のパフォーマンスを比較した結果、研究チームは次のような結論に達しました。

ベクトルベースの方法には、正確なベクトルパラメータを再現できるという利点がありますが、ベクトルパラメータと画像の鮮明度の間に非線形関係があるという問題があります。

SVG-VAE と DeepSVG によって推定されたベクトルパラメータの一見小さなエラーでも、画像の外観に大きな変化が生じる可能性があります。

Im2Vec は、ベクトルパラメータとピクセル空間間のターゲットの不一致の影響を受けないため、再構築タスクの大幅な改善を実現します。

生成と補間性能評価

△ Im2Vec補間性能のテスト結果

△Im2Vecによって生成されたランダムサンプル

実験データから、FONTS と MNIST では、Im2Vec の結果が他の方法よりも正確であり、Im2Vec によって生成されたランダムサンプルには大きなトポロジの変化があることがわかります。

制限事項

ただし、Im2Vec にもいくつかの制限があります。

グリッドベースのトレーニングの性質により、Im2Vec に特定の制限がもたらされ、いくつかの微妙な機能が失われる可能性があります。この問題は、計算効率を犠牲にして解像度を上げるか、より洗練された画像空間損失を開発することで解決できます。

さらに、ベクトル監視が不足しているため、特殊なケースでは、Im2Vec は退化した特徴を含むほぼ最適な値を採用したり、意味的に無意味な部分を考慮して形状を生成したりすることがあります。

結論は

Im2Vec の生成設定は、投影 (画像をベクターシーケンスに変換する)、生成 (ベクター形式で直接新しい形状を生成する)、補間 (ベクターシーケンスから別のベクターシーケンスへの変形またはトポロジの変更) をサポートし、ベクター監視を必要とする方法よりも優れた再構築忠実度を実現します。

研究チームのホームページによると、この論文はCVPR2021に選定されたとのこと。

<<: ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

>>: 世界で最も難しい「砂の彫刻」ゲームがAIによって解読された

ブログ

必要なパラメータはわずか1%で、その効果はControlNetを上回る。新しいAI塗装制御マスターが登場

ブログ

ChatGPT を成功させるための 26 のスーパーヒント

ブログ

ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出

原則的なアーキテクチャ

既存技術との比較

リファクタリングのパフォーマンス評価

生成と補間性能評価

制限事項

結論は

Pythonでシンプルな遺伝的アルゴリズムをゼロから実装する

まだ理解していないフーリエ変換。ニューラルネットワークはそれを学習するのにたった30行以上のコードしか使用しませんでした

機械学習の12の経験則

強化学習は、抽象的思考を行うときに脳がどのように機能するかを明らかにする

AIにも美的感覚や創造性が備わったら、人間のデザイナーは恥ずかしくなるでしょうか？

必要なパラメータはわずか1%で、その効果はControlNetを上回る。新しいAI塗装制御マスターが登場

ChatGPT を成功させるための 26 のスーパーヒント

推薦する

400 万のトークンコンテキスト、推論がさらに 46% 加速されました。最新のオープンソースソリューションはMITの結果をアップグレードし、推論コストをさらに削減します

AIがDotAのトッププレイヤーに勝利したのは画期的なことでしょうか？ OpenAIが詳細を発表

中国のAIチップ「覚醒」の5年

ロボットが人間に取って代わるのは時間の問題です。まずこれらの仕事がなくなるでしょう。

サイバーセキュリティにおける AI: 2021 年に注目すべき 6 つのポイント

トレンド検索No.1！韓国、ハリー・ポッターの「透明マント」を作るためにカメレオン型ソフトロボットを開発

TensorFlow を使用してリカレントニューラルネットワークを構築、トレーニング、改善する方法

2024 年のクラウドコンピューティングセキュリティの 5 つのトレンドと進歩

10 分でチャットボットを作成するにはどうすればよいでしょうか?

年次レビュー：2020 年の 5 つの注目すべきテクノロジートレンド、時代のトレンドに遅れずについていく

人工知能は個人情報詐欺の蔓延に対する優れた解決策である

1人当たり6万ドル：2024年NVIDIA奨学金リストが発表、中国人5名が選出

貴州省はアリババクラウドの最適アルゴリズムを使用して交通渋滞を減らし、赤信号の時間を86％削減する予定

CES の最大の不満: 人工知能はどこにでも普及するようになるのか?

感情AIが企業のITリーダーに希望をもたらす