神経スタイル転送研究の概要: 現在の研究から将来の方向性まで

神経スタイル転送研究の概要: 現在の研究から将来の方向性まで

スタイル転送は最近人工知能の分野で注目されている研究テーマであり、Synced でも多くの関連研究が報告されています。最近、浙江大学とアリゾナ州立大学の研究者数名がarXivで「ニューラル スタイル転送」に関する概要論文を発表しました。この論文では、ニューラル ネットワーク スタイル転送技術の現在の研究、応用、問題点が包括的にまとめられています。

1. 要約

Gatys らによる最近の研究では、畳み込みニューラル ネットワーク (CNN) の威力が実証されています。CNN は、画像の内容とスタイルを分離して再結合することで、芸術的に魅力的な作品を作成できます。 CNN を使用して画像の意味内容をさまざまなスタイルと融合するプロセスは、ニューラル スタイル転送と呼ばれます。それ以来、ニューラル スタイル転送は学術研究や産業応用で人気のトピックになりました。コンピューター ビジョンの研究者からの注目が高まっただけでなく、研究者は Gatys らが提案したニューラル アルゴリズムを改良または拡張する方法もいくつか提案しました。しかし、この点に関する包括的なレビューや要約文献はまだ不足しています。この論文では、ニューラル ネットワーク スタイル転送研究の最近の進歩をレビューし、このテクノロジのさまざまな応用と、将来の研究の方向性でもある未解決の問題について議論します。

[[191398]]

図 1: Gatys らによるスタイル転送アルゴリズムを使用して、中国絵画 (b) のスタイルを万里の長城 (a) の写真に転送する例。このスタイルを実現した絵画は、黄公望の「富春山居図」である。

1. はじめに

この論文の残りの部分は、次のように論理的に構成されています。第 2 章では、既存のニューラル スタイル転送手法を分類し、詳細に説明します。セクション 3 と 4 では、これらの方法のいくつかの改善と拡張について説明します。記事の第 5 章では、様式化された出力効果の評価方法を説明します。第 6 章では、これらのニューラル スタイル転送方法の商業的応用について説明します。 ***、セクション 7 では、現在の課題と解決策についてまとめています。第 8 節では論文を締めくくり、いくつかの有望な研究の方向性を示します。

この記事に含まれる論文、対応するコード、事前トレーニング済みモデルは、https://github.com/ycjing/Neural-Style-Transfer-Papers でご覧いただけます。

2. ニューラルスタイル転送法の二分法

このセクションでは、分類アプローチを提案します。現在のニューラル スタイル転送方法は、画像の反復に基づく記述的ニューラル メソッドとモデルの反復に基づく生成的ニューラル メソッドのいずれかのカテゴリに分類されます。最初の方法では、画像ピクセルを直接反復更新することで画像スタイルの転送を実現しますが、2 番目の方法では、最初に生成モデルを反復最適化し、次に単一のフォワード パスを通じて様式化された画像を生成します。

(1)画像反復に基づく記述的ニューラル法

画像スタイルを転送するために使用される最初のニューラル メソッドは、記述ニューラル メソッドです。この方法はランダムノイズから始まり、バックプロパゲーションによって(まだ未知の)様式化された画像を繰り返し更新します。画像の反復処理の目的は、全体的な損失を最小限に抑えて、様式化された画像がコンテンツ画像のコンテンツとスタイル画像のスタイルを同時に一致させることです。

ニューラル スタイル転送の鍵の 1 つは、事前定義されたスタイル損失関数であるスタイルの表現です。スタイル損失関数は、スタイル画像特徴統計と一致するように最適化されます。使用されるスタイル損失関数に応じて、この方法は、最大平均差 (MMD) に基づく方法とマルコフランダムフィールド (MRF) に基づく方法にさらに分けることができます。簡単にするために、これらを MMD ベースと MRF ベースの方法と呼びます。

a. MMDに基づく記述的ニューラル法

MMDはヒルベルト空間特性の平均に基づいて2つの分布の差を評価するための一般的な基準である[20]。最近、Liらは、スタイル転送はコンテンツ画像からスタイル画像への分布調整プロセスとして捉えることができることを示した[30]。したがって、MMD はスタイルの違いを測定するために使用できます。 MMD ベースの記述的ニューラル メソッドとは、最適化されたスタイル損失として異なるカーネル関数を持つ MMD を使用するニューラル メソッドを指します。

b. MRFに基づく記述的ニューラル法

MRF は画像合成のための古典的なフレームワークです。ローカル画像パッチには、画像内で最も関連性の高い統計的依存関係が含まれていると想定されます。記述的ニューラル手法の 2 番目のカテゴリは MRF に基づいており、ローカル イメージ パッチのスタイル マッチングなど、ローカル レベルでのニューラル スタイル転送も考慮します。

(2)モデル反復に基づく生成ニューラル法

記述的ニューラル手法は優れた様式化された画像を生成できますが、それでも限界があります。その一つは効率の問題です。 2 番目のカテゴリ、つまりモデル反復に基づく生成ニューラル メソッド (一部の論文では「高速」ニューラル スタイル転送とも呼ばれる) は、速度と計算コストの問題を解決しますが、モデルの柔軟性を犠牲にします。重要なアイデアは、各画像スタイルの大規模な画像データセットでフィードフォワード ネットワークを事前トレーニングすることです。勾配降下法を使用して、モデルを繰り返し更新することでネットワーク モデルを最適化します。

3. 現在の方法の若干の修正

いくつかの研究では、現在の最先端のニューラル ネットワーク スタイル転送アルゴリズムの改良版が提案されています。これらの改善により、既存のアルゴリズムのアーキテクチャと処理が維持されますが、損失関数がわずかに変更され、パフォーマンスが向上します。

図 2: ニューラル スタイル転送でブラシ サイズを制御すると、さまざまなスタイルの結果が生成されます。このスタイルはゴッホの「星月夜」にインスピレーションを受けたものです。

(1)記述的ニューラル法の派生

(2)生成ニューラル法の派生

4. 特定の種類の画像用の拡張機能

上記のニューラル スタイル転送方法はすべて静止画像を処理します。他の種類の画像(落書き、アバター、ビデオなど)ではうまく機能しない可能性があります。現在、最先端のニューラル スタイル転送アルゴリズムをこれらの特殊なタイプの画像に適用したり、指定されたターゲットの画像のスタイルを転送したりしようとする研究が数多く行われています。

落書きにおけるニューラル スタイル転送。シャンパンダールは興味深い研究を行っている[7](セクション2.1.2を参照)。この方法は、ニューラル スタイル転送アルゴリズムにセマンティック マッピングを導入するだけでなく、画像に高レベルの注釈を入力して、単純なスケッチを詳細な図面に変換するためにも使用できます。

ポートレートのニューラルスタイル転送。 Gatys らのアルゴリズムは一般的な画像のスタイルを転送できますが、肖像画のスタイル転送には適していません。 Gatys らの方法を直接適用すると、空間的制約が弱いためにキャラクターの頭部が変形する可能性があります。このタイプのスタイル転送には適していません。 Selimら[41]は研究を通じてこの問題を解決し、Gatysらのアルゴリズムを拡張した。彼らはゲインマップの概念を使用して空間を制限し、スタイルを転送しながらキャラクターの顔の輪郭を維持できるようにしました。

指定されたオブジェクトのニューラル スタイル転送。 Castilloら[5]はスタイル転送の目的を指定するためのアルゴリズムを提案した。このアルゴリズムは、画像内のユーザーが指定した単一のオブジェクトのみをスタイル化するプロセスです。最先端のセマンティック セグメンテーション アルゴリズムを使用して、スタイル化された画像からターゲット オブジェクトをセグメント化し、スタイルが転送されたオブジェクトを抽出して、それをスタイル化されていない背景と結合するというアイデアです。

ビデオへのニューラル スタイル転送。 Ruderら[40]はGatysらの研究を拡張し、本論文のニューラルビデオスタイル転送で言及されているニューラルスタイル転送アルゴリズムを使用してビデオ画像シーケンスを処理しました。ターゲット スタイル イメージが与えられると、Ruder らのアルゴリズムは時間損失関数を導入して、ビデオ全体にわたってスタイル転送を可能にします。このアルゴリズムの背後にある重要な考え方は、時間的制約を使用してフレーム間のスムーズな遷移を維持すること、つまり、ポイントの軌跡に沿った偏差にペナルティを課すことです。 Ruder らのアルゴリズムは、ほとんどの場合、アーティファクトを除去し、滑らかで様式化されたビデオを生成できることが示されています。この方向での別の研究はアンダーソンら[3]によって提案されており、オプティカルフローを使用してスタイル転送を初期化し、ビデオをレンダリングすることができます。

5. 評価方法

ニューラル スタイル転送の問題については、グラウンド トゥルースは存在しません。ニューラルスタイル転送は芸術的な創造です。同じ移行の結果に対して、人によって異なる意見、あるいは反対の意見を持つ場合があります。したがって、ニューラル スタイル転送アルゴリズムによって得られた視覚結果の評価は、依然として重要な未解決の問題のままです。

私たちの観点から見ると、ニューラルスタイル転送の分野で使用できる評価方法には、定性的評価と定量的評価の 2 種類があります。定性評価では、参加者がさまざまなアルゴリズムのランク付けの結果を評価する必要があり、これは参加観察に依存します (様式化知覚研究として知られています)。この評価の結果は、参加者の属性(年齢や職業など)によって異なる場合があります。定性的な評価方法にはある程度の不確実性がありますが、この方法は少なくとも人々の神経的な芸術スタイルの好みに関するいくらかの情報を提供することができます。定量的評価は、アルゴリズムの正確な評価指標(時間計算量など)に焦点を当てます。

ニューラル スタイル転送の現在の分野では、生成ニューラル メソッドが注目の話題となっており、産業用アプリケーションでは速度が主要な課題の 1 つとなっています。しかし、私たちの知る限りでは、最先端のニューラル生成法をすべて同じ実験設定で実行し、それらを定性的および定量的に比較した研究はこれまでありませんでした。したがって、この章では、Gatys らによる記述的ニューラル法を参考にしながら、最先端の生成ニューラル法 5 つを比較することを目的としています。

実験のセットアップ。実験では合計で 10 枚のスタイル画像と 20 枚のコンテンツ画像が使用されました。すべてのスタイル転送結果は、[14]を除いて著者らが提供したコード[43、23、27、19、8]を使用して得られた。 [14]については、人気のあるオープンソースコード[22]の修正版(第3節を参照)を使用しました。私たちの実験で使用したすべてのコードのパラメータは、[12、9]を除いて、元の著者が対応する論文で提供したデフォルトのパラメータです。我々は[12, 9]の著者らが提供した事前学習済みモデルを使用した。私たちの実験におけるすべての生成ニューラル手法では、トレーニング中にすべてのテストコンテンツ画像が観察されたわけではありません。

(1)定性評価

図3: 定性評価の結果の例

表1: 図3の画像に対する6つのアルゴリズムの平均スタイルランキングスコア(∈[1, 6])

(2)定量評価

表2: 3つのピクセルサイズでのニューラルスタイル転送アルゴリズムの速度比較: 256×256、512×512、1024×1024 (ハードウェア: NVIDIA Quadro M6000)

6. 応用

ニューラルスタイル転送の結果は驚くべきものであり、多くの業界での成功したアプリケーションももたらされ、商業的な利益を達成し始めています。同時に、ニューラルスタイル転送技術がさまざまな応用分野でどのように使用できるかを調査した応用論文もいくつかあります[4、25]。このセクションでは、これらのアプリケーションの概要と、いくつかの潜在的な用途を示します。

(1)社会

(2)コンテンツ作成を支援するツール

(3)エンターテインメント向け制作ツール

7. 問題と解決策

ニューラルスタイル転送の分野では驚くべき進歩があり、産業界で応用されてきました。現在のアルゴリズムは素晴らしい結果を達成していますが、この分野にはまだいくつかの課題と未解決の問題が残っています。このセクションでは、ニューラル スタイル転送の分野における問題をまとめ、対応する解決策について説明します。

(1)問題点

  • パラメータ調整の問題
  • ペン方向制御の問題
  • ニューラルスタイル転送における「速い」と「より速い」の問題

図 4: ブラシ サイズ制御を備えた記述的ニューラル アプローチと、ブラシ サイズ制御のない生成的ニューラル アプローチの高解像度の結果。

(2)考えられる解決策

パラメータ調整問題の解決策。自動パラメータ調整の問題に関する今後の研究では、記述的ニューラル法と生成的方法の両方の解決策について議論します。記述的ニューラル法の場合、考えられる解決策は、Risser らのアプローチに従い、損失の大きさや損失内の統計などの勾配のない情報をさらに組み込むことです。もう一つの方向性は、分類問題で使用される自動パラメータ最適化戦略からインスピレーションを得ることである(例:Domhan et al. [11]、Luo [32])。

生成ニューラル法の場合、1つのアプローチは、結果の高品質を確保しながら、異なるスタイルごとに別々のモデルをトレーニングする必要がない新しい方法を研究することです([9]など)。 (つまり、速度、柔軟性、品質の間のトレードオフを打破します)。そうすれば、パラメータ調整のプロセスは特に時間がかかることはなくなり、パラメータ調整をユーザーに任せることもできるようになります。さらに、現在の自動パラメータ最適化戦略のいくつかの方法は、生成ニューラル法における自動パラメータ調整にも役立ちます。

ペンのストロークの方向制御の問題に対する可能な解決策。現在のニューラル スタイル転送アルゴリズムでは、ブラシ ストロークの方向の制御は考慮されていません。対照的に、非フォトリアリスティックレンダリング(NPR)の分野では、ブラシ方向の制御がよく研究されてきた[39]。 NPR 分野のいくつかのアイデアを借りて、ニューラル スタイル転送における方向の問題を解決できると考えています。例えば、張らは、ユーザによって好みが異なるため、ペンのストロークの方向の場所と方法を指定することを要求した[49]。同じ考え方をニューラル スタイル転送アルゴリズムに適用すると、ユーザーは事前に全体的なストロークの方向を選択する必要があります。さらに、ニューラルスタイル転送アルゴリズムとNPRフィールド内のストロークの方向を誘導する戦略(例えば、[50]のベクトルフィールド法)を組み合わせることも、この問題の潜在的な解決策の1つです。

ニューラル スタイル転送における「高速」および「より高速」の問題に対するソリューション。この研究方向における重要な課題は、速度、柔軟性、品質の間のトレードオフをどのように打破するかということです。考えられる解決策としては、チェンとシュミットの研究[9]に従うことです。彼らのアルゴリズムは現在最も効果的ですが、画像の品質は高くありません。彼らの方法によって生成されるスタイル転送画像の品質を向上させることは、速度、柔軟性、品質の間のトレードオフを克服するための有望な方向性です。関連する研究としては[51]などがある。

ニューラル スタイル転送アルゴリズムの「高速」および「より高速な」ストローク サイズ制御の考え方は、前述のストロークの方向制御の可能なソリューションに似ています。 NPR の分野では、ブラシ ストロークのサイズ制御に取り組んでいる研究者がたくさんいます。レビューとしては[39]の第1節をお勧めします。

8. 結論と今後の課題

過去 3 年間にわたり、神経スタイルの転送は活発な研究分野へと成長を続けています。この研究分野における活動の成長は、科学的な課題と産業界のニーズによって推進されています。さらに、研究者たちは神経スタイルの伝達の分野でかなりの量の研究を行ってきました。この分野における主な進歩は表 3 にまとめられています。全体として、この概要では、ニューラル スタイル転送に関する既存の研究の広範な調査が提供され、現在の方法のカテゴリ、その改善と拡張、評価方法、既存の課題とそれに対応する可能な解決策が網羅されています。さらに、ソーシャル、ユーザー作成を支援するツール、エンターテイメント アプリケーション用の製品ツールなど、ニューラル スタイル転送の 3 つのアプリケーション領域についても概説します。

表3: ニューラルスタイル転送の分野における現在の進歩をまとめたものである

神経スタイルの伝達に関する将来の研究には、2 つの有望な方向性があります。 1 つ目は、上記の現在のアルゴリズムが直面している困難、つまりパラメータの微調整の問題、ブラシ方向の制御の問題、ニューラル スタイル転送における「高速」と「より高速」の問題を解決することです。これらの課題とその解決策については、セクション 7 で説明します。 2番目の有望な方向性は、ニューラルスタイル転送の新たな拡張(ファッションスタイル転送やキャラクタースタイル転送など)に焦点を当てることです。この方向性では、Yangらによるテキスト効果転送に関する最近の研究[47]など、いくつかの予備的な研究結果が出ています。これらの興味深い拡張は将来の研究トピックのトレンドとなり、新しい関連分野が生まれる可能性があります。

元記事: https://arxiv.org/abs/1705.04058

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  Meili United が VALSE カンファレンスで「ファッションをグラフィックで説明」する画像アルゴリズムの体験を共有する方法

>>:  転移学習: データが不十分な場合に深く学習する方法

推薦する

人工知能技術がホームセキュリティ市場の急速な発展を促進

[[240109]]ホームセキュリティ市場はAIを活用してどのように安全を確保しているのか家庭のセキ...

...

OpenAIは「世界クラスの人材」を採用するためにロンドンに海外支社を設立すると発表

オープンAIは6月29日水曜日、ロンドンに新オフィスを設立すると発表した。これは同社にとって米国外初...

...

この記事ではAIGC(生成型人工知能)の世界を紹介します。

こんにちは、ルガです。今日は、人工知能エコシステムの中核技術である AIGC (「生成型人工知能」の...

2021年に人工知能の倫理的問題、社会的価値、影響について読むべき8冊の本

[[387639]]人工知能に関するこれらの 8 冊の本は、AI に関連する倫理的問題、AI が雇用...

交通における人工知能: スマートソリューションによる交通革命

人工知能 (AI) は世界中の産業に変化をもたらしており、交通も例外ではありません。テクノロジーが進...

データ構造とアルゴリズムについて知っておくべき 50 のコード実装

今日、私は GitHub で非常に優れたプロジェクトを見つけました。現在、4700 以上のスターが付...

わずか6ステップで機械学習アルゴリズムをゼロから実装

機械学習アルゴリズムをゼロから作成することで、多くの経験が得られます。ようやく読み終えたとき、嬉しい...

サービスロボットは驚異的なユニコーンを生み出すことができるか?

サービスロボットはニッチな領域を超えつつあるようだ。まず、2018年の世界ロボット産業の市場規模は2...

ドイツのハッカーはレンタルしたコンピュータリソースを使ってハッシュアルゴリズムを攻撃する

ドイツのセキュリティ愛好家が、レンタルしたコンピュータ リソースを使用して、SHA1 ハッシュ アル...

商業ビルのエネルギー効率における人工知能の役割

人工知能は商業ビルを変革し、エネルギー使用に関してよりスマートなものにしています。周囲に誰もいないと...

GoogleのチーフAIサイエンティスト、フェイフェイ・リーがスタンフォード大学のAIラボを離れ、再び戻る可能性

BI中国語ウェブサイトが6月28日に報じた。グーグルの主任人工知能(AI)科学者、フェイフェイ・リー...

RPA の利点と欠点は何ですか?

信用組合サービス組織の PSCU は、数年にわたって企業開発に注力しており、同社はロボットによるプロ...