家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?

最近、マシンハートは「逃亡王子」の一団を受け入れている。

これらの王子たちは異なる王国から来ていますが、彼らの衣装とメイクはすべて同じ会社である Kuaishou のものです。

これはKuaishouの新しい「童話魔法」特殊効果です。王子様気分だけでなく、お姫様気分も味わえます。あらゆる分野の有名人が、自分だけのプリンセス特殊効果画像を共有しています。

ヤン・ミ

ディルラバ・ディルムラト

ルー・イーシャオ

「フェアリーテイルマジック」は、生成アルゴリズムに基づいたビデオ特殊効果技術で、ユーザーは携帯電話でリアルタイムに自分が王女や王子様に変身する魔法の効果をプレビューできます。生成された画像は、おとぎ話のようなスタイルが強いだけでなく、ユーザー自身の顔の特徴も保持し、ユーザーに斬新な撮影体験を提供します。

現在、この「おとぎ話の魔法」セットには、氷の王女、ファンタジー城、おとぎ話の王女、おとぎ話の王子など、いくつかのスタイルの変身効果があります。

それだけでなく、ユーザーは自分の好みに応じて変身したキャラクターの特殊効果をさらに洗練させたり、さまざまなスタイルのメイク、ボディビューティー、フィルター、カバーテキストなどを追加したり、サウンドトラックを変更したり、独自の吹き替えを行ったり、ミニオン、ロボット、ロリ、おじさんなどのさまざまなスタイルに変身したりすることもできます。

「童話の魔法」の背後にある快手ブラックテクノロジー

実在の人物が数秒で漫画に変身するのはもはや珍しいことではありません。これまで、韓国のゲーム会社NCSOFTが開発した教師なし画像変換アルゴリズムU-GAT-ITは、学習可能なILN層と注意機構を導入することで、顔画像を日本のアニメの2次元画像に変換することに成功し、業界で大きな注目を集めました。

しかし、日本の漫画と童話のスタイルには依然として大きな違いがあります。童話風の画像変換を完了するには、生成された画像がユーザーの本来の顔の特徴を保持するだけでなく、アニメーション化された3Dポートレートのスタイルも持たなければなりません。同時に、ターゲットスタイルデータの多様性が不十分であるという問題もあり、U-GAT-ITは要件を満たすことができません。

そして、かつて有名だったToonifyだけでは十分ではないようです。 Toonify は実在の人物からアニメ映画のキャラクターへの変換を完了できますが、この方法では微調整された StyleGAN モデルから低解像度のレイヤーを直接抽出し、元の StyleGAN の高解像度のレイヤーのみを保持するため、変換された画像は元の顔に比べて変形し、元の顔の顔の特徴を完全に保持することはできません。また、この方法で生成された顔画像の中には、色調が変化するなどの問題があり、リアルタイムで処理できないものもあり、工業製品の発売要件を満たすことができません。

これらの課題に対処するため、快手YテックチームのAIエンジニアは、自社開発のKStyleGAN構造を採用し、顔の構造を表現し、3D空間でスタイルマッピングを行い、ニューラルネットワークレンダリングを使用して結果画像のテクスチャを細かく制御することで、従来の2D表現に基づくStyleGAN方式の欠点を効果的に克服し、モバイルデバイス上でリアルタイムの特殊効果を実現しました。

モデル構造に関しては、半自動ネットワークアーキテクチャ検索 (NAS) を使用して、モバイル側とサーバー側のさまざまなコンピューティングハードウェアに効率的なネットワーク構造を取得し、これに基づいて多くの革新を行っています。

一方、Kuaishou はピクセルレベルのアテンション メカニズムであるSTA モジュール(スタイル転送アテンション モジュール) を設計し、浅い特徴と深い特徴を融合する方法を改善しました。一般的な特徴融合方法には、浅い特徴と深い特徴の直接追加、連結、そして複数の畳み込み演算が含まれます。スタイル転送タスクでは、元の画像とターゲット画像の間に大きな違いがあるため、これらの一般的な融合方法では、元の画像情報の損失、生成品質の低下、スタイル感覚の低下などの問題が発生することがよくあります。 STA モジュールは、少量の計算と注意を使用して、ピクセル レベルで浅い特徴と深い特徴の融合プロセスをガイドし、スタイルを維持しながら元の画像の詳細を保持し、生成された画像のテクスチャを改善します。

一方、Kuaishou は、従来の Resnet ブロック構造に代わる、マルチブランチ、マルチデプスの FS ブロック (機能拡張モジュール)を構築します。この改善により、計算量を減らしながらフィーチャの詳細を強化し、全体的な変形に適応する能力が向上し、より優れた生成効果を実現できます。

モデルのトレーニングに関しては、Kuaishou はリアルタイムのスタイル設定タスクにおけるさまざまな効果の問題に的を絞った調整を行いました。

ハイブリッドトレーニングを通じて、スタイル機能の学習を強化し、最終モデルによって生成されるスタイル感覚を高めることができます。

モデルピラミッド内の異なる解像度の機能に対してマルチタスクおよびマルチスケールの監視を設計し、モデルの収束を加速し、生成の品質と堅牢性を向上させます。

事前トレーニング機能は敵対的トレーニング段階で導入され、識別器の詳細なテクスチャを判断する能力を向上させ、識別器のトレーニング プロセスを安定させ、最終的にモデルの詳細なテクスチャを生成する能力を強化します。

特殊効果は素晴らしいですが、すべての携帯電話モデルに適応させるにはどうすればよいのでしょうか?

特殊効果は簡単に使用できますが、携帯電話のモデルや構成が多岐にわたるため、デバイスの計算能力とモデル効果を最適に組み合わせて、最高のユーザー エクスペリエンスを提供するにはどうすればよいでしょうか。

Kuaishou は初めて詳細なコンピューティング能力の分類を実施しました。

現在のモバイル ハードウェアは多種多様で、断片化が激しいため、コンピューティング能力のグレーディングは水平方向と垂直方向の課題に直面しています。水平的課題:機器は、CPU、GPU、DSP、NPU に大別されます。各タイプの計算能力は異なります。一般的に言えば、計算能力レベルは NPU ≥ GPU ≥ DSP ≥ CPU ですが、実際の状況では、各レベルの計算能力が重複したり、逆転したりします。垂直的な課題: CPU を例にとると、メーカーには Apple、Qualcomm、Huawei、MTK などがあります。CPU のパフォーマンスはメーカーやモデルによって大きく異なります。Adreno や Mali シリーズなどの GPU でも同様の状況が見られます。

断片化されたデバイスを水平および垂直に分散させることで、複雑なコンピューティングパワーマトリックスが形成されます。Kuaishouが独自に開発したディープラーニング推論エンジンYCNNは、非常に最適化されたバックエンドコードと組み合わせられ、複数のモデルで理論と実践の両面で徹底的にテストされ、最終的にKuaishouのユーザーベースに基づいて詳細なグレーディングプランを設計しました。

このコンピューティング パワーのグレーディング戦略に従って、Kuaishou はモデル構造とコンピューティング パワーを調整し、異なるコンピューティング パワーを持つモデルを設計しました。たとえば、CPU 向けには、より優れた効果を持つ中程度の計算モデルが設計されていますが、NPU、GPU、DSP などの高計算能力に適したデバイスでは、より大きな計算強度とより優れた効果を持つモデルを実行できます。

また、実際のアプリケーションでは、モデルが複数あるとリソースパッケージが大きくなりすぎたり、読み込みが遅くなったりするなどの問題が発生します。このため、Kuaishou ではモデルサーバーに階層的な分散メカニズムを導入しました。デバイスは端末のハードウェア情報に従って分類、配布、ロードされ、デバイスのコンピューティング能力を最大限に活用しながら、すべての Kuaishou ユーザーに最高のエクスペリエンスを提供します。

YCNN の全体的なアーキテクチャ

Kuaishou は、さまざまなハードウェア向けに階層モデルを設計し、独自に開発したアルゴリズム圧縮モデルと YCNN エンジンを使用して、すべてのユーザーが「おとぎ話の魔法」を体験できるようにします。

すべての人に「変革」の舞台と可能性を与えることは、Kuaishou の技術革新の追求とユーザー志向の堅持を反映しています。

<<:  USPTO レポート: 人工知能を使わないと取り残される!

>>:  モデルは、人々の言葉をいくつか聞くことで、よりよく学習できるでしょうか?スタンフォード大学は学習を支援するために言語説明を使うことを提案している

ブログ    
ブログ    
ブログ    

推薦する

体験談まとめ VB.NET 暗号化アルゴリズムの分類

家が施錠されていなければ、誰でも勝手に入ることができ、暗号化なしでデータを勝手に変更できてしまうと、...

ゲームに「顔認識」を追加したことで生まれた考え

最近、国内で人気の「チキン早食い」ゲームに「顔認識システム」が導入され、大きな論争を巻き起こした。多...

C#アルゴリズムで解決した面接の質問

C# アルゴリズムはプログラマーの面接でよく出題されますが、C# アルゴリズムを使用してそれをどのよ...

...

人工知能を開発するには何が必要ですか?

独自の人工知能システムを構築するにはどうすればよいでしょうか?多くのことと同様に、答えは「それは状況...

LinkedIn: データサイエンスと機械学習は米国で最も急速に成長している職業です。

元記事: データサイエンスと機械学習が米国で最も急速に成長している職業である理由[[223686]]...

人工知能がスマートな警察活動を可能にする

[[257520]]都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の...

自己回帰デコードが64倍高速化、Googleが新たな画像合成モデルMaskGITを提案

生成トランスフォーマーは、高忠実度かつ高解像度の画像を合成するために急速に人気を集めています。しかし...

IBM LinkedIn が教えてくれる: 職場と AI はどれくらい離れているのか?

[51CTO.com からのオリジナル記事] 少し前に、LinkedIn と IBM が多数の専門...

ヘルスケアにおける人工知能の課題にどう対処するか

[[384554]]人工知能は、人類がより早く、より効果的に病気と闘い、より健康的な生活を送るのに役...

機械学習とは何ですか?機械はどんどん賢くなっていて、もはやSFの世界ではない

[[351468]]機械学習 (ML) は、一連のデータに基づいて予測を行うようにコンピューター シ...

人工知能に関する10のよくある質問への回答

人工知能は今世紀の主要な話題の一つです。 AI の能力と無限の可能性は、多くの興味深い会話や議論を生...

両者は負荷分散アルゴリズムを要約する

さまざまな負荷分散アルゴリズムが存在します。これらを研究する際には、まずこれらの方法の概念を理解する...

Deeplearning4j: JVM 向けのディープラーニングと ETL

[[410828]]この記事はWeChatの公開アカウント「Java Architecture M...