家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?

最近、マシンハートは「逃亡王子」の一団を受け入れている。

これらの王子たちは異なる王国から来ていますが、彼らの衣装とメイクはすべて同じ会社である Kuaishou のものです。

これはKuaishouの新しい「童話魔法」特殊効果です。王子様気分だけでなく、お姫様気分も味わえます。あらゆる分野の有名人が、自分だけのプリンセス特殊効果画像を共有しています。

ヤン・ミ

ディルラバ・ディルムラト

ルー・イーシャオ

「フェアリーテイルマジック」は、生成アルゴリズムに基づいたビデオ特殊効果技術で、ユーザーは携帯電話でリアルタイムに自分が王女や王子様に変身する魔法の効果をプレビューできます。生成された画像は、おとぎ話のようなスタイルが強いだけでなく、ユーザー自身の顔の特徴も保持し、ユーザーに斬新な撮影体験を提供します。

現在、この「おとぎ話の魔法」セットには、氷の王女、ファンタジー城、おとぎ話の王女、おとぎ話の王子など、いくつかのスタイルの変身効果があります。

それだけでなく、ユーザーは自分の好みに応じて変身したキャラクターの特殊効果をさらに洗練させたり、さまざまなスタイルのメイク、ボディビューティー、フィルター、カバーテキストなどを追加したり、サウンドトラックを変更したり、独自の吹き替えを行ったり、ミニオン、ロボット、ロリ、おじさんなどのさまざまなスタイルに変身したりすることもできます。

「童話の魔法」の背後にある快手ブラックテクノロジー

実在の人物が数秒で漫画に変身するのはもはや珍しいことではありません。これまで、韓国のゲーム会社NCSOFTが開発した教師なし画像変換アルゴリズムU-GAT-ITは、学習可能なILN層と注意機構を導入することで、顔画像を日本のアニメの2次元画像に変換することに成功し、業界で大きな注目を集めました。

しかし、日本の漫画と童話のスタイルには依然として大きな違いがあります。童話風の画像変換を完了するには、生成された画像がユーザーの本来の顔の特徴を保持するだけでなく、アニメーション化された3Dポートレートのスタイルも持たなければなりません。同時に、ターゲットスタイルデータの多様性が不十分であるという問題もあり、U-GAT-ITは要件を満たすことができません。

そして、かつて有名だったToonifyだけでは十分ではないようです。 Toonify は実在の人物からアニメ映画のキャラクターへの変換を完了できますが、この方法では微調整された StyleGAN モデルから低解像度のレイヤーを直接抽出し、元の StyleGAN の高解像度のレイヤーのみを保持するため、変換された画像は元の顔に比べて変形し、元の顔の顔の特徴を完全に保持することはできません。また、この方法で生成された顔画像の中には、色調が変化するなどの問題があり、リアルタイムで処理できないものもあり、工業製品の発売要件を満たすことができません。

これらの課題に対処するため、快手YテックチームのAIエンジニアは、自社開発のKStyleGAN構造を採用し、顔の構造を表現し、3D空間でスタイルマッピングを行い、ニューラルネットワークレンダリングを使用して結果画像のテクスチャを細かく制御することで、従来の2D表現に基づくStyleGAN方式の欠点を効果的に克服し、モバイルデバイス上でリアルタイムの特殊効果を実現しました。

モデル構造に関しては、半自動ネットワークアーキテクチャ検索 (NAS) を使用して、モバイル側とサーバー側のさまざまなコンピューティングハードウェアに効率的なネットワーク構造を取得し、これに基づいて多くの革新を行っています。

一方、Kuaishou はピクセルレベルのアテンション メカニズムであるSTA モジュール(スタイル転送アテンション モジュール) を設計し、浅い特徴と深い特徴を融合する方法を改善しました。一般的な特徴融合方法には、浅い特徴と深い特徴の直接追加、連結、そして複数の畳み込み演算が含まれます。スタイル転送タスクでは、元の画像とターゲット画像の間に大きな違いがあるため、これらの一般的な融合方法では、元の画像情報の損失、生成品質の低下、スタイル感覚の低下などの問題が発生することがよくあります。 STA モジュールは、少量の計算と注意を使用して、ピクセル レベルで浅い特徴と深い特徴の融合プロセスをガイドし、スタイルを維持しながら元の画像の詳細を保持し、生成された画像のテクスチャを改善します。

一方、Kuaishou は、従来の Resnet ブロック構造に代わる、マルチブランチ、マルチデプスの FS ブロック (機能拡張モジュール)を構築します。この改善により、計算量を減らしながらフィーチャの詳細を強化し、全体的な変形に適応する能力が向上し、より優れた生成効果を実現できます。

モデルのトレーニングに関しては、Kuaishou はリアルタイムのスタイル設定タスクにおけるさまざまな効果の問題に的を絞った調整を行いました。

ハイブリッドトレーニングを通じて、スタイル機能の学習を強化し、最終モデルによって生成されるスタイル感覚を高めることができます。

モデルピラミッド内の異なる解像度の機能に対してマルチタスクおよびマルチスケールの監視を設計し、モデルの収束を加速し、生成の品質と堅牢性を向上させます。

事前トレーニング機能は敵対的トレーニング段階で導入され、識別器の詳細なテクスチャを判断する能力を向上させ、識別器のトレーニング プロセスを安定させ、最終的にモデルの詳細なテクスチャを生成する能力を強化します。

特殊効果は素晴らしいですが、すべての携帯電話モデルに適応させるにはどうすればよいのでしょうか?

特殊効果は簡単に使用できますが、携帯電話のモデルや構成が多岐にわたるため、デバイスの計算能力とモデル効果を最適に組み合わせて、最高のユーザー エクスペリエンスを提供するにはどうすればよいでしょうか。

Kuaishou は初めて詳細なコンピューティング能力の分類を実施しました。

現在のモバイル ハードウェアは多種多様で、断片化が激しいため、コンピューティング能力のグレーディングは水平方向と垂直方向の課題に直面しています。水平的課題:機器は、CPU、GPU、DSP、NPU に大別されます。各タイプの計算能力は異なります。一般的に言えば、計算能力レベルは NPU ≥ GPU ≥ DSP ≥ CPU ですが、実際の状況では、各レベルの計算能力が重複したり、逆転したりします。垂直的な課題: CPU を例にとると、メーカーには Apple、Qualcomm、Huawei、MTK などがあります。CPU のパフォーマンスはメーカーやモデルによって大きく異なります。Adreno や Mali シリーズなどの GPU でも同様の状況が見られます。

断片化されたデバイスを水平および垂直に分散させることで、複雑なコンピューティングパワーマトリックスが形成されます。Kuaishouが独自に開発したディープラーニング推論エンジンYCNNは、非常に最適化されたバックエンドコードと組み合わせられ、複数のモデルで理論と実践の両面で徹底的にテストされ、最終的にKuaishouのユーザーベースに基づいて詳細なグレーディングプランを設計しました。

このコンピューティング パワーのグレーディング戦略に従って、Kuaishou はモデル構造とコンピューティング パワーを調整し、異なるコンピューティング パワーを持つモデルを設計しました。たとえば、CPU 向けには、より優れた効果を持つ中程度の計算モデルが設計されていますが、NPU、GPU、DSP などの高計算能力に適したデバイスでは、より大きな計算強度とより優れた効果を持つモデルを実行できます。

また、実際のアプリケーションでは、モデルが複数あるとリソースパッケージが大きくなりすぎたり、読み込みが遅くなったりするなどの問題が発生します。このため、Kuaishou ではモデルサーバーに階層的な分散メカニズムを導入しました。デバイスは端末のハードウェア情報に従って分類、配布、ロードされ、デバイスのコンピューティング能力を最大限に活用しながら、すべての Kuaishou ユーザーに最高のエクスペリエンスを提供します。

YCNN の全体的なアーキテクチャ

Kuaishou は、さまざまなハードウェア向けに階層モデルを設計し、独自に開発したアルゴリズム圧縮モデルと YCNN エンジンを使用して、すべてのユーザーが「おとぎ話の魔法」を体験できるようにします。

すべての人に「変革」の舞台と可能性を与えることは、Kuaishou の技術革新の追求とユーザー志向の堅持を反映しています。

<<:  USPTO レポート: 人工知能を使わないと取り残される!

>>:  モデルは、人々の言葉をいくつか聞くことで、よりよく学習できるでしょうか?スタンフォード大学は学習を支援するために言語説明を使うことを提案している

ブログ    

推薦する

...

市場規模は300億に迫る! 2021年の農業用ドローンの発展の見通し

植物保護ドローンは、現在の農業分野において間違いなく新たな人気機器です。高効率、利便性、精度、環境保...

2000年以降の大学生が伝染病と戦うロボットを設計

「私たちのロボット戦車は防疫ロボットに転用できるだろうか?」疫病流行の期間中、山東科技大学の学生たち...

ボストンのロボットが話題になった後、別のヒューマノイドロボットがデビューした

10年以上前、テヘラン大学の研究者らは、Surenaと呼ばれる原始的なヒューマノイドロボットを発表し...

AIコンピューティングのローカライズのもう一つの可能​​性:CoCoPIEの探究と選択

[51CTO.comからのオリジナル記事]これは、少し前に設立され、シリーズAの資金調達を完了したば...

AIの偏見に対処するための重要なステップ

バイアスは機械学習において対処または軽減する必要がある重大な問題です。企業は将来のプレッシャーを軽減...

...

顔認証決済を使用する理由は何ですか?顔認証決済は安全ですか?

顔認証決済に顔認識を使用する理由は何ですか? [[439417]]外で何かを買いたいのに、財布を持っ...

最高裁:アプリは顔情報を収集・処理するためにユーザーの個別の同意が必要

最高人民法院研究室民事部の陳龍野部長は、一部のモバイルアプリケーション(APP)はしばらくの間、パッ...

海外の詐欺師はAIを使ってテイラー・スウィフトの声を合成し、「無料のキッチン用品」の広告を偽造して詐欺行為を行った。

ニューヨーク・タイムズ紙は現地時間1月10日、ここ数週間、フェイスブックなどのプラットフォームに、ア...

機械にあなたのことをもっと理解させるにはどうすればいいでしょうか? NLPについて学ぶ時が来ました

音声とテキストの両方における自然言語処理 (NLP) の改善は、主流のテクノロジーの進歩に役立ちます...

人工知能システムにおける不確実性の定量化

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟まとめ人工知能 (AI) ベースのシステムは大きな可能性を...

それは大したことだ! Google によれば、人類は 2029 年に不死を達成するそうです。病気も老化も痛みも完全に消え去ります! ?

この世で最も公平なものは、誕生、老い、病気、そして死だと思います。人生においてどれほど偉大な業績を成...

...