2018年7月、Kuaishouはかわいい魔法の絵文字を発表し、iPhone XのAnimojiゲームプレイを初めてすべてのモデルに普及させました。 2018年12月、Kuaishouはさらに「かわいいKmoji」マジック表情を発表しました。この機能により、ユーザーはカメラを使用して自分専用の顔AR仮想イメージを生成することができます。同時に、ユーザーの表情を捉えることができ、まばたき、口を開ける、眉を上げる、舌を出すなどの微妙な動きを正確に再現できます。ショートビデオプラットフォームでユーザーがAR仮想画像をカスタマイズして撮影できるようになったのは今回が初めてです。 ユーザーがかわいいKmojiを使って作った手作りのGeng画像 「Kmoji」が生成する仮想画像表現は鮮やかでリアルであり、見た目や感触はAppleが推進するmemoji効果とほぼ同じです。しかし、「Kmoji」ではiPhoneX以降のAppleデバイスやシステムは必要なく、どのスマートフォンでもスムーズに使用できます。 一方、Appleデバイス上のMemojiの複雑な顔をつまむ手順と比較すると、「Kmoji」ははるかに簡単です。最新バージョンのKuaishouアプリの撮影ページを開き、魔法の表情「かわいい顔」で「専用のかわいい顔を作成」を選択して撮影すると、システムはワンクリックでユーザーの顔の特徴に基づいてユーザーに似たAR画像を自動的に生成します。 ユーザーは、自分の好みに応じて仮想画像の顔の特徴、肌、髪型、装飾などを自由に調整し、ユニークなAR画像を作成することもできます。「Kmoji」の顔つまみオプションは160を超える素材オプションを提供し、ユーザーにさらにパーソナライズされた選択肢を提供します。 「Kmoji」の背後には、Kuaishou 技術チームによる多くの研究開発作業があります。まず、「Kmoji」は顔のキーポイントや画像特徴抽出などのAI技術を基盤としており、iPhoneXなどのデバイスがサポートする3D構造化光情報を必要としません。2D視覚情報のみでユーザーの髪型、顔の形、顔の特徴、肌の色、口紅の色、ひげなどの顔の属性情報を認識し、ユーザー固有の3D AR画像を構築し、その3D画像を操作して表情パラメータを通じてさまざまな微妙な表情を作ります。例えば、笑う、目を閉じる、口を開ける、舌を出すなど、50以上の表情を作ります。これはマルチモーダル技術の成功した応用です。 さらに、「Kmoji Cute Face」は物理ベースのリアルなレンダリングアルゴリズムを採用しており、金属や革などのモデル素材をよりリアルで質感のあるものにし、モデルの表現力を大幅に向上させています。同時に、Kuaishou技術チームはアルゴリズムの最適化を通じて「Kmoji」の実行に占有されるCPUとGPUリソースを大幅に削減し、動作効率を向上させ、一般的な千元クラスの携帯電話でもスムーズに動作できるようになりました。 Kmojiの背後にある人工知能技術の詳細な説明3D解析と2D情報の融合による顔属性と表情認識 パーソナライズされたかわいい顔システムの実装の基礎は、顔の属性と表情の認識であり、3D 分析と 2D 情報との融合が必要です。 画像情報については、Kuaishouの技術チームが3D再構築技術を使用して3D構造を復元し、2D情報と有機的に統合します。これらの再構築、分析、融合に基づいて、顔の属性を分析し、さまざまな次元から顔の特徴を分析し、パーソナライズされた仮想画像を生成します。同時に、生成された仮想画像を駆動するために、リアルタイムで表情分析が行われます。 これに加えて、快手技術チームは髪の毛や肩など人体の関連分析も行い、現実のシーンとの融合の基盤を築き、自社開発の携帯電話のリアルなレンダリングエンジンを通じて、アクティビティのパーソナライズされたかわいい顔をリアルタイムでユーザーに提示します。 3D顔再構成 3D 顔再構築はシステム全体の中で非常に重要な部分です。 Kuaishouの技術チームは、さまざまな年齢層、人種、顔の形など、また各個人に対応するさまざまな表情を含む数万の顔の3Dデータを収集し、ほぼすべての顔空間と表情空間をカバーする3D顔データベースを確立しました。このデータベースを通じて、あらゆる人間の顔のあらゆる表情をモデル化することができます。快手技術チームは、100以上のキーポイントを使用して顔の表情の変化を描写し、さまざまな表情を持つ各個人の顔を3次元的に再構築する顔キーポイント技術を開発しました。一方、効率的なニューラルネットワーク技術により、低性能の携帯電話でも 3D 顔再構築をリアルタイムで実行できます。 顔の属性の認識 顔の属性認識に関しては、Kuaishouの技術チームはニューラルネットワークを使用して、性別、年齢、肌の色、顔の形、目、口の情報など、きめ細かい顔の属性を認識します。類似製品と比較して、膨大な顔データとマルチタスク協調学習を活用して微妙な顔の特徴を捉えながら、自動顔カスタマイズを実現できます。細かい属性を区別するのは非常に難しく、人間の目でも区別が難しい問題もあります。このため、Kuaishouの技術チームは、分類/回帰/セグメンテーションなどの技術を統合して、自動顔ピンチの精度を向上させるために、多くの洗練された設計を行ってきました。 表情認識 表情は複雑かつ微妙な情報であり、人は表情に非常に敏感です。画像情報のみに頼って、微妙な/誇張された/柔軟な/安定した表情信号を機械が認識できるようにすることは困難です。 Kuaishou の技術チームは、2D RGB 視覚情報を使用してモデル化して問題を解決し、顔のキーポイントとリアルタイムで再構築された 3D モデルを取得し、顔の表情を解決し、仮想画像を駆動してさまざまなリアルなアクションを実行します。同時に、ディープニューラルネットワークモデルの量子化により、圧縮と加速を通じて携帯電話のパフォーマンス問題が解決され、そのソリューションはあらゆるモデルに適応できます。 高品質なレンダリング かわいい顔効果の最終的な表現はレンダリングと切り離せないものです。高品質のレンダリングを得るために、Kuaishou技術チームは先進的なPp技術を採用し、モバイル端末でPCゲームレベルの画質を実現しました。同時に、AI技術の深い蓄積に依存して、かわいい顔は外部環境とユーザーの画像特性に応じてユーザーに最も適した素材をインテリジェントに選択し、最高のレンダリング効果を実現します。 よりリアルな体験を実現するために、Kuaishou 技術チームは物理エンジンを導入し、髪の毛や布などの柔らかい物体の動きの効果を実現しました。ユーザーに最高のエクスペリエンスを提供するために、レンダリング エンジンはさまざまなモデルに応じて適切なレンダリング品質を選択します。 モバイル予測モデルの最適化 AIモデルをモバイル端末でスムーズに実行できるようにするために、Kuaishou技術チームは3つの主要な最適化を行いました。 1 つ目は、画像前処理段階です。さまざまな画像前処理操作を統合し、前処理に関係する画像メモリを均一に割り当ててリサイクルすることで、メモリ リソースの消費を削減し、割り当てと使用の効率を向上させます。 同時に、NEON アクセラレーションと Apple の組み込みアクセラレーションをフル活用し、ランタイム ライブラリ全体が占めるスペースはわずか 2M です。 最後に、予測精度を確保しながら、AIモデルに対してローカルINT8量子化を行いました。最適化後、実行速度は1倍以上向上し、AI予測モデルが占めるスペースは元のサイズの4分の1近くに圧縮されました。 孟面が使用するシステムに基づいて、Kuaishou技術チームは仮想画像に加えて、ポートレート用の3D照明、世界にもう一人のあなた、 ポートレート 3D ライティング ポートレート 3D ライティングは主にリアルタイム 3D 顔再構築技術を活用します。この技術では、顔のパラメトリック事前モデルを使用して、入力画像に基づいて顔のジオメトリ情報を自動的に一致させ、3D 顔モデル パラメータを取得し、3D 顔メッシュ モデルを取得します。異なるシーンに応じて異なる光源を設定し、リアルタイムレンダリング技術を使用して仮想顔をレンダリングして、顔の光と影のマップを取得できます。同時に、入力されたポートレートをセグメント化して前景セグメンテーションマスクを取得し、元の画像に基づいてその他のマスク情報も取得できます。これらのマスクは、シーンの要件に応じて特定の方法で元の画像に異なるレイヤーとして重ね合わされ、照明結果を取得します。 この世にもう一人のあなた 「世界にもう一人のあなた」は、システム全体のもう一つのオフラインアプリケーションです。体験者は画面に歩いて行き、撮影ボタンをクリックします。3秒間のカウントダウンの後、左画面のカメラが参加者の顔画像を撮影し、右画面はビデオライブラリにあるKuaishouユーザーの数十億の公開ビデオを検索してマッチングします。マッチング結果は100ミリ秒以内に得られ、Kuaishou端末に似た外観のユーザービデオが表示され、再生されます。 コア技術:
他の一般的な画像検索プラットフォームと比較して、Kuaishou には次の利点があります。
|
モノのインターネットとインダストリー 4.0 の登場以来、マシン ビジョン、人工知能、機械学習、ディ...
海外メディアの報道によると、米国のジョージ・メイソン大学は、無人車両による食品配達サービスを開始し、...
トラック輸送業界とそれを支える物流は、国内外のサプライチェーンの成功の基盤となっています。こうしたサ...
私たちが目を覚ましたとき、機械学習コミュニティは大騒ぎしていました。最新の研究により、GPT-3 に...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
NRF 2024: Retail’s Big Show に先立ち、マイクロソフト社は、ショッピング体...
新たなスタープロジェクトが誕生! AI 開発者コンパニオンである GPT Pilot を使用すると、...
TSMCの生産能力不足により、Nvidiaはチップ製造をIntelに頼らざるを得なくなったのか? T...
調査データによると、AI 対応テクノロジーを導入して活用する準備が完全に整っている企業は世界中でわず...
8月10日、サイバーセキュリティ企業SlashNextが発見した一連の証拠から、違法目的で開発された...
この時代に本物の鉄丼なんて存在しない!最近、広東省の高速道路で非接触型決済が導入されたというニュース...
[[406604]]コロナウイルスの流行を受けて、企業はサプライチェーンの複雑性と労働力不足の課題を...
ユン・ジャオとノアが執筆制作:51CTO テクノロジースタック(WeChat ID:blog) 2月...