一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

[[419073]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今、最も皆さんに身近な AI 技術は何かと言えば、それは間違いなくAI 特殊効果でしょう。

手描きのアバターが欲しい場合、絵を描くスキルを習得する必要はありません。携帯電話を取り出してアプリを開き、写真を撮るだけです。AI が数秒で自動的にそれを行います。

△快手「手描き表紙」特殊効果

そして、それはもはや 1 枚の写真に限定されません。このマグルの「魔法」を使えば、短いビデオのすべてのフレームをスムーズにカバーできます。

さまざまなアートスタイル。AIにできないことはありません。

しかし、これらの特殊効果フィルターは数え切れないほどあり、しばしばオンラインで大騒ぎを引き起こしますが、モデルの誕生から実際に携帯電話に導入されるまでのストーリーを数語で簡単に説明することはできません。

特殊効果はどのようにして携帯電話に取り入れられるのでしょうか?

Kuaishouで人気の手描き特殊効果を例に、これについて詳しく話してみましょう。

まず、当然ながら、アルゴリズムレベルでの一連の操作となります。

ユーザーがビデオ/写真を撮影してから AI が「手描き作品」を出力するまでのプロセスは、AI の観点から見るとおおよそ次のようになります。

ISP は処理済みのビデオ/写真をアプリに送信します。AI は処理対象の画像を受信すると、各フレームを前処理してフォーマットとサイズを統一します。

次に、写真内の顔の検出と切り取りを開始し、カスタマイズされたスタイルの「アーティスト」ニューラル ネットワーク (U-Net など) を使用して処理できます。

このステップで生成された手描き効果が入力フレームとさらに統合されると、手描きの特殊効果が最初に完成します。

もちろん、正式な出力の前に、各フレームは全体的な画質を向上させるためにメイクアップと美容のステップを経る必要があります。

この時点で、一部の友人は、現在さまざまなオープンソース生成アルゴリズムが非常に成熟しているので、それらを直接携帯電話に移行するのはどれほど難しいのかと尋ねるかもしれません。

いいえ、いいえ。

言うまでもなく、手描き風の美学や芸術的効果を考慮しながら、ユーザーの顔の特徴や外見特性を最大限に保持するためには、全体的なスタイルやローカルの詳細に関して AI モデルをより厳密に調整する必要があります。Kuaishou のようなアプリの場合、安定した使いやすいモデルをトレーニングすることは、多くの場合、最初のステップにすぎません

実際、より大きな問題は携帯電話自体にあります。

モバイルデバイスであるため、携帯電話自体の計算能力には限界があります。つまり、AI の手描き機能が強力になるほど、またテクノロジーが複雑になるほど、携帯電話で遅延なくスムーズに動作させることが難しくなるということです。

しかし、私たちユーザーにとって、特殊効果をオンにした途端に携帯電話が詰まり、バッテリーが切れてしまったら、まったく楽しくありません。

さらに、手描きフィルターなどのアルゴリズムは、デフォルトで携帯電話の CPU 上で実行されます。 CPU は汎用コンピューティング ユニットであり、本質的に AI ワークロードを実行するための最適な選択肢ではありません。

[[419077]]

どうすれば解決できるでしょうか?一般的に言えば、3つのアプローチがあります。

最初のアプローチは、アルゴリズムの観点からモデルを圧縮することです。 Kuaishou を例にとると、AI フィルターはカスタマイズされたモデル圧縮アルゴリズムによってサポートされており、さまざまな境界条件、限られたコンピューティング リソースとメモリ リソースを考慮しながら、モデル計算の量を最小限に抑えることができます。

しかし、アルゴリズムがどれだけ最適化されても、ハードウェア レベルでの制限は回避できない問題のままです。

そこで、クラウドに移行するという2番目のアイデアがあります。多くのアプリプロバイダーは、モバイルデバイスの計算能力不足によって生じる課題に対処するために、複雑な AI 処理をクラウドで実行することを選択しています。

しかし、これにより新たな問題が発生しました。クラウドでのコンピューティングはネットワーク環境の影響を受け、さらなる遅延やその他の変化が生じ、オフラインのニーズを満たす方法がなくなるのです。

したがって、 3 番目のアプローチは、 SoC ハードウェア メーカー側から直接問題を解決することです。

最も一般的な Qualcomm Snapdragon モバイル プラットフォームを例にとると、これに搭載されている Qualcomm AI Engine は、ハードウェア側で AI コンピューティングを加速します。

Qualcomm の AI エンジンの違いは何ですか?

Qualcomm AI Engine は、実際には Snapdragon モバイル プラットフォームに組み込まれたソフトウェアおよびハードウェア AI ソリューションの完全なセットです。

ハードウェアに関しては、Qualcomm AI Engine は次のようなマルチコア異種コンピューティング ソリューションを使用します。

  • 六角形ベクトルプロセッサ
  • 副腎GPU
  • クライオCPU

したがって、CPU、GPU、ベクトルプロセッサをインテリジェントにスケジュールして AI 計算を実行することにより、Qualcomm AI エンジンはさまざまなアーキテクチャのプロセッサの利点を最大限に活用し、エネルギー効率を最大化しながら高い計算能力を実現できます。

ソフトウェアに関しては、Qualcomm AI Engine のソフトウェア ツールには、Snapdragon Neural Processing SDK、Android NN、Hexagon NN が含まれます。これらのソフトウェア ツールを使用すると、ビデオ プラットフォームなどのアルゴリズム開発者は、Qualcomm AI エンジンに迅速にアクセスし、AI アルゴリズムのパフォーマンスの限界を完全に探索できます。

実際、KuaishouとQualcommは、Snapdragon 765モバイルプラットフォームの発売当初から協力を開始していた。 Qualcomm Neural Processing SDK は、モバイル プラットフォーム上のアプリのパフォーマンス、電力消費、スケーラビリティ、互換性に関するソフトウェア サポートを提供し、CPU のワークロードを解放し、Hexagon プロセッサを通じて AI アクセラレーションを実現します。さらに、両者はモデルの量子化と圧縮でも協力し、AI処理の精度を確保しながらモデルのパフォーマンスとエネルギー効率を向上させました。

結果として得られた効果は、一連のデータに直接反映されています。手描きフィルターのフレーム レート (FPS) は56%増加し、消費電力は32%減少しました。

今年は、新世代のSnapdragon 778Gモバイルプラットフォームの発売により、両者の協力はさらに深まりました。コアは第6世代のQualcomm AIエンジンを中心に展開します。

Snapdragon 778G がサポートする第 6 世代 Qualcomm AI エンジンには、最大 12TOPS の計算能力を備えた Qualcomm Hexagon 770 プロセッサが含まれており、前世代のプラットフォームと比較してパフォーマンスが 2 倍になります。参考までに:Apple A14 は 11TOPS です。

さらに、Snapdragon 778G で使用されている新しい Qualcomm Spectra ISP は、1 秒あたり 20 億ピクセルの処理をサポートしており、Qualcomm AI エンジンが特殊効果アルゴリズムを実行するための追加サポートを提供できます。

快手YテックAIエンジニアリンググループ代表のビアン・ホンチャン氏もこの協力について次のように述べた。

Qualcomm Technologies との素晴らしいコラボレーションにより、Kuaishou は AI アルゴリズムのパフォーマンスの限界を突破することができました。当社は、Qualcomm との協力を継続し、Snapdragon ハイエンド チップの強力な異種コンピューティング機能を最大限に活用できることを嬉しく思います。ニューラル ネットワークのパフォーマンスを強化し、出力品質を改善することで、より魅力的なアプリケーションとより大きな価値をユーザーに提供できるようになります。 ”

「AIの巨人」クアルコム?

Qualcomm といえば、やはり「ゲームやグラフィックに優れた携帯電話用チップ工場」という印象が強いかもしれません。

しかし、手描きフィルターの事例から、Qualcomm がすでに大手 AI 企業であり、アプリ開発者が喜んで協力してくれる企業であることは容易にわかります。

実際、クアルコムは、AI がまだ初期段階にあった頃から、AI を技術開発の焦点として位置づけていました。

2007年、クアルコムの子会社であるクアルコムリサーチは初の人工知能プロジェクトを立ち上げ、2018年に正式にクアルコムAIリサーチを設立しました。

2015年には、第1世代のQualcomm AIエンジンを搭載したSnapdragon 820がリリースされ、より強力なAI処理機能をサポートするQualcomm Hexagonベクトル拡張コアが正式に導入されました。

6年間の毎年の改良を経て、今年のSnapdragon 888 Plusは、第6世代のQualcomm AIエンジンも搭載し、最大32 TOPSの強力なコンピューティングパワーを実現しました。

さらに、Qualcomm の AI 機能は、私たちが思っている以上に私たちの日常生活に深く組み込まれている可能性があります。

アプリ内の AI 特殊効果アルゴリズムほど顕著ではありませんが、Qualcomm AI エンジンは、携帯電話とモバイル アプリケーションのインテリジェンスの向上に多少なりとも貢献しています。

最近、新たな例があります:

Snapdragon 888シリーズを搭載したHonor Magic 3は、シーン要素の認識、インテリジェントなマッチングと推奨を通じてAIトーン推奨機能を実現し、ユーザーは携帯電話で大ヒット映画の質感を持つ動画を撮影できます。

Snapdragon 888 Plusも搭載されているXiaomi Mi MIX 4には、AI画像強化アルゴリズムでサポートされている素晴らしい画面下カメラがあります。また、パノラマAI翻訳の新しい遊び方があり、同時通訳、画面翻訳、写真翻訳、AI字幕などの実用的なAI機能をもたらし、ユーザーはビデオの視聴やオンライン会議など、多くのシナリオでAI「翻訳マスター」のサービスを体験できます...

ブラックテクノロジーはどれくらい複雑ですか?これはほとんどのユーザーが考慮する必要のあることではありません。

しかし、クアルコムとそのパートナーとの衝突により、より多くのブラックテクノロジーが生活の標準になりつつある。

持ってくれば完成です、どう思いますか(犬の頭)?

<<:  スマートシティにおける低リスクの AI 応用分野 3 つ

>>:  アルゴリズムを使って従業員を解雇する人工知能は、労働者の新たなリーダーになったのだろうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Cacti パーセンタイル監視アルゴリズム

Cactiパーセンタイル監視アルゴリズムcacti のテンプレート自体はハードディスクの使用サイズし...

ResNetは3Dモデルにも使える。清華大学の「Jitu」チームが新たな研究を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

米メディア:人工知能の発展には5つの大きなトレンドが予想される

3月15日、アメリカの隔週刊ウェブサイト「フォーブス」は「2021年の人工知能:期待できる(または期...

混合交通流におけるコネクテッド自動運転車の衝突回避方法: モデルベースの強化学習アプローチ

[[429494]] 2021年10月11日にarXivにアップロードされた論文「混合交通流における...

NVIDIA は、わずか 5 行のコードで画像を 3D モデルに変換する 3D ディープラーニング ツール Kaolin をリリースしました。

近年、3D コンピューター ビジョンと人工知能はともに急速に進歩していますが、両者の効果的な組み合わ...

2022年にJAXを使うべきでしょうか? GitHubには16,000個のスターがあるが、この若いツールは完璧ではない

2018 年後半の発売以来、JAX の人気は着実に高まっています。 2020年、DeepMindは研...

素晴らしいディープラーニング コース 8 つ (評価付き)

エンジニアリング分野では、機械学習の応用は想像されているほど一般的ではありませんが、ディープラーニン...

BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニ...

...

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...

2019年のAI業界の再編:疑似AI企業は淘汰される

起業プロジェクトの数、資金調達額、資金調達のスピードなど、AIは近年間違いなく注目の産業です。しかし...

北京冬季オリンピックと人工知能が出会うと、どんな火花が散るのでしょうか?

2008年、北京オリンピックのテクノロジーと壮大な雰囲気は世界に深い印象を残しました。 2022年...

デジタルツインの成功事例4つ

[[419123]] [51CTO.com クイック翻訳]人間は物理的な世界をよりよく理解するために...