一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

[[419073]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今、最も皆さんに身近な AI 技術は何かと言えば、それは間違いなくAI 特殊効果でしょう。

手描きのアバターが欲しい場合、絵を描くスキルを習得する必要はありません。携帯電話を取り出してアプリを開き、写真を撮るだけです。AI が数秒で自動的にそれを行います。

△快手「手描き表紙」特殊効果

そして、それはもはや 1 枚の写真に限定されません。このマグルの「魔法」を使えば、短いビデオのすべてのフレームをスムーズにカバーできます。

さまざまなアートスタイル。AIにできないことはありません。

しかし、これらの特殊効果フィルターは数え切れないほどあり、しばしばオンラインで大騒ぎを引き起こしますが、モデルの誕生から実際に携帯電話に導入されるまでのストーリーを数語で簡単に説明することはできません。

特殊効果はどのようにして携帯電話に取り入れられるのでしょうか?

Kuaishouで人気の手描き特殊効果を例に、これについて詳しく話してみましょう。

まず、当然ながら、アルゴリズムレベルでの一連の操作となります。

ユーザーがビデオ/写真を撮影してから AI が「手描き作品」を出力するまでのプロセスは、AI の観点から見るとおおよそ次のようになります。

ISP は処理済みのビデオ/写真をアプリに送信します。AI は処理対象の画像を受信すると、各フレームを前処理してフォーマットとサイズを統一します。

次に、写真内の顔の検出と切り取りを開始し、カスタマイズされたスタイルの「アーティスト」ニューラル ネットワーク (U-Net など) を使用して処理できます。

このステップで生成された手描き効果が入力フレームとさらに統合されると、手描きの特殊効果が最初に完成します。

もちろん、正式な出力の前に、各フレームは全体的な画質を向上させるためにメイクアップと美容のステップを経る必要があります。

この時点で、一部の友人は、現在さまざまなオープンソース生成アルゴリズムが非常に成熟しているので、それらを直接携帯電話に移行するのはどれほど難しいのかと尋ねるかもしれません。

いいえ、いいえ。

言うまでもなく、手描き風の美学や芸術的効果を考慮しながら、ユーザーの顔の特徴や外見特性を最大限に保持するためには、全体的なスタイルやローカルの詳細に関して AI モデルをより厳密に調整する必要があります。Kuaishou のようなアプリの場合、安定した使いやすいモデルをトレーニングすることは、多くの場合、最初のステップにすぎません

実際、より大きな問題は携帯電話自体にあります。

モバイルデバイスであるため、携帯電話自体の計算能力には限界があります。つまり、AI の手描き機能が強力になるほど、またテクノロジーが複雑になるほど、携帯電話で遅延なくスムーズに動作させることが難しくなるということです。

しかし、私たちユーザーにとって、特殊効果をオンにした途端に携帯電話が詰まり、バッテリーが切れてしまったら、まったく楽しくありません。

さらに、手描きフィルターなどのアルゴリズムは、デフォルトで携帯電話の CPU 上で実行されます。 CPU は汎用コンピューティング ユニットであり、本質的に AI ワークロードを実行するための最適な選択肢ではありません。

[[419077]]

どうすれば解決できるでしょうか?一般的に言えば、3つのアプローチがあります。

最初のアプローチは、アルゴリズムの観点からモデルを圧縮することです。 Kuaishou を例にとると、AI フィルターはカスタマイズされたモデル圧縮アルゴリズムによってサポートされており、さまざまな境界条件、限られたコンピューティング リソースとメモリ リソースを考慮しながら、モデル計算の量を最小限に抑えることができます。

しかし、アルゴリズムがどれだけ最適化されても、ハードウェア レベルでの制限は回避できない問題のままです。

そこで、クラウドに移行するという2番目のアイデアがあります。多くのアプリプロバイダーは、モバイルデバイスの計算能力不足によって生じる課題に対処するために、複雑な AI 処理をクラウドで実行することを選択しています。

しかし、これにより新たな問題が発生しました。クラウドでのコンピューティングはネットワーク環境の影響を受け、さらなる遅延やその他の変化が生じ、オフラインのニーズを満たす方法がなくなるのです。

したがって、 3 番目のアプローチは、 SoC ハードウェア メーカー側から直接問題を解決することです。

最も一般的な Qualcomm Snapdragon モバイル プラットフォームを例にとると、これに搭載されている Qualcomm AI Engine は、ハードウェア側で AI コンピューティングを加速します。

Qualcomm の AI エンジンの違いは何ですか?

Qualcomm AI Engine は、実際には Snapdragon モバイル プラットフォームに組み込まれたソフトウェアおよびハードウェア AI ソリューションの完全なセットです。

ハードウェアに関しては、Qualcomm AI Engine は次のようなマルチコア異種コンピューティング ソリューションを使用します。

  • 六角形ベクトルプロセッサ
  • 副腎GPU
  • クライオCPU

したがって、CPU、GPU、ベクトルプロセッサをインテリジェントにスケジュールして AI 計算を実行することにより、Qualcomm AI エンジンはさまざまなアーキテクチャのプロセッサの利点を最大限に活用し、エネルギー効率を最大化しながら高い計算能力を実現できます。

ソフトウェアに関しては、Qualcomm AI Engine のソフトウェア ツールには、Snapdragon Neural Processing SDK、Android NN、Hexagon NN が含まれます。これらのソフトウェア ツールを使用すると、ビデオ プラットフォームなどのアルゴリズム開発者は、Qualcomm AI エンジンに迅速にアクセスし、AI アルゴリズムのパフォーマンスの限界を完全に探索できます。

実際、KuaishouとQualcommは、Snapdragon 765モバイルプラットフォームの発売当初から協力を開始していた。 Qualcomm Neural Processing SDK は、モバイル プラットフォーム上のアプリのパフォーマンス、電力消費、スケーラビリティ、互換性に関するソフトウェア サポートを提供し、CPU のワークロードを解放し、Hexagon プロセッサを通じて AI アクセラレーションを実現します。さらに、両者はモデルの量子化と圧縮でも協力し、AI処理の精度を確保しながらモデルのパフォーマンスとエネルギー効率を向上させました。

結果として得られた効果は、一連のデータに直接反映されています。手描きフィルターのフレーム レート (FPS) は56%増加し、消費電力は32%減少しました。

今年は、新世代のSnapdragon 778Gモバイルプラットフォームの発売により、両者の協力はさらに深まりました。コアは第6世代のQualcomm AIエンジンを中心に展開します。

Snapdragon 778G がサポートする第 6 世代 Qualcomm AI エンジンには、最大 12TOPS の計算能力を備えた Qualcomm Hexagon 770 プロセッサが含まれており、前世代のプラットフォームと比較してパフォーマンスが 2 倍になります。参考までに:Apple A14 は 11TOPS です。

さらに、Snapdragon 778G で使用されている新しい Qualcomm Spectra ISP は、1 秒あたり 20 億ピクセルの処理をサポートしており、Qualcomm AI エンジンが特殊効果アルゴリズムを実行するための追加サポートを提供できます。

快手YテックAIエンジニアリンググループ代表のビアン・ホンチャン氏もこの協力について次のように述べた。

Qualcomm Technologies との素晴らしいコラボレーションにより、Kuaishou は AI アルゴリズムのパフォーマンスの限界を突破することができました。当社は、Qualcomm との協力を継続し、Snapdragon ハイエンド チップの強力な異種コンピューティング機能を最大限に活用できることを嬉しく思います。ニューラル ネットワークのパフォーマンスを強化し、出力品質を改善することで、より魅力的なアプリケーションとより大きな価値をユーザーに提供できるようになります。 ”

「AIの巨人」クアルコム?

Qualcomm といえば、やはり「ゲームやグラフィックに優れた携帯電話用チップ工場」という印象が強いかもしれません。

しかし、手描きフィルターの事例から、Qualcomm がすでに大手 AI 企業であり、アプリ開発者が喜んで協力してくれる企業であることは容易にわかります。

実際、クアルコムは、AI がまだ初期段階にあった頃から、AI を技術開発の焦点として位置づけていました。

2007年、クアルコムの子会社であるクアルコムリサーチは初の人工知能プロジェクトを立ち上げ、2018年に正式にクアルコムAIリサーチを設立しました。

2015年には、第1世代のQualcomm AIエンジンを搭載したSnapdragon 820がリリースされ、より強力なAI処理機能をサポートするQualcomm Hexagonベクトル拡張コアが正式に導入されました。

6年間の毎年の改良を経て、今年のSnapdragon 888 Plusは、第6世代のQualcomm AIエンジンも搭載し、最大32 TOPSの強力なコンピューティングパワーを実現しました。

さらに、Qualcomm の AI 機能は、私たちが思っている以上に私たちの日常生活に深く組み込まれている可能性があります。

アプリ内の AI 特殊効果アルゴリズムほど顕著ではありませんが、Qualcomm AI エンジンは、携帯電話とモバイル アプリケーションのインテリジェンスの向上に多少なりとも貢献しています。

最近、新たな例があります:

Snapdragon 888シリーズを搭載したHonor Magic 3は、シーン要素の認識、インテリジェントなマッチングと推奨を通じてAIトーン推奨機能を実現し、ユーザーは携帯電話で大ヒット映画の質感を持つ動画を撮影できます。

Snapdragon 888 Plusも搭載されているXiaomi Mi MIX 4には、AI画像強化アルゴリズムでサポートされている素晴らしい画面下カメラがあります。また、パノラマAI翻訳の新しい遊び方があり、同時通訳、画面翻訳、写真翻訳、AI字幕などの実用的なAI機能をもたらし、ユーザーはビデオの視聴やオンライン会議など、多くのシナリオでAI「翻訳マスター」のサービスを体験できます...

ブラックテクノロジーはどれくらい複雑ですか?これはほとんどのユーザーが考慮する必要のあることではありません。

しかし、クアルコムとそのパートナーとの衝突により、より多くのブラックテクノロジーが生活の標準になりつつある。

持ってくれば完成です、どう思いますか(犬の頭)?

<<:  スマートシティにおける低リスクの AI 応用分野 3 つ

>>:  アルゴリズムを使って従業員を解雇する人工知能は、労働者の新たなリーダーになったのだろうか?

ブログ    
ブログ    
ブログ    

推薦する

施設管理の未来: 2024 年までの業界動向

2024 年に向けて、業界では建物の管理と保守の方法に影響を与えるいくつかの刺激的な変化が起こるでし...

生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

[[416911]]一般的に、ビデオ圧縮の目的は、時間的および空間的な冗長性を活用して視覚コンテンツ...

...

...

自動運転シナリオのビデオから生成された初のマルチビュー世界モデル | DrivingDiffusion: BEV データとシミュレーションの新しいアイデア

著者の個人的な考え自動運転の分野では、BEV ベースのサブタスク/エンドツーエンド ソリューションの...

スイス再保険:AI を活用して保険対応プロセスを効率化

自然災害が増加する中、スイス・リーは人工知能を活用して、顧客が保険金請求をより正確に予測し、手続きを...

企業の4分の1以上が従業員による生成AIの使用を禁止している

シスコの 2024 年データ プライバシー ベンチマーク調査によると、プライバシーとデータ セキュリ...

AI倫理の夜明け

平等な代表から AI 法制へ AI の倫理基準を改善するには、テクノロジーにおける平等な代表と、EU...

...

上海交通大学が「人間行動理解エンジン」を発表:AIが超大作映画のあらゆる行動をフレームごとに理解

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

1時間から3.5分まで、Metaの新しいアルゴリズムは携帯電話で3D顔データを収集できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Google の医療モデルが Nature に掲載、Med-PaLM が重要な秘密を明らかに! AI医師は人間と同等の能力を発揮する

5月のI/Oカンファレンスでは、Med-PaLM 2が大幅にアップグレードされ、エキスパートレベルに...

AISpeechの趙恒毅氏:国内のスマート音声産業は幅広い発展の見通しがある

[51CTO.comからのオリジナル記事] 人工知能の急速な発展に伴い、音声インタラクションは人工知...