一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

[[419073]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今、最も皆さんに身近な AI 技術は何かと言えば、それは間違いなくAI 特殊効果でしょう。

手描きのアバターが欲しい場合、絵を描くスキルを習得する必要はありません。携帯電話を取り出してアプリを開き、写真を撮るだけです。AI が数秒で自動的にそれを行います。

△快手「手描き表紙」特殊効果

そして、それはもはや 1 枚の写真に限定されません。このマグルの「魔法」を使えば、短いビデオのすべてのフレームをスムーズにカバーできます。

さまざまなアートスタイル。AIにできないことはありません。

しかし、これらの特殊効果フィルターは数え切れないほどあり、しばしばオンラインで大騒ぎを引き起こしますが、モデルの誕生から実際に携帯電話に導入されるまでのストーリーを数語で簡単に説明することはできません。

特殊効果はどのようにして携帯電話に取り入れられるのでしょうか?

Kuaishouで人気の手描き特殊効果を例に、これについて詳しく話してみましょう。

まず、当然ながら、アルゴリズムレベルでの一連の操作となります。

ユーザーがビデオ/写真を撮影してから AI が「手描き作品」を出力するまでのプロセスは、AI の観点から見るとおおよそ次のようになります。

ISP は処理済みのビデオ/写真をアプリに送信します。AI は処理対象の画像を受信すると、各フレームを前処理してフォーマットとサイズを統一します。

次に、写真内の顔の検出と切り取りを開始し、カスタマイズされたスタイルの「アーティスト」ニューラル ネットワーク (U-Net など) を使用して処理できます。

このステップで生成された手描き効果が入力フレームとさらに統合されると、手描きの特殊効果が最初に完成します。

もちろん、正式な出力の前に、各フレームは全体的な画質を向上させるためにメイクアップと美容のステップを経る必要があります。

この時点で、一部の友人は、現在さまざまなオープンソース生成アルゴリズムが非常に成熟しているので、それらを直接携帯電話に移行するのはどれほど難しいのかと尋ねるかもしれません。

いいえ、いいえ。

言うまでもなく、手描き風の美学や芸術的効果を考慮しながら、ユーザーの顔の特徴や外見特性を最大限に保持するためには、全体的なスタイルやローカルの詳細に関して AI モデルをより厳密に調整する必要があります。Kuaishou のようなアプリの場合、安定した使いやすいモデルをトレーニングすることは、多くの場合、最初のステップにすぎません

実際、より大きな問題は携帯電話自体にあります。

モバイルデバイスであるため、携帯電話自体の計算能力には限界があります。つまり、AI の手描き機能が強力になるほど、またテクノロジーが複雑になるほど、携帯電話で遅延なくスムーズに動作させることが難しくなるということです。

しかし、私たちユーザーにとって、特殊効果をオンにした途端に携帯電話が詰まり、バッテリーが切れてしまったら、まったく楽しくありません。

さらに、手描きフィルターなどのアルゴリズムは、デフォルトで携帯電話の CPU 上で実行されます。 CPU は汎用コンピューティング ユニットであり、本質的に AI ワークロードを実行するための最適な選択肢ではありません。

[[419077]]

どうすれば解決できるでしょうか?一般的に言えば、3つのアプローチがあります。

最初のアプローチは、アルゴリズムの観点からモデルを圧縮することです。 Kuaishou を例にとると、AI フィルターはカスタマイズされたモデル圧縮アルゴリズムによってサポートされており、さまざまな境界条件、限られたコンピューティング リソースとメモリ リソースを考慮しながら、モデル計算の量を最小限に抑えることができます。

しかし、アルゴリズムがどれだけ最適化されても、ハードウェア レベルでの制限は回避できない問題のままです。

そこで、クラウドに移行するという2番目のアイデアがあります。多くのアプリプロバイダーは、モバイルデバイスの計算能力不足によって生じる課題に対処するために、複雑な AI 処理をクラウドで実行することを選択しています。

しかし、これにより新たな問題が発生しました。クラウドでのコンピューティングはネットワーク環境の影響を受け、さらなる遅延やその他の変化が生じ、オフラインのニーズを満たす方法がなくなるのです。

したがって、 3 番目のアプローチは、 SoC ハードウェア メーカー側から直接問題を解決することです。

最も一般的な Qualcomm Snapdragon モバイル プラットフォームを例にとると、これに搭載されている Qualcomm AI Engine は、ハードウェア側で AI コンピューティングを加速します。

Qualcomm の AI エンジンの違いは何ですか?

Qualcomm AI Engine は、実際には Snapdragon モバイル プラットフォームに組み込まれたソフトウェアおよびハードウェア AI ソリューションの完全なセットです。

ハードウェアに関しては、Qualcomm AI Engine は次のようなマルチコア異種コンピューティング ソリューションを使用します。

  • 六角形ベクトルプロセッサ
  • 副腎GPU
  • クライオCPU

したがって、CPU、GPU、ベクトルプロセッサをインテリジェントにスケジュールして AI 計算を実行することにより、Qualcomm AI エンジンはさまざまなアーキテクチャのプロセッサの利点を最大限に活用し、エネルギー効率を最大化しながら高い計算能力を実現できます。

ソフトウェアに関しては、Qualcomm AI Engine のソフトウェア ツールには、Snapdragon Neural Processing SDK、Android NN、Hexagon NN が含まれます。これらのソフトウェア ツールを使用すると、ビデオ プラットフォームなどのアルゴリズム開発者は、Qualcomm AI エンジンに迅速にアクセスし、AI アルゴリズムのパフォーマンスの限界を完全に探索できます。

実際、KuaishouとQualcommは、Snapdragon 765モバイルプラットフォームの発売当初から協力を開始していた。 Qualcomm Neural Processing SDK は、モバイル プラットフォーム上のアプリのパフォーマンス、電力消費、スケーラビリティ、互換性に関するソフトウェア サポートを提供し、CPU のワークロードを解放し、Hexagon プロセッサを通じて AI アクセラレーションを実現します。さらに、両者はモデルの量子化と圧縮でも協力し、AI処理の精度を確保しながらモデルのパフォーマンスとエネルギー効率を向上させました。

結果として得られた効果は、一連のデータに直接反映されています。手描きフィルターのフレーム レート (FPS) は56%増加し、消費電力は32%減少しました。

今年は、新世代のSnapdragon 778Gモバイルプラットフォームの発売により、両者の協力はさらに深まりました。コアは第6世代のQualcomm AIエンジンを中心に展開します。

Snapdragon 778G がサポートする第 6 世代 Qualcomm AI エンジンには、最大 12TOPS の計算能力を備えた Qualcomm Hexagon 770 プロセッサが含まれており、前世代のプラットフォームと比較してパフォーマンスが 2 倍になります。参考までに:Apple A14 は 11TOPS です。

さらに、Snapdragon 778G で使用されている新しい Qualcomm Spectra ISP は、1 秒あたり 20 億ピクセルの処理をサポートしており、Qualcomm AI エンジンが特殊効果アルゴリズムを実行するための追加サポートを提供できます。

快手YテックAIエンジニアリンググループ代表のビアン・ホンチャン氏もこの協力について次のように述べた。

Qualcomm Technologies との素晴らしいコラボレーションにより、Kuaishou は AI アルゴリズムのパフォーマンスの限界を突破することができました。当社は、Qualcomm との協力を継続し、Snapdragon ハイエンド チップの強力な異種コンピューティング機能を最大限に活用できることを嬉しく思います。ニューラル ネットワークのパフォーマンスを強化し、出力品質を改善することで、より魅力的なアプリケーションとより大きな価値をユーザーに提供できるようになります。 ”

「AIの巨人」クアルコム?

Qualcomm といえば、やはり「ゲームやグラフィックに優れた携帯電話用チップ工場」という印象が強いかもしれません。

しかし、手描きフィルターの事例から、Qualcomm がすでに大手 AI 企業であり、アプリ開発者が喜んで協力してくれる企業であることは容易にわかります。

実際、クアルコムは、AI がまだ初期段階にあった頃から、AI を技術開発の焦点として位置づけていました。

2007年、クアルコムの子会社であるクアルコムリサーチは初の人工知能プロジェクトを立ち上げ、2018年に正式にクアルコムAIリサーチを設立しました。

2015年には、第1世代のQualcomm AIエンジンを搭載したSnapdragon 820がリリースされ、より強力なAI処理機能をサポートするQualcomm Hexagonベクトル拡張コアが正式に導入されました。

6年間の毎年の改良を経て、今年のSnapdragon 888 Plusは、第6世代のQualcomm AIエンジンも搭載し、最大32 TOPSの強力なコンピューティングパワーを実現しました。

さらに、Qualcomm の AI 機能は、私たちが思っている以上に私たちの日常生活に深く組み込まれている可能性があります。

アプリ内の AI 特殊効果アルゴリズムほど顕著ではありませんが、Qualcomm AI エンジンは、携帯電話とモバイル アプリケーションのインテリジェンスの向上に多少なりとも貢献しています。

最近、新たな例があります:

Snapdragon 888シリーズを搭載したHonor Magic 3は、シーン要素の認識、インテリジェントなマッチングと推奨を通じてAIトーン推奨機能を実現し、ユーザーは携帯電話で大ヒット映画の質感を持つ動画を撮影できます。

Snapdragon 888 Plusも搭載されているXiaomi Mi MIX 4には、AI画像強化アルゴリズムでサポートされている素晴らしい画面下カメラがあります。また、パノラマAI翻訳の新しい遊び方があり、同時通訳、画面翻訳、写真翻訳、AI字幕などの実用的なAI機能をもたらし、ユーザーはビデオの視聴やオンライン会議など、多くのシナリオでAI「翻訳マスター」のサービスを体験できます...

ブラックテクノロジーはどれくらい複雑ですか?これはほとんどのユーザーが考慮する必要のあることではありません。

しかし、クアルコムとそのパートナーとの衝突により、より多くのブラックテクノロジーが生活の標準になりつつある。

持ってくれば完成です、どう思いますか(犬の頭)?

<<:  スマートシティにおける低リスクの AI 応用分野 3 つ

>>:  アルゴリズムを使って従業員を解雇する人工知能は、労働者の新たなリーダーになったのだろうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

江長建、世界初のサイボーグと対談 - JD Smart Community 2.0 全国ローンチカンファレンス ライブプレビュー

[[374688]] 「半オーク」「半魚」… SF映画、漫画、おとぎ話では、それは驚くことではありま...

人工知能、機械学習、ディープラーニングとは、いったい何なのでしょうか?

近年のホットな言葉といえば、「人工知能」が挙げられます。昨年のChatGPTの人気爆発により、「AI...

人工知能市場の収益は今年1560億ドルに達する見込み

調査によると、人工知能(AI)ソリューションは現在急速に成長している市場であり、2020年までに1,...

OpenAIと競合しますか? Jina AI、オープンソースの8Kテキスト埋め込みモデルを発表

10月27日、外国メディアは、人工知能企業Jina AIがこのほど、第2世代のテキスト埋め込みモデル...

最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

AI がチャットできるだけでなく、「目」を持ち、絵を理解し、絵を描くことで自分自身を表現することさえ...

MetaはQualcommチップの使用を拒否し、そのサポートソフトウェアの成熟度に疑問を呈している

クアルコムは、計算能力とエネルギー効率の点で優れたチップを備えた、世界最大のスマートフォンプロセッサ...

ゲーム開発における機械学習の活用

機械学習のメリット機械学習は多くの分野で驚異的な進歩を遂げてきました。応用分野の観点から見ると、機械...

自動化された機械学習: よく使われる 5 つの AutoML フレームワークの紹介

AutoML フレームワークによって実行されるタスクは、次のように要約できます。データを前処理して...

マイクロソフトCEOナデラ氏:AIはルールを変えるインターネットの波のようなもの

8月18日、マイクロソフトが人工知能(AI)技術の研究開発に注力し、OpenAIに100億ドル以上を...

2021 年のトップ 12 AI ツールとフレームワーク

AIトレンドがあらゆるところに広がる2021年を迎える準備はできていますか? 2021 年のトップ ...

人工知能やモノのインターネットから仮想現実やブロックチェーンまで、将来の技術進歩の大部分はクラウドで起こるだろう。

今では、ほとんどの企業リーダーがクラウド コンピューティングの価値を理解しています。すでに多くの人が...

2021年のAIの発展:エッジAIは止められない

[[388887]]人工知能研究を専門とする外国の機関が、人工知能の実務家を対象に、2021年の人工...

マイクロソフトによるニュアンスの買収が大きな意味を持つ理由

[[394293]]マイクロソフトは最近、音声認識と人工知能による会話サービスを主に提供するNuan...

医療におけるロボティック プロセス オートメーションのユースケース

[[419917]]多くの大規模医療機関は現在、デジタル化を実現するためにロボティック・プロセス・オ...