USTC 統合入力フィルタリング フレームワーク: すべてのデータ モダリティをサポートするフィルタリング可能性の最初の理論的分析

USTC 統合入力フィルタリング フレームワーク: すべてのデータ モダリティをサポートするフィルタリング可能性の最初の理論的分析

モバイル デバイスの計算能力が向上し、センサー データのリアルタイム分析の需要が高まるにつれて、モバイル中心の人工知能アプリケーションが一般的になりつつあります。 2022 年までに、商用 IoT プロジェクトの 80% 以上に AI アプリケーションが含まれるようになると予測されています。しかし、最高精度の AI モデルのほとんどは計算量が多すぎて、モバイル デバイスで高スループットの推論を実行することができません。推論タスクをエッジ サーバーまたはクラウド サーバーにオフロードしても、推論の効率がアプリケーションの要件を満たすのは困難です。

冗長な入力はモバイル中心の人工知能アプリケーションに広く存在しており、それらをフィルタリングすることは推論効率を向上させる効果的な方法です。既存の研究では、推論スキップと推論再利用という 2 種類の入力フィルタリング メカニズムが検討されています。推論スキップ メソッドは、意味のある出力を生成しない推論計算をスキップするように設計されています。たとえば、写真分類アプリケーションは、顔のない写真に対して顔検出モデルを実行する場合があります。

スマート スピーカー アプリケーションは、音声認識のためにコマンドなしで音声をクラウドにアップロードする場合があります。

推論再利用メソッドは、実行された推論計算結果を再利用して、新しいデータが到着したときにキャッシュから結果をより速く返すことを目指します。たとえば、スマートブレスレットのアクション分類モデルは、同じアクションラベルを生成するモーション信号を処理する場合があります。

また、ドローンとエッジ サーバーに基づく交通監視では、連続する 2 つのフレームで変更のない車両カウント結果が得られる可能性があります。

これまでの研究により、多くのアプリケーションに効果的な入力フィルタリング方法が設計されてきました。しかし、2 つの重要な問題が未解決のままであり、入力フィルタリング方法の適用に深刻な影響を与えています。

  1. 推論タスクのフィルタリング可能性。入力フィルタリング技術は多くの特定のアプリケーションで最適化効果を示していますが、冗長入力の主観的な観察からヒントを得ることがよくあります。 「どの推論タスクに入力フィルタリングの最適化の機会があるか」という質問に理論的に答えることができない場合、入力フィルタリング技術の適用には必然的に高コストの試行錯誤のプロセスが伴うことになります。
  2. 堅牢な特徴識別能力。入力データの特徴表現は、推論のスキップと再利用可能な推論結果の検出の精度に直接関係するため、入力フィルタリングのパフォーマンスに重要な影響を及ぼします。既存の方法のほとんどは、手動の特徴または事前にトレーニングされた深層特徴に依存していますが、これらは適用中に確実に区別できず、フィルタリング効果が完全に失われる可能性があります。

MobiCom 2022において、中国科学技術大学のLINKE研究室は、モバイル中心のモデル推論シナリオ向けのエンドツーエンドの学習可能な入力フィルタリングフレームワークInFi(INput FIlter)を提案しました。この研究では、入力フィルタリング問題を初めて正式にモデル化し、推論モデルと入力フィルタの機能ファミリの複雑さの比較に基づいて、理論レベルで推論タスクのフィルタリング可能性を分析します。 InFi フレームワークは、既存の SOTA メソッドで使用される推論スキップおよび推論再利用メカニズムをカバーします。この研究では、InFi フレームワークに基づいて、モバイル中心の推論シナリオに幅広く適用できる、6 つの入力モダリティと 3 つの推論タスク展開方法をサポートする入力フィルターを設計および実装します。 12 のモバイル中心の AI アプリケーションでの実験により、理論分析結果が検証され、適用性、精度、リソース効率の点で InFi が SOTA 方式よりも優れていることが示されました。その中で、モバイルプラットフォーム上のビデオ分析アプリケーションでは、元の推論タスクと比較して、InFiは推論スループットを8.5倍に高め、通信帯域幅を95%節約しながら、推論精度を90%以上維持しました。

論文アドレス: https://yuanmu97.github.io/preprint/InFi_MobiCom22.pdf

プロジェクトアドレス: https://github.com/yuanmu97/infi

濾過性分析

直感的には、推論タスクのフィルタリング可能性とは、元の推論タスクと比較して、入力データの冗長性の低コストで高精度の予測子を取得できるかどうかを指します。元の推論タスクは、入力データを推論出力にマッピングする関数ファミリ H に属するモデル h として定義されます。たとえば、顔検出モデルは、画像を入力として受け取り、検出結果 (顔の位置の検出ボックス) を出力します。推論モデルの出力結果に応じて、冗長性判定関数 f_h が定義され、冗長なラベルが出力されます。たとえば、顔位置検出ボックスの出力が空の場合、推論計算は冗長であるとみなされます。関数ファミリー G に属する入力フィルタ g は、入力データから冗長ラベルへのマッピング関数として定義されます。

元の推論モデルの目的関数(つまり、真のラベルを提供する関数)がcであり、そのフィルタの目的関数が

元の推論モデルのトレーニングと入力フィルタのトレーニングの違いは、監督ラベルの違いにあることがわかります。つまり、推論予測は元のタスクラベルドメイン Y によって監督されますが、フィルタ予測は冗長ラベルドメイン Z によって監督されます。推論タスクのフィルタリング可能性に関する直感的な考え方は、入力フィルタの学習が元の推論モデルの学習よりも簡単であれば、効果的な入力フィルタを取得できる可能性があるということです。

この考えに基づいて、本研究では、3 つの一般的な推論タスクのフィルタリング可能性を分析します。

分析プロセスの鍵となるのは、入力フィルターの目的関数を元の推論モデルに関連付けることです。これにより、2 つの学習タスク間に同等の複雑さの橋が構築されます。冗長識別の信頼度に基づく分類タスクを例にとると、入力フィルタの目的関数族は次のようになる。

これにより、入力フィルタの関数ファミリのRademarcher複雑度が元の推論モデル以下であることが証明され、タスクのフィルタリング可能性の分析結果が得られます。

フレームワークの設計と実装

上記のフィルタリング可能性分析は、入力フィルタリングを学習タスクとして考えることを前提としています。したがって、フレームワークの設計は、手動機能や事前トレーニング済みのディープ機能に依存せずに、エンドツーエンドで学習可能である必要があります。同時に、フレームワーク設計では、推論スキップ (SKIP) メカニズムと推論再利用 (REUSE) メカニズムを統一的にサポートする必要があります。この研究は、SKIP がすべてゼロの入力の推論結果の REUSE と同等であるという単純なアイデアに基づいており、2 つのメカニズムを 1 つのフレームワークに統合しています。

このフレームワークは、トレーニングと推論の 2 つの段階で構成されます。トレーニングフェーズでは、ツイン特徴ネットワークを通じて入力データのペアの特徴が抽出され、特徴距離を計算した後、分類ネットワークを使用して冗長ラベル予測結果が取得されます。

推論段階では、SKIP メカニズムを採用すると、他の入力の特徴がゼロに固定され、基本的な分類器に退化し、予測された冗長ラベルに基づいて現在の入力データをスキップするかどうかを決定します。REUSE メカニズムを採用すると、「入力特徴 - 推論出力」テーブルをキャッシュとして維持する必要があり、現在の入力特徴とキャッシュされた入力特徴間の距離を計算することにより、K 近傍法を使用して、キャッシュされた推論結果を再利用するかどうかを決定します。

この研究では、「モダリティ関連特徴ネットワーク+タスク非依存分類ネットワーク」の設計を提案し、テキスト、画像、ビデオ、オーディオ、知覚信号、中間層特徴の特徴抽出ネットワークを設計し、より多くのデータモダリティに簡単に拡張できます。分類器ネットワークは、多層パーセプトロンモデルとして設計されています。入力方式の柔軟なサポートは、オンデバイス推論、エッジ推論へのオフロード、デバイスエッジモデル分割推論という 3 つの一般的なモバイル中心の推論タスク展開方法を含む、さまざまなタスク展開方法での InFi の適用性の基盤を提供します。

InFi は Python で実装されており、ディープラーニング モジュールは TensorFlow 2.4 に基づいています。コードは現在オープンソースです。

検証実験

InFi は、画像、ビデオ、テキスト、オーディオ、モーション信号、中間層機能の 6 つの入力様式をカバーする 5 つのデータセットで 12 の AI 推論タスクの検証実験を実施しました。 3 つのベースライン メソッドとの比較実験により、InFi は適用範囲が広く、精度と効率の両方で優れていることが示されました。

都市部の道路監視ビデオで車両をカウントするタスクを例にとると、オンエンド推論を実行する場合、SKIP および REUSE メカニズムを使用する InFi メソッドは、推論スループットを元のワークフローと比較してそれぞれ 1.9 倍と 7.5 倍に増加させながら、90% を超える推論精度を維持できます。エンドツーエッジのモデル分割推論を実行する場合、2 つのメカニズムを使用する InFi は、通信帯域幅をそれぞれ 70.7% と 95.0% 節約できます。

InFi はトレーニング費用も非常に安価です。モーション信号に基づくアクション認識アプリケーションでは、トレーニング データセットの 10% のみを使用するだけで、フィルタリング パフォーマンスが最高に近い SKIP および REUSE の結果を得ることができます。 InFi は、95% 以上の推論精度を維持しながら、推論操作を 80% 節約できます。

結論と今後の展望

この研究は、フィルタリング可能性に関する最初の理論的分析を提供し、統一されたエンドツーエンドの学習可能な入力フィルタリングフレームワークを提案し、その設計と実装の優位性を幅広い人工知能推論タスクで検証します。これは、モバイル中心のリソース効率の高い推論を実現するために非常に重要です。 InFi フレームワークの主な利点は、手動のラベル付けが不要であることです。将来的には、各モデルの推論サービス中に入力フィルターの自己教師トレーニングを行い、精度とリソースのトレードオフを伴うモデル推論を実現するという、人工知能モデルの展開に関する新しいベストプラクティスが形成される可能性があります。

<<:  大量のニューロンを必要とせず、ニューロモルフィックロボットはスピードと正確さでテーブルサッカーをプレイします

>>:  テキストの説明に基づいてビデオから画像を切り取る、Transformer:このクロスモーダルタスクは私が最も得意とすることです

推薦する

今後30年間で、これらのスキルを子供たちに教えなければ、「人工知能」によって仕事を失うことになるだろう

[[225789]] 1970年代、80年代生まれの人たちは、どんな背景を持っていても、名門大学に進...

JD.com は今後 10 年間で従業員の 50% を解雇するでしょうか?ジャック・マー氏も人工知能が仕事を奪うことについて言及している

最近、劉強東氏は、今後10年間でJD.comの従業員数を現在の16万人から8万人に減らし、1人当たり...

...

Haiyun Jiexun の Ren Zhongping 氏: アイデアから実現まで、AI はわずか 10 クリックで実現します。

[51CTO.comよりオリジナル記事] 10月13日、中関村スタートアップストリートで、中関村ス...

GTA6のトレーラーは1億回以上再生されており、3人のAI巨人も数秒でGTAギャングに変身できる

新しいGTAゲームの予告編を見ましたか?この予告編は3つのギネス世界記録を破り、再生回数は1億回を超...

大規模なオープンソースデータセットが衝撃的なスキャンダルを暴露、人気AI企業が関与していた

執筆者 | Qingzhu制作:51CTO テクノロジースタック(WeChat ID:blog)ビッ...

人工知能やロボットによって仕事が奪われた後、人々の収入はどこから来るのでしょうか?考えるための材料

中国の現在の経済社会発展の最大の原動力は科学技術の進歩である。特に米国によるファーウェイとZTEの規...

...

2021年のAIに関する10の大胆な予測

2020年は忘れられない年です。今年に入って、新型コロナウイルスの感染拡大に伴い、人工知能(AI)が...

...

中国の「データブリックス」:AIインフラの構築に真剣に取り組む

AI導入の最大の推進要因はインフラのアップグレードです。近年、ビッグデータ分析やAIなどの分野が注目...

ドローン配送業界は明るい未来を秘めているが、発展は遅い

[[264900]] [51CTO.com クイック翻訳] Amazonは5年前にドローン配達につい...

人工知能の3つの人生を10分で紹介します

AIは2016年以来最もホットなキーワードであり、それについてはさまざまな意見があります。バブルがは...

Python で機械学習を簡単に

ナイーブ ベイズ分類器を使用して、現実世界の機械学習の問題を解決します。ナイーブベイズナイーブベイズ...

人工知能の簡単な歴史 | (1)相農は人工知能の誕生を目撃した

[[391106]] 1956年、人工知能元年。その夏、米国ニューハンプシャー州ハノーバーの小さな町...