DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense は、エンドデバイス上で実行されるディープラーニング フレームワークです。ローカルで処理する必要があるセンサー データを取得し、クラウドにアップロードせずに、畳み込みニューラル ネットワークやゲート型リカレント ニューラル ネットワークなどのディープラーニング モデルをこのデータに適用できます。

DeepSense は、モバイル デバイス上で実行され、モバイル センサー (モーション センサーなど) からのデータに基づいて回帰タスクと分類タスクを実行できるディープラーニング フレームワークです。分類タスクの例としては、異種人間活動認識 (HHAR) があります。これは、モーション センサーの測定に基づいて、人が行っている可能性のある活動 (歩行、サイクリング、立っているなど) を検出するものです。もう 1 つの例は、歩き方からユーザーを識別する生体認証動作分析です。回帰タスクの例としては、加速度測定を使用して車の位置を追跡し、車が将来どこにあるかを推測することが挙げられます。

最先端のフレームワークと比較して、DeepSense は特に、車両追跡問題の場合よりもはるかに小さい追跡誤差を達成し、HHAR およびユーザー識別タスクの最先端のアルゴリズムを大幅に上回る推定値を提供します。

通常、ほとんどのモバイル アプリケーションはリモート クラウド処理に転送されますが、転送プロセスには時間遅延に対する要件が高く、センサーのサンプリング周波数が高い (加速度計、ジャイロスコープなど) とデータ転送のサポートが困難になるため、大規模なセンサー タスクをローカル デバイスで実行することを優先します。したがって、2 種類のスマート デバイスで 3 つのタスクすべてに対して適度なエネルギー消費と低いオーバーヘッドでテストすることにより、モバイル デバイスに DeepSense を実装して展開する実現可能性を実証します。

ローカル処理は、多くの潜在的なアプリケーションでプライバシーを保護するための重要な要素でもあります。そのため、現在多くの研究者がこのタイプの端末デバイスでのディープラーニングに非常に興味を持っています。この記事の著者は、DeepSense の仕組みを深く理解しており、フレームワークのコア ネットワーク設計の紹介に重点を置いています。評価の残りの詳細は、論文で簡単に見つけられるはずです。

単一センサーデータの処理

まず、単一のセンサーについて考えてみましょう (最終的には、複数のセンサーからのデータを組み合わせたアプリケーションを構築したいと考えています)。単一のセンサーで、x 軸、y 軸、z 軸に沿った動きを報告するモーション センサーなどの多次元測定を提供できます。これら 3 つの次元のセンサー読み取り値は、一定の間隔 (つまり時系列) で収集され、次のように表現できます。

幅τの重複しないウィンドウでデータを処理します。ウィンドウの合計数は、時系列サンプル内のデータ ポイントの数を τ で割ることによって得られます。たとえば、5 秒間のモーション センサー データがあり、それを 0.25 秒のウィンドウに分割する場合、20 個のウィンドウが作成されます。

時系列データのパターンを見つけるには、時間次元よりも周波数次元の方が適しているため、次のステップでは、T ウィンドウ内の各小さなウィンドウをフーリエ変換して f 周波数成分に変換します。各周波数成分には、大きさと位相があります。各ウィンドウは dx 2f の順序の行列を取得します。

これで T が得られたので、すべてのデータを dx 2f x T の 3 次テンソルにパックできます。

すべての情報を 1 つのテンソルにうまくパッケージ化しておくと便利ですが、実際には t 次元でレイヤーごとに (一度に 1 つのウィンドウごとに) 処理することになります。各 dx 2f ウィンドウ スライスは、次の図に示すように、3 つのステージを含む畳み込みニューラル ネットワーク コンポーネントを通過します。

まず、2D 畳み込みフィルターを使用して、ローカル周波数領域内の次元間の相互作用をキャプチャします。次に、出力は 1D 畳み込みフィルターのレイヤーを通過し、高レベルの関係をキャプチャします。 ***最初のフィルター レイヤーの出力は平坦化され、センサー特徴ベクトルが生成されます。

マルチセンサーデータの統合

アプリケーションで各 K センサーを使用するには、上記のプロセスに従います。これで、K 個のセンサー特徴ベクトルが得られ、これを K 行の行列にパックできるようになりました。

次に、センサー特徴マトリックスは、先ほど見たものと同じ構造を持つ 2 番目の畳み込みニューラル ネットワーク コンポーネントに渡されます。つまり、2D 畳み込みフィルター レイヤーの後に 2 つの 1D ベクトル レイヤーが続きます。 ***、最後のフィルターの出力を統合センサー特徴ベクトルに平坦化します。ウィンドウ幅 τ はこのベクトルの末尾に追加されます。

DeepSenses は、畳み込み層ごとに 64 個のフィルターを学習し、ReLU を活性化関数として使用します。さらに、内部共変量の変動を減らすために、各レイヤーでバッチ正規化が適用されます。

これで、時間ウィンドウに結合したセンサー特徴ベクトルが含まれるようになりました。そして、すべての T ウィンドウに対して上記のプロセスを繰り返す必要があります。

これで、T 個の結合されたセンサー特徴ベクトルが得られ、それぞれがウィンドウ内の相互作用を学習することになります。もちろん、時間ウィンドウ全体にわたるウィンドウ間の関係を学習することも重要です。これを行うには、T 個の特徴ベクトルが RNN に入力されます。この点については、問題を説明するための例の図を用意したと思います。

著者らは、RNN 層で LSTM の代わりに Gated Recurrent Units (GRU) を使用しました。

GRU は、よりシンプルな構造を持ちながら、さまざまなタスクで LSTM と同様のパフォーマンスを発揮し、モバイル アプリケーションのネットワークの複雑さを軽減します。

DeepSense は 2 層に積み重ねられた GRU 構造を使用します。この構造は、新しい時間ウィンドウが利用可能になったときに増分的に実行できるため、ストリーミング データをより高速に処理できます。

すべてのデータを出力層に出力する

再帰層の出力は、一連の T ベクトル (時間ウィンドウごとに 1 つの T ベクトル) です。

回帰タスク(車の位置の予測など)の場合、出力層は、学習に使用される重みとバイアス項を共有するすべてのベクトルの上にある完全に接続された層であり、それによって学習が行われます。

分類タスクの場合、個々のベクトルは固定長の単一​​のベクトルに結合され、さらに処理されます。注意ネットワークによって学習された加重平均の同じトリックを使用することもできますが、この論文では、時間の経過に伴う平均を取る(ベクトルを累積して T で割る)ことで優れた結果を達成しています。最終的な特徴ベクトルはソフトマックス層に渡され、最終的なクラス予測スコアが生成されます。

現在のアプリケーションをカスタマイズする

DeepSense を特定のモバイル マッピングおよびコンピューティング タスクに適したシステムに磨き上げるには、次の手順に従います。

  • センサー入力の数 k を決定し、入力を dx 2f x T テンソルのセットに前処理します。
  • タスクの種類を決定し、適切な出力レイヤーを選択します。
  • オプションでカスタム コスト関数。回帰タスクのデフォルトのコスト関数は平均二乗誤差であり、分類タスクのデフォルトのコスト関数はクロスエントロピー誤差です。

評価におけるアクティビティ認識 (HHAR) およびユーザー識別タスクでは、デフォルトのコスト関数が使用されます。車の位置追跡タスクでは、負の対数尤度関数が使用されます(詳細についてはセクション4.2を参照)。

主な結果

ここでは、センサー フュージョンと eNav アルゴリズムと比較して、DeepSense が車両追跡タスクでどの程度正確であるかを示します。マップアシスト精度バーには、位置が地図上の最も近い道路セグメントにどれだけ正確にマッピングされているかが表示されます。

DeepSense は、HHAR タスクにおいて他の方法よりも 10% 優れたパフォーマンスを発揮します。

ユーザー識別タスクでは他の方法より 20% 優れたパフォーマンスを発揮します。

私たちは 3 つの代表的なモバイル測定タスクで DeepSense を評価しました。その結果、DeepSense は既存の最先端のベースラインよりも大幅に優れたパフォーマンスを発揮すると同時に、モバイルおよび組み込みプラットフォームでの適度なエネルギー消費と低レイテンシにより、モバイル展開の実現可能性を実証しました。

評価タスクはモーションセンサーに焦点を当てていましたが、この方法はマイク、ルーター、気圧計、光センサーなど、他の多くの種類のセンサーにも適用できます。

<<:  Appleは人工知能の分野で追い上げており、その視覚認識の成果は業界の賞を受賞した

>>:  人工知能業界の給与が明らかに、転職の時期が来た

ブログ    
ブログ    
ブログ    

推薦する

...

私たちに必要なのは人工知能ではなく人工知能だ

一拍遅ければそれは「人工的な愚かさ」であり、一歩遅れればそれは「知的な人工性」であり、一歩速ければそ...

機械学習の仕事を探すとき、学歴はどの程度重要ですか?

[[254426]]機械学習の分野における知識とツールの主な特徴は、無料かつオープンであることです...

ビッグデータは古い顧客を殺しています。消費者が権利を守るのは困難です。アルゴリズムの不公平な適用をどのように規制すべきでしょうか?

プラットフォーム経済の急速な発展に伴い、オンラインショッピング、交通、旅行宿泊、食品配達、オンライン...

2021 年の人工知能データ収集および注釈業界の 4 つの主要トレンド予測

人工知能データ収集およびラベリングのリーディングカンパニーであるYunce Dataは最近、「202...

Google Brain の新たな研究: 強化学習はどのようにして音で観察することを学ぶのでしょうか?

人間は、脳内の神経系が外部環境の変化に継続的に適応するためにその構造を変える能力を持っていることを証...

...

あなたの顔データはどこに保存されますか?

AI顔変換ソフト「ZAO」やMegviiのキャンパス顔認識をめぐる論争に続き、17万件の顔データが...

11月に最も人気のあるオープンソース機械学習プロジェクトとRedditの議論トップ5

導入データ サイエンティストになる上で最も良いことの 1 つはプログラミングです。多くの場合、私は...

SQL は ChatGPT を実行できますか?答えはYESです!

ChatGPTは世界中で人気を博しています。今日の質問は、SQL で ChatGPT を実行できる...

...

モノのインターネット(IoT)がビジネスに活力を与える:5つのビジネス事例が示すもの

モノのインターネットはさまざまな分野に浸透しており、その魅力と需要は徐々に高まっています。このテクノ...

Google、一般的な皮膚疾患を識別するための新しいAIツールを発表

5月19日、海外メディアの報道によると、人工知能はヘルスケア分野で多くの用途があるため、Google...

分析と AI に関する 6 つの警告すべき間違い

[[439096]] 2017年、英国の雑誌『エコノミスト』は、データが石油に代わって世界で最も価値...

IT 労働者の皆さん、AI があなたの仕事を「奪う」ためにやって来ています!今回はデータセンターからスタートします

[[349442]]人工知能に関する議論は現在、自動運転車、チャットボット、デジタルツイン、ロボット...