この投稿では、最近の TCN ベースのソリューションをいくつかレビューします。 まず、動き検出のケーススタディを紹介し、TCN アーキテクチャと、畳み込みニューラル ネットワーク (CNN) や再帰型ニューラル ネットワーク (RNN) などの従来の方法と比較したその利点について簡単に説明します。次に、改善された交通予測、サウンドイベントの位置特定と検出、確率予測など、TCN のいくつかの新しいアプリケーションが紹介されます。 TCNの簡単なレビュー Lea らによる先駆的な研究(2016) は、ビデオベースのアクションセグメンテーションのための時間畳み込みネットワーク (TCN) を初めて提案しました。この一般的なプロセスの 2 つのステップでは、まず、時空間情報をエンコードする (通常は) CNN を使用して低レベルの特徴を計算し、次に、これらの低レベルの特徴を、(通常は RNN を使用して) 高レベルの時間情報を取得する分類器に入力します。このアプローチの主な欠点は、2 つの別個のモデルが必要になることです。 TCN は、2 つの情報レベルすべてを階層的にキャプチャするための統一されたアプローチを提供します。 エンコーダー/デコーダー フレームワークを図 1 に示します。アーキテクチャの詳細については、最初の 2 つの参考文献 (記事の最後にあります) を参照してください。最も重要な問題は、TCN が任意の長さのシーケンスを受け取り、それを同じ長さで出力できることです。 1D 完全畳み込みネットワーク アーキテクチャを使用する場合は、因果畳み込みが使用されます。重要な特徴は、時刻 t の出力が t より前に発生した要素のみと畳み込まれることです。 Yan らによる最近の研究成果の発表により、TCN をめぐる話題は Nature 誌にも掲載されました。 (2020) TCNの天気予報タスク。彼らの研究では、TCN と LSTM を使用した比較実験が行われました。彼らの結果の 1 つは、他の方法の中でも、TCN が時系列データを使用した予測タスクで優れたパフォーマンスを発揮したというものでした。 次のセクションでは、この古典的な TCN の実装と拡張について説明します。 交通予測の改善 ライドシェアリングやオンラインナビゲーションサービスは、交通予測を改善し、人々の移動方法を変えることができます。交通予測の精度が向上すると、交通渋滞の減少、汚染の低減、運転の安全性と速度の向上などにつながります。これはリアルタイムのデータ駆動型の問題であるため、今後の交通の蓄積されたデータを活用する必要があります。これに基づいて、Dai et al. (2020) は最近、ハイブリッド時空間グラフ畳み込みネットワーク (H-STGCN) を提案しました。基本的な考え方は、セグメント化されたライニングの流量と密度の関係を利用し、対向車の交通量を同等の移動時間に変換することです。この研究で使用された最も興味深い方法の 1 つは、空間依存性を捉えるグラフ畳み込みです。複合隣接行列は、フロー近似の固有の特性を捉えます (詳細については、Li、2017 を参照してください)。次のアーキテクチャでは、予測プロセス全体を記述するために 4 つのモジュールが提案されています。 音響イベントの位置特定と検出 音響イベントの位置特定と検出 (SELD) の分野は継続的に成長しています。環境の理解は自律航行において重要な役割を果たします。 Guirguisら(2020)は最近、サウンドイベントSELD-TCNの新しいアーキテクチャを提案しました。彼らは、彼らのフレームワークが現場トレーニングにおける現在の最先端技術よりも優れていると主張しています。 SELDnet (構造は下記) では、44.1 kHz でサンプリングされたマルチチャンネルのオーディオ録音に短時間フーリエ変換を適用してスペクトルの位相と振幅を抽出し、個別の入力機能としてスタックします。次に、畳み込みブロックと再帰ブロック (双方向 GRU) が接続され、その後に完全接続ブロックが続きます。 SELDnet の出力は、サウンド イベント検出 (SED) と到着方向 (DOA) です。 それを上回るために、彼らはSELD-TCNを提案しました。 拡張畳み込みにより、ネットワークはさまざまな入力を処理できるようになるため、より深いネットワークが必要になる場合があります (ネットワークはバックプロパゲーション中に不安定な勾配の影響を受けます)。彼らは、WaveNet (Dario et al., 2017) アーキテクチャを採用することでこの課題を克服しました。彼らは、SELD タスクには再帰層は必要なく、アクティブなサウンド イベントの開始時間と終了時間を正常に検出できることを示しました。 確率予測 Chen et al. (2020) によって設計された新しいフレームワークを使用して、確率密度を推定できます。時系列予測は、多くのビジネス上の意思決定シナリオ (リソース管理など) を改善します。確率予測は、履歴データから情報を抽出し、将来の出来事に関する不確実性を最小限に抑えることができます。予測タスクが数百万の関連データ シリーズを予測することである場合 (小売業など)、パラメーター推定に多大な労力とコンピューティング リソースが必要になります。これらの困難に対処するために、彼らは CNN ベースの密度推定および予測フレームワークを提案しました。彼らのフレームワークは、系列間の潜在的な相関関係を学習することができます。彼らの研究の斬新さは、彼らのアーキテクチャに示されているように、彼らが提案したディープ TCN にあります。 エンコーダー/デコーダー モジュール ソリューションは、実用的な大規模アプリケーションの設計に役立つ可能性があります。 |
<<: GitHub で 2.3k スターを獲得した ML 論文のリストを入手し、自分の仕事に活用しましょう。
>>: 絶賛されていたGPT-3が充電開始します!ネットユーザー:値段が高すぎる。もう行っちゃった。
ビデオ理解の分野では、マルチモーダルモデルは短いビデオの分析において画期的な進歩を遂げ、強力な理解能...
今日のロボット犬は、人間に簡単につまずかされるような時代をとうに過ぎています。新しく公開されたビデオ...
315ガラはカメラの顔認識の悪用の問題を暴露し、懸念を引き起こした。これはまた、問題を浮き彫りにする...
[[442368]] 1週間前、コンピュータービジョン分野の古典であるHe Kaiming氏のRe...
3 月 8 日、ベンチャー キャピタル業界の 2 人の巨人、マーク アンドリーセン氏とヴィノド コ...
[[349033]]テクノロジーの継続的な進歩により、私たちの日常生活はますます便利になっています。...
[[186262]]この人工知能の波は急速に到来し、画像認識、音声認識、自動運転など、多くの難題を次...
企業における人工知能の応用はますます広範になってきており、産業化される可能性もあります。既存のデータ...
最近、Reddit のホットな投稿が機械学習コミュニティで大きな議論を巻き起こしました。 NeurI...
[[412069]]最近、GitHub は、人工知能を使用してコードを合成するモデルを生成する Co...