クロスカメラトラッキングと「スマート」な眼認識技術戦略の研究と実装

ラボガイド

現在、公共の場や個人の応用場面に設置されている監視カメラの総数は1億7500万台を超えていますが、そのほとんどは監視ビデオのリアルタイム保存や事件発生後の検索・検討に使用される普通のカメラであり、自律的な認識や意思決定の「頭脳」を欠いており、危険な事件の悪化を防ぐことができません。この文脈では、インテリジェントなビデオ行動分析機能を備えた国境を越えた追跡システムが特に重要です。この記事では、クロスカメラトラッキングシステムを内部実装の観点から説明し、クロスカメラトラッキングシステムのコア機能とそのアプリケーションシナリオを紹介します。

1. クロスカメラトラッキング技術の背景

クロスカメラ追跡システムは、主に歩行者再識別技術を使用して、人物の服装、体型、髪型などの情報に基づいて、画像またはビデオシーケンスに特定の歩行者が存在するかどうかを判断します。顔認識技術と組み合わせることで、顔が遮られたり距離が遠すぎたりするクロスカメラシナリオでの人物識別の問題を解決できます。

クロスカメラトラッキング図

2. クロスカメラトラッキングの研究意義

クロスカメラ追跡システムは、ビデオストリーム内の人物の身元情報をリアルタイムで自動的に分析することにより、時間と空間を超えて特定の人物を追跡し、即座に位置を特定できます。公安監視や容疑者の追跡、不審者の財産管理チェックなどの作業効率の向上に役立ちます。時間コストによる状況の悪化を軽減し、スタッフの疲労や欠勤などの要因による誤報や報告漏れを大幅に回避し、監視エリアのセキュリティ防止能力を効果的に向上させることができます。ほとんどの監視システムのシーンでは人間の顔がはっきりしないため、業界では一般的に人物再識別（ReID）アルゴリズムを採用してカメラ間追跡を実現します。顔の鮮明度、顔の角度、カメラ位置の感度などに対する要件は、顔認識の要件よりも低くなります。今年のCOVID-19流行時には、ReID技術に基づくカメラ間追跡システムが防疫・制御に大きく貢献したため、ReIDアルゴリズムも大きな注目を集めました。

3. クロスカメラトラッキング研究の難しさ

近年、協調シーンの顔認識は徐々に商用化されてきました。しかし、ビデオ監視のシナリオでは、顔の品質が高くなかったり、顔が見えないことがよくあります。そのため、顔認識はほとんどの場合役割を果たすことができません。実際のシナリオでのReIDアルゴリズムの精度も低く、まだ多くの研究上の困難がありますが、次のようにまとめられます。

1. 歩行者データが著しく欠落している

プライバシーの問題と、歩行者データを収集する際には、異なるカメラで同じ時間帯に同じ人物の画像を収集する必要があることから、データセットの構築には限界があります。データ不足は、クロスカメラ追跡技術がすぐに克服できない主な問題です。

2. 実際の適用シナリオは複雑である

顔と比較すると、人体には四肢の関節が多数あり、実際の監視シーンでは、人がさまざまな姿勢や角度でカメラに映るため、人の検出と認識が難しくなります。さらに、時間帯による光の違いや建物の遮蔽などにより、人の身元を正確に認識することが困難になります。

3. 女装のシナリオでは効果がない

人物再識別技術は、主に人物の衣服の外観特徴を抽出して人体認識を実現するため、服装のシナリオ（季節ごとの衣服の着替えなど）では直接使用できず、現在は狭い範囲内での短期的な検索しかサポートできません。

4. クロスカメラトラッキングシステムの構成

ReIDアルゴリズムの限界を克服し、その利点を最大限に発揮し、ビデオ画面内の人物や物体のリアルタイムの位置決めを実現するために、顔と体の技術を組み合わせるというアイデアを採用しました。顔と体の技術を統合し、モーション認識と組み合わせることで、システムはカメラを通じてリアルタイムで人物を自動的に識別し、「警報状況」を検出して積極的に「分析」し、発生した、または発生しそうなセキュリティ上の脅威についてセキュリティ担当者に速やかに警報を発し、監視エリアのセキュリティ防止機能を効果的に向上させます。このシステムは主に以下の技術的なポイントを含みます。

顔認識
人物の再ID
行動認識
動的人体データベースの更新
顔属性と身体属性の認識
複数のストリームの同時非同期処理
見知らぬ人データベースの動的更新

5. クロスカメラトラッキングシステムの構築

越境追跡システムは、標準化されたRTMPビデオストリームにアクセスし、フレームスキップ処理メカニズムを使用して、上記のアルゴリズム機能モジュールに対してマルチスレッドの非同期呼び出しを実行し、共有メモリを介して現在のリアルタイム画像フレームを記録し、ビデオ画像のリアルタイム分析と処理を実現します。システムのビジネスフローチャートを以下に示します。

クロスミラートラッキングシステムのビジネスプロセス図

以下は、いくつかのコアモジュールの詳細な技術的紹介です。

6. 動的顔認識モジュール

顔認識処理のフローチャートは次のとおりです。

顔認識処理フローチャート

ゲートやアクセス制御などの静的な顔スキャンのシナリオとは異なり、ビデオ監視は動的な顔認識アプリケーションシナリオに属します。モーションブラーや顔の遮蔽が頻繁に発生し、顔の角度は主に頭上にあり、照明はより複雑です。現在、動的な監視シナリオでは、業界の顔認識アルゴリズムの精度は 1 万分の 1 のエラー率で 90% 程度に過ぎず、これは静的シナリオの 99.9% と比べると大きな差です。ただし、ビデオ監視分野では支払いのやり取りや認証のやり取りがないため、ビジネスシナリオ自体は顔認識の精度に対して比較的広い許容範囲を持っています。動的なシーンでの顔認識精度が低いという問題に対処するために、主に顔検出と低品質の顔認識という 2 つの側面から改善を行いました。

1. 顔検出率の向上

データの準備: 動的シーンでの顔検出率を高めるために、動的顔認識シーンデータをシミュレートし、側面、正面、回転した顔など、複数の回転角度要因によって生成された画像をトレーニングデータに追加します。暗い光、強い光、ぼかし、遮蔽などの影響要因も追加されます。

ネットワークモデル: ネットワーク設計では、SSD に基づくマルチスケール特徴融合法を採用し、クロススケールおよび小さな顔の検出問題を解決します。また、Inception と RFB のアイデアを組み合わせ、複数の種類の畳み込みカーネルを追加し、特徴抽出情報を充実させ、光、オクルージョン、ぼかしへの適応性を向上させます。

2. 低品質の顔の認識率の向上

データの準備: 顔認識アルゴリズムは、データ量によって大きく制限されます。回転、平行移動、オクルージョン、照明、ファジー要素などを追加して独自の顔データを生成し、より高性能なモデルをトレーニングします。

独自に作成したデータにより、各キャラクターIDのデータの幅が広がります。また、マスクを着用した顔の認識効果を効果的に向上させるために、顔キーポイントアルゴリズムを使用して、マスクを着用した人の写真を以下のようにフィットさせます。

自動マスク着用によるデータ拡張

ネットワークモデル：ネットワークモデル構造の設計では、顔の特徴抽出トレーニングにアークロスを使用します。マスクを着用した顔の認識性能をさらに向上させるために、顔認識トレーニング中に顔の遮蔽判定項目を追加しました。顔が遮蔽されている場合、遮蔽されていない部分に特徴抽出の焦点を当てることができます。同時に、代替策として業務レベルでの補助措置を確立し、マスク着用に関する個別の識別と処理を行うために、二重基盤ライブラリ戦略とマルチモデル戦略を採用しています。

マスク着用時の顔認識アルゴリズムの最適化戦略の図解

7. 歩行者再IDモジュール

歩行者再識別アルゴリズムの原理は顔認識の原理と似ています。通常、表現学習またはメトリック学習を使用して特徴抽出モデルを取得します。現在、公開データセットMarket1501でのアルゴリズムの最高ランク1記録は約98％で、業界平均は約92％に達しています。しかし、実験環境ではある程度の過剰適合があり、実際のシナリオでの効果はまだ理想的ではありません。

1.顔認識アルゴリズムと組み合わせることで使用シナリオを拡大

より良い歩行者再識別結果を得るために、顔認識と組み合わせて、歩行者データベースのリアルタイムの動的作成を実現し、対象者の360度追跡を実現し、異性装のシナリオでも効果を発揮します。

衣服変更のシナリオでは、顔認識に基づいて人物画像ライブラリが作成され、同じ人物が異なる衣服を着用していることが検出されると、歩行者ライブラリがタイムリーに更新されます。
顔の解像度が低すぎる場合や顔が見えない場合、体重認識に基づいて人物の追跡と位置決めが実行され、システムは複雑なシーンでのリアルタイムの人物追跡の要件を満たすことができます。

顔と体の認識アルゴリズムを組み合わせた処理のフローチャート

同時に、顔の属性と体の属性が追加され、いくつかの補助ラベルが取得され、検索範囲が縮小されるため、顔が完全に見えなくても ReID が効果的に機能します。

2. モデル認識率の向上

実験では、モデルの精度は、データとトレーニング戦略という 2 つの側面からさらに向上しました。

データの準備：トレーニングデータを増やすために、セマンティックセグメンテーションアルゴリズムを組み合わせて、人間の衣服を領域に分割し、色を変えてキャラクターIDを増やしました。ただし、この方法はセマンティックセグメンテーションアルゴリズムの精度に依存しており、異なるIDの衣服の色が繰り返されると干渉が発生するため、大量に生成することはできません。さらに、異なる歩行者再識別データセットをソースドメインとターゲットドメインとして使用してスタイル転送ネットワークをトレーニングし、異なるデータセット内の異なるレンズで撮影されたデータスタイルを変換し、ランダムデータ消去処理を実行することで、データ量を飛躍的に増加させることができます。

モデルのトレーニングと戦略: ネットワークのトレーニングでは、ID 分類損失とトリプレット損失を組み合わせたトレーニング方法を採用し、モデルがクラス間距離とクラス内距離の両方を同時に考慮できるようにします。推論テストでは、コサイン距離計算法が使用され、抽出された人間の特徴ベクトルの区別が容易になります。ユークリッド距離の結果と比較すると、ランク1指数を1％向上できます。

8. 動的顔ライブラリ管理モジュール

動的顔データベース管理フローチャート

顔データベース戦略を動的に作成することで、不審者制御の効率が向上し、不審者記録のクエリ範囲を少なくとも2桁削減できます。同時に、任意の対象の不審者の迅速な検索と位置分析を実現できます。見知らぬ人の記録データの量は時間の経過とともに徐々に増加するため、すべての記録で見知らぬ人の識別記録を直接照会するのは非常に時間がかかります。顔認識後に品質判定を追加することで、顔品質が合格した見知らぬ人を見知らぬ人データベースに追加して管理します。この方法により、検索時間を大幅に節約できます。見知らぬ人の記録を検索するときは、検索対象者の画像と見知らぬ人のデータベースの間で特徴の一致を実行するだけで、数百万枚の画像の完全な検索と数秒での応答を実現できます。

9. まとめ

インテリジェントセキュリティとインテリジェント監視のシナリオの普遍的なソリューションとして、クロスカメラトラッキングシステムは、中国移動スマートホームオペレーションセンターで試験運用されています。今後、中国移動通信事業者の市場とブランドの優位性を活用し、さまざまなリンクでより多くのカメラおよびハードウェア機器メーカーとのビジネスコラボレーションチャネルを開拓します。省企業の支援を受けて、ハードウェアとソフトウェアを統合したインテリジェント監視管理システムセットを構築し、スマートパークとスマートコミュニティから住宅コミュニティ、オフィスビル、工業団地、観光スポット、学校のキャンパスなどのシナリオに拡張して、人員管理と地域のセキュリティを強化し、良好な社会環境を作り、インテリジェントエコシステムを構築するために引き続き努力します。

[この記事は、51CTO コラムニスト「Mobile Labs」によるオリジナル記事です。転載については、元の著者にお問い合わせください。]

この著者の他の記事を読むにはここをクリックしてください

<<: 人工知能は永遠の神です：それを崇拝する準備はできていますか？

>>: 知識が求められるポストディープラーニング時代に、知識グラフをいかに効率的かつ自動的に構築するか