リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

米国の主要都市では、市民は 24 時間体制で何千もの公共緊急対応無線電波を受信して​​おり、この情報は 500 万人以上のユーザーに火災、強盗、行方不明などの緊急事態に関するリアルタイムの安全警報を提供するために使用されています。人々は毎日 1,000 時間以上の音声を聞いており、これは新しい都市を開発する必要がある企業にとって課題となっています。

[[340648]]

そこで、音声から重大な安全事故に関する情報を取得できる機械学習モデルを構築しました。


カスタム ソフトウェア定義無線 (SDR) は、広範囲の無線周波数 (RF) をキャプチャし、最適化されたオーディオ クリップを ML モデルに送信してラベル付けします。タグ付けされたクリップはオペレーションアナリストに送信され、アナリストはアプリにインシデントを記録し、最終的にインシデント発生場所の近くにいるユーザーに通知します。

セキュリティアラートワークフロー(著者提供の画像)

問題領域に音声テキスト変換エンジンを適応させる

公開音声テキスト変換エンジンを使用したクリップ分類器(画像提供:著者)

まず、単語誤り率 (WER) に基づいて、最もパフォーマンスの高い音声テキスト変換エンジンから始めます。多くの警察官は、日常語にはない特別なコードを使用します。たとえば、ニューヨーク市警の警察官は、援軍を要請するために「シグナル 13」を送信します。

音声コンテキストを使用して語彙をカスタマイズします。ドメインに適応するために、いくつかの語彙も拡張しました。たとえば、「assault」は一般的ではありませんが、ドメインでは一般的です。モデルは「a salt」ではなく「assault」を検出する必要があります。

パラメータを調整した後、いくつかの都市では比較的正確な転写を得ることができました。次に、音声クリップの文字起こしデータを使用して、どのクリップが市民に関連しているかを調べます。

転写と音声特徴に基づくバイナリ分類器

転写を入力、信頼度レベルを出力とするバイナリ分類問題のモデルを構築し、XGBoost アルゴリズムがデータセットに対して最高のパフォーマンスを発揮しました。

元警察官から聞いた話によると、一部の都市では、地元警察の注意を引くために、大きな出来事をラジオで放送する前に特別なサイレンを鳴らしているそうだ。この「追加」機能により、特に転写エラーが発生した場合に、モデルがより堅牢になります。その他の便利な機能としては、警察チャンネルと送信 ID があります。

私たちは運用ワークフローで ML モデルをテストしました。数日間実行した後、モデルタグ付きスニペットのみを使用したアナリストはイベントで間違いを起こさなかったことに気付きました。

私たちはこのモデルをいくつかの都市で立ち上げました。これまでは不可能だった、1 人のアナリストが複数の都市からの音声を同時に処理できるようになりました。より多くの遊休容量が稼働するようになれば、新たな都市を開発することが可能になります。

このモデルの導入により、アナリストの音声量が大幅に削減されました(画像は著者提供)

パブリック音声テキスト変換エンジンを超えて

このモデルはすべての問題の万能薬ではなく、音質が良かったいくつかの都市でのみ使用できました。公開されている音声テキスト変換エンジンは、ラジオとは異なる音響プロファイルを持つ音素モデルに基づいてトレーニングされているため、文字起こしの品質が信頼できない場合があります。ノイズの多い古いアナログ システムでは、転写はまったく使えませんでした。

複数のソースから複数のモデルを試しましたが、データセットに類似した音響プロファイルでトレーニングされたモデルはなく、ノイズの多いオーディオを処理できませんでした。

パイプラインの残りの部分は変更せずに、元の音声テキスト変換エンジンをデータでトレーニングされたエンジンに置き換えようとしました。しかし、音声の場合は何百時間もの文字起こしデータが必要となり、その生成には時間とコストがかかります。

また、語彙の中で「重要」と定義されている単語のみを転記し、無関係な単語にはスペースを追加することでプロセスを最適化するオプションもありますが、これはまだ作業量を徐々に削減するだけです。最終的に、私たちは問題領域向けにカスタム音声処理パイプラインを構築することにしました。

キーワード検出のための畳み込みニューラルネットワーク

キーワードだけを気にするので、単語の正しい順序を知る必要はなく、キーワード認識の問題を簡素化できます。これははるかに簡単なので、データセットでトレーニングされた畳み込みニューラル ネットワーク (CNN) を使用することにしました。

畳み込みニューラル ネットワーク (CNN) を再帰型ニューラル ネットワーク (RNN) または長短期記憶 (LSTM) モデル上で使用することで、トレーニングと反復処理をより高速に行うことができます。ほぼ同等ですが、実行には大量のハードウェアを必要とする Transformer モデルを評価しました。

単語を検出するためにオーディオ セグメント間の短期的な依存関係のみを探すため、計算的に単純な CNN は Transformer モデルよりも優れているように見えますが、ハードウェア スペースが解放され、ハイパーパラメータの調整によって柔軟性が向上します。

畳み込みニューラル ネットワークを使用してキーワードを識別するためのクリップ タグ付けモデル (画像提供: 著者)

オーディオ クリップは、固定の長さのサブクリップに分割されます。語彙の単語が出現すると、サブセグメントに肯定的なラベルが付けられます。次に、セグメント内にそのようなサブセグメントが見つかった場合、オーディオ セグメントは有用であるとマークされます。

トレーニング中、サブクリップの継続時間を変えて、それが融合パフォーマンスにどのように影響するかを実験しました。スニペットが長いと、モデルがスニペットのどの部分が有用であるかを判断するのが難しくなり、モデルのデバッグも難しくなります。短いスニペットは、単語の一部が複数のクリップに表示されることを意味し、モデルが認識するのが難しくなります。このハイパーパラメータを調整して、適切な期間を見つけることは可能です。

各サブクリップについて、オーディオをメル周波数ケプストラム係数 (MFCC) に変換し、1 次および 2 次導関数を追加します。特徴は、25 ミリ秒のフレーム サイズと 10 ミリ秒のストライドで生成されます。次に、Tensorflow バックエンドを介して Keras シーケンス モデルに基づくニューラル ネットワークに入力されます。

最初のレイヤーはガウス ノイズであり、これによりモデルは異なる無線チャネル間のノイズの違いに対して堅牢になります。クリップにリアルなノイズを人工的に重ね合わせるという別のアプローチを試しましたが、パフォーマンスが大幅に向上することなく、トレーニングの速度が大幅に低下しました。

次に、Conv1D、BatchNormalization、MaxPooling1D の 3 つのレイヤーを追加しました。バッチ正規化はモデルの収束に役立ち、最大プーリングは音声やチャネル ノイズの微妙な変化に対してモデルを堅牢にするのに役立ちます。さらに、ドロップアウト レイヤーを追加してみましたが、モデルは大幅に改善されませんでした。

最後に、密に接続されたニューラル ネットワーク レイヤーが追加され、シグモイド アクティベーションを持つ単一の出力密レイヤーに入力されます。

ラベル付きデータを生成する

オーディオクリップのラベル付けのプロセス(写真提供:著者)

トレーニング データにラベルを付けるには、問題領域のキーワードのリストを注釈者に渡し、語彙の単語が出現した場合はセグメントの開始位置と終了位置、および単語ラベルをマークするように依頼しました。

注釈の信頼性を確保するために、注釈者間で 10% の重複を設け、重複するセグメントでのパフォーマンスを計算しました。約 50 時間のラベル付きデータが揃うとトレーニングが開始され、トレーニング プロセスを繰り返しながらデータを収集し続けます。

語彙の中には他の単語よりも一般的な単語があるため、このモデルは一般的な単語に対してはうまく機能しますが、例が少ない単語に対しては困難を伴います。

単語の発音を他のセグメントに重ね合わせることで、人工的に例を作成することを試みました。ただし、パフォーマンスの向上は、これらの単語のトークンの実際の量に見合ったものではありません。最終的に、モデルは一般的な単語などに対してより敏感になります。ラベル付けされていないオーディオ クリップに対してモデルを実行し、学習した単語を含むクリップを削除します。これにより、将来のラベル付けで冗長な単語を削減できます。

モデルリリース

データ収集とハイパーパラメータ調整を数回繰り返した後、語彙内の単語に対して高い再現率と精度を持つモデルをトレーニングすることができました。重要なセキュリティアラートをキャプチャするには、高い再現率が非常に重要です。フラグが付けられたクリップはアラートが送信される前に聞かれるため、誤報は大きな問題にはなりません。

私たちはこのモデルをニューヨーク市のいくつかの行政区でテストし、音声の音量を 50~75% (チャネルによって異なります) 削減することができました。これは、ニューヨークではアナログ システムが原因で音声のノイズが非常に多いため、公共の音声テキスト変換エンジンでトレーニングしたモデルを大幅に上回る結果でした。

驚いたことに、モデルはニューヨーク市のデータでトレーニングされたにもかかわらず、シカゴの音声に切り替えてもうまく機能しました。シカゴの数時間の映像を収集した後、ニューヨーク市のモデルから得た学習内容をシカゴに転送したところ、シカゴでもモデルは良好なパフォーマンスを発揮しました。

[[340650]]

画像ソース: unsplash

カスタム ディープ ニューラル ネットワークを使用した音声処理パイプラインは、米国の主要都市の警察の音声に広範囲に適用されました。音声から重大な安全事故を検知し、全国の住民が市に迅速に放送できるようにすることで、地域の安全を守るという使命を果たします。

RNN、LSTM、Transformer よりも計算が簡単な CNN アーキテクチャを選択し、タグ付けプロセスを簡素化したことは、限られた時間とリソース内で、公開されている音声テキスト変換モデルを上回ることを可能にする大きな進歩です。

<<:  仕事とAIの未来

>>:  変革的な AI、ノーコード、ローコード - エンタープライズ AI 導入に最適なパスはどれでしょうか?

ブログ    

推薦する

自動運転と軌道予測についてはこちらの記事をお読みください。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

中国初の真のAI入力方式が発表され、未来の入力方式を革新する

入力がキーボードに別れを告げ、音声、表現、動作が入力方法になると、どのような魔法のような体験になるの...

RPA製造業アプリケーション事例共有

5G が推進し主導する、デジタル技術変革の新世代が正式に到来しました。今日、インターネットの急速な変...

Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?以前、Google の大ヒット...

フォレスターの予測: 2021年に人工知能が輝く

新型コロナウイルスが世界中で蔓延する中、これまでとは異なる新たな課題に直面する企業が増えています。た...

Aスターアルゴリズムの実装手順のJavaバージョン

スターアルゴリズムの手順: 1. 最初に、オープン リストに開始点を追加します。 2. オープンリス...

人工知能がブルーカラーの仕事に取って代わると、どのような影響があるでしょうか?

AI と ML をより多くのタスクに統合すると、短期的には多くのメリットが得られますが、長期的には...

年末には自動運転が実りある成果を上げ、その後の開発はワンストップサービスとなるでしょう!

2021年末までに、自動運転車の商業化は再び目覚ましい成果を達成しました。当社の統計によると、12...

運輸省:2025年までに自動運転技術の産業化を推進

道路交通自動運転技術の開発と応用の促進に関する運輸省の指導意見:道路交通の自動運転技術の開発と応用を...

...

米国、人工知能に関する大統領令を発表

人工知能には大きな可能性があり、その可能性と危険性の両方を兼ね備えています。 AI を責任を持って使...

...

アリババのダブル11は記録破りであるだけでなく、AIショーでもある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Google X、手作業でラベル付けすることなく一目で対象部品を見つけられるグリッパーアームをオープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ナレッジグラフは銀行のビジネスモデルをどのように変えるのでしょうか?

金融部門は、個人の購入から大規模な取引まで、莫大な富につながる大量の貴重なデータを定期的に生成してお...