リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

米国の主要都市では、市民は 24 時間体制で何千もの公共緊急対応無線電波を受信しており、この情報は 500 万人以上のユーザーに火災、強盗、行方不明などの緊急事態に関するリアルタイムの安全警報を提供するために使用されています。人々は毎日 1,000 時間以上の音声を聞いており、これは新しい都市を開発する必要がある企業にとって課題となっています。

[[340648]]

そこで、音声から重大な安全事故に関する情報を取得できる機械学習モデルを構築しました。

カスタムソフトウェア定義無線 (SDR) は、広範囲の無線周波数 (RF) をキャプチャし、最適化されたオーディオクリップを ML モデルに送信してラベル付けします。タグ付けされたクリップはオペレーションアナリストに送信され、アナリストはアプリにインシデントを記録し、最終的にインシデント発生場所の近くにいるユーザーに通知します。

セキュリティアラートワークフロー（著者提供の画像）

問題領域に音声テキスト変換エンジンを適応させる

公開音声テキスト変換エンジンを使用したクリップ分類器（画像提供：著者）

まず、単語誤り率 (WER) に基づいて、最もパフォーマンスの高い音声テキスト変換エンジンから始めます。多くの警察官は、日常語にはない特別なコードを使用します。たとえば、ニューヨーク市警の警察官は、援軍を要請するために「シグナル 13」を送信します。

音声コンテキストを使用して語彙をカスタマイズします。ドメインに適応するために、いくつかの語彙も拡張しました。たとえば、「assault」は一般的ではありませんが、ドメインでは一般的です。モデルは「a salt」ではなく「assault」を検出する必要があります。

パラメータを調整した後、いくつかの都市では比較的正確な転写を得ることができました。次に、音声クリップの文字起こしデータを使用して、どのクリップが市民に関連しているかを調べます。

転写と音声特徴に基づくバイナリ分類器

転写を入力、信頼度レベルを出力とするバイナリ分類問題のモデルを構築し、XGBoost アルゴリズムがデータセットに対して最高のパフォーマンスを発揮しました。

元警察官から聞いた話によると、一部の都市では、地元警察の注意を引くために、大きな出来事をラジオで放送する前に特別なサイレンを鳴らしているそうだ。この「追加」機能により、特に転写エラーが発生した場合に、モデルがより堅牢になります。その他の便利な機能としては、警察チャンネルと送信 ID があります。

私たちは運用ワークフローで ML モデルをテストしました。数日間実行した後、モデルタグ付きスニペットのみを使用したアナリストはイベントで間違いを起こさなかったことに気付きました。

私たちはこのモデルをいくつかの都市で立ち上げました。これまでは不可能だった、1 人のアナリストが複数の都市からの音声を同時に処理できるようになりました。より多くの遊休容量が稼働するようになれば、新たな都市を開発することが可能になります。

このモデルの導入により、アナリストの音声量が大幅に削減されました（画像は著者提供）

パブリック音声テキスト変換エンジンを超えて

このモデルはすべての問題の万能薬ではなく、音質が良かったいくつかの都市でのみ使用できました。公開されている音声テキスト変換エンジンは、ラジオとは異なる音響プロファイルを持つ音素モデルに基づいてトレーニングされているため、文字起こしの品質が信頼できない場合があります。ノイズの多い古いアナログシステムでは、転写はまったく使えませんでした。

複数のソースから複数のモデルを試しましたが、データセットに類似した音響プロファイルでトレーニングされたモデルはなく、ノイズの多いオーディオを処理できませんでした。

パイプラインの残りの部分は変更せずに、元の音声テキスト変換エンジンをデータでトレーニングされたエンジンに置き換えようとしました。しかし、音声の場合は何百時間もの文字起こしデータが必要となり、その生成には時間とコストがかかります。

また、語彙の中で「重要」と定義されている単語のみを転記し、無関係な単語にはスペースを追加することでプロセスを最適化するオプションもありますが、これはまだ作業量を徐々に削減するだけです。最終的に、私たちは問題領域向けにカスタム音声処理パイプラインを構築することにしました。

キーワード検出のための畳み込みニューラルネットワーク

キーワードだけを気にするので、単語の正しい順序を知る必要はなく、キーワード認識の問題を簡素化できます。これははるかに簡単なので、データセットでトレーニングされた畳み込みニューラルネットワーク (CNN) を使用することにしました。

畳み込みニューラルネットワーク (CNN) を再帰型ニューラルネットワーク (RNN) または長短期記憶 (LSTM) モデル上で使用することで、トレーニングと反復処理をより高速に行うことができます。ほぼ同等ですが、実行には大量のハードウェアを必要とする Transformer モデルを評価しました。

単語を検出するためにオーディオセグメント間の短期的な依存関係のみを探すため、計算的に単純な CNN は Transformer モデルよりも優れているように見えますが、ハードウェアスペースが解放され、ハイパーパラメータの調整によって柔軟性が向上します。

畳み込みニューラルネットワークを使用してキーワードを識別するためのクリップタグ付けモデル (画像提供: 著者)

オーディオクリップは、固定の長さのサブクリップに分割されます。語彙の単語が出現すると、サブセグメントに肯定的なラベルが付けられます。次に、セグメント内にそのようなサブセグメントが見つかった場合、オーディオセグメントは有用であるとマークされます。

トレーニング中、サブクリップの継続時間を変えて、それが融合パフォーマンスにどのように影響するかを実験しました。スニペットが長いと、モデルがスニペットのどの部分が有用であるかを判断するのが難しくなり、モデルのデバッグも難しくなります。短いスニペットは、単語の一部が複数のクリップに表示されることを意味し、モデルが認識するのが難しくなります。このハイパーパラメータを調整して、適切な期間を見つけることは可能です。

各サブクリップについて、オーディオをメル周波数ケプストラム係数 (MFCC) に変換し、1 次および 2 次導関数を追加します。特徴は、25 ミリ秒のフレームサイズと 10 ミリ秒のストライドで生成されます。次に、Tensorflow バックエンドを介して Keras シーケンスモデルに基づくニューラルネットワークに入力されます。

最初のレイヤーはガウスノイズであり、これによりモデルは異なる無線チャネル間のノイズの違いに対して堅牢になります。クリップにリアルなノイズを人工的に重ね合わせるという別のアプローチを試しましたが、パフォーマンスが大幅に向上することなく、トレーニングの速度が大幅に低下しました。

次に、Conv1D、BatchNormalization、MaxPooling1D の 3 つのレイヤーを追加しました。バッチ正規化はモデルの収束に役立ち、最大プーリングは音声やチャネルノイズの微妙な変化に対してモデルを堅牢にするのに役立ちます。さらに、ドロップアウトレイヤーを追加してみましたが、モデルは大幅に改善されませんでした。

最後に、密に接続されたニューラルネットワークレイヤーが追加され、シグモイドアクティベーションを持つ単一の出力密レイヤーに入力されます。

ラベル付きデータを生成する

オーディオクリップのラベル付けのプロセス（写真提供：著者）

トレーニングデータにラベルを付けるには、問題領域のキーワードのリストを注釈者に渡し、語彙の単語が出現した場合はセグメントの開始位置と終了位置、および単語ラベルをマークするように依頼しました。

注釈の信頼性を確保するために、注釈者間で 10% の重複を設け、重複するセグメントでのパフォーマンスを計算しました。約 50 時間のラベル付きデータが揃うとトレーニングが開始され、トレーニングプロセスを繰り返しながらデータを収集し続けます。

語彙の中には他の単語よりも一般的な単語があるため、このモデルは一般的な単語に対してはうまく機能しますが、例が少ない単語に対しては困難を伴います。

単語の発音を他のセグメントに重ね合わせることで、人工的に例を作成することを試みました。ただし、パフォーマンスの向上は、これらの単語のトークンの実際の量に見合ったものではありません。最終的に、モデルは一般的な単語などに対してより敏感になります。ラベル付けされていないオーディオクリップに対してモデルを実行し、学習した単語を含むクリップを削除します。これにより、将来のラベル付けで冗長な単語を削減できます。

モデルリリース

データ収集とハイパーパラメータ調整を数回繰り返した後、語彙内の単語に対して高い再現率と精度を持つモデルをトレーニングすることができました。重要なセキュリティアラートをキャプチャするには、高い再現率が非常に重要です。フラグが付けられたクリップはアラートが送信される前に聞かれるため、誤報は大きな問題にはなりません。

私たちはこのモデルをニューヨーク市のいくつかの行政区でテストし、音声の音量を 50～75% (チャネルによって異なります) 削減することができました。これは、ニューヨークではアナログシステムが原因で音声のノイズが非常に多いため、公共の音声テキスト変換エンジンでトレーニングしたモデルを大幅に上回る結果でした。

驚いたことに、モデルはニューヨーク市のデータでトレーニングされたにもかかわらず、シカゴの音声に切り替えてもうまく機能しました。シカゴの数時間の映像を収集した後、ニューヨーク市のモデルから得た学習内容をシカゴに転送したところ、シカゴでもモデルは良好なパフォーマンスを発揮しました。

[[340650]]

画像ソース: unsplash

カスタムディープニューラルネットワークを使用した音声処理パイプラインは、米国の主要都市の警察の音声に広範囲に適用されました。音声から重大な安全事故を検知し、全国の住民が市に迅速に放送できるようにすることで、地域の安全を守るという使命を果たします。

RNN、LSTM、Transformer よりも計算が簡単な CNN アーキテクチャを選択し、タグ付けプロセスを簡素化したことは、限られた時間とリソース内で、公開されている音声テキスト変換モデルを上回ることを可能にする大きな進歩です。

<<: 仕事とAIの未来

>>: 変革的な AI、ノーコード、ローコード - エンタープライズ AI 導入に最適なパスはどれでしょうか?

リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

チャットボットは過去のもの：避けられない運命…

大規模モデルのRLHFは必ずしも人間に依存するものではなく、Google：AIフィードバックも同様に効果的

ReLUを使用する限り、それは「浅い学習」です。どのReLUニューラルネットワークも同等の3層ネットワークを持っています。

AmazonのAI研究開発はファッショントレンドをリードするために異なるアプローチを採用しています

今後10年間で、AIは「スモールデータ」時代の到来を告げるでしょうか?

パスワード危機: ディープラーニングがパスワードクラッキングを加速!

「顔支払い」が破綻？誰かがジャック・マーの写真を使って実験したところ、画面に4つの大きな文字がポップアップしました。

企業がクラウドに移行する際、IT 運用と保守は AI を通じてどのようにインテリジェンスを実現できるでしょうか?

世界最大の多言語音声データセットがオープンソースになりました! 23言語で40万時間以上

推薦する

自動運転と軌道予測についてはこちらの記事をお読みください。

中国初の真のAI入力方式が発表され、未来の入力方式を革新する

RPA製造業アプリケーション事例共有

Google Gemini の大きな転換？ Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

フォレスターの予測: 2021年に人工知能が輝く

Aスターアルゴリズムの実装手順のJavaバージョン

人工知能がブルーカラーの仕事に取って代わると、どのような影響があるでしょうか?

年末には自動運転が実りある成果を上げ、その後の開発はワンストップサービスとなるでしょう！

運輸省：2025年までに自動運転技術の産業化を推進

米国、人工知能に関する大統領令を発表

アリババのダブル11は記録破りであるだけでなく、AIショーでもある

Google X、手作業でラベル付けすることなく一目で対象部品を見つけられるグリッパーアームをオープンソース化

ナレッジグラフは銀行のビジネスモデルをどのように変えるのでしょうか?