5G悪報セキュリティ管理プラットフォームにおけるディープラーニングに基づくテキスト感情認識技術の応用

著者: Sun Yue、所属部署: 中国移動 (杭州) 情報技術有限公司 | 中国移動杭州 R&D センター

ラボガイド

5G ネットワークの継続的な普及により、多数のユーザーが 5G ネットワークにアクセスして使用し始めています。 5G ネットワークは、従来のネットワークの音声、ビデオ、テキストなどの情報を伝送できるだけでなく、低遅延と高精度の測位機能により、ライブ戦場情報、衛星測位ナビゲーションなど、実用的な価値のあるより多くのアプリケーションシナリオで使用できます。

オンライン情報には、政治情報、ポルノ情報、ギャング関連情報、詐欺関連情報、商業広告メッセージなどの悪質な情報が混在することが多く、悪質な情報の量は年々増加しており、ユーザーに多大な迷惑をかけています。ネットワーク環境を浄化し、悪質な情報の拡散を効果的に抑制するために、中国移動の5G悪質な情報セキュリティ管理プラットフォームが誕生しました。

データソース: 中国移動グループ情報セキュリティセンター

1. 5G悪質情報制御プラットフォームの応用シナリオ

テキストメッセージ、音声メッセージ、ビデオメッセージ、リッチメディアメッセージなどの複雑なネットワーク情報環境に直面した場合、プラットフォームは情報を政治、ポルノ、ギャング関連、詐欺関連、商業広告メッセージ、通常のメッセージなどに分類し、対応する戦略を通じて速やかに傍受し、悪質なニュースの重大性に基づいてその後の処罰を行い、ネットワーク環境を根本から浄化し、良好なサイバースペースを創造します。

2. 既存の5G悪質情報制御プラットフォームの技術的ハイライト

プラットフォームは主に以下の方法で不正な情報を傍受します。

① 第一レベルのキーワードを設定する：第一レベルのキーワードは通常、非常に敏感な単語に設定されます。ユーザーが第一レベルのキーワードを含むメッセージを送信すると、メッセージはすぐにブロックされ、メッセージの内容は送信できず、ユーザーにマークが付けられます。

② 共通キーワードの設定：共通キーワードは、比較的センシティブな単語に設定されています。ユーザーが送信した情報に共通キーワードが含まれており、一定期間内にユーザーがこのセンシティブなメッセージを送信した回数がシステムの事前設定された傍受しきい値を超えると、システムはユーザーをブラックリストに登録し、一定期間内にユーザーは5Gネットワークサービス全体を利用できなくなります。

③ 複雑なテキスト情報監視の設定：ユーザーがテキストと画像を含む PDF ファイルを送信する場合、ファイルからテキストを抽出し、第 1 レベルのキーワードと共通キーワードのメカニズムでフィルタリングし、リッチメディアメカニズムを通じて画像をフィルタリングします。テキストと画像のフィルタリング結果に基づいて、ファイルの処理結果としてより重い処理の原則を採用します。

3. 既存の5G管理・制御プラットフォームの技術的な弱点

既存の5G悪報セキュリティ管理プラットフォームのフィルタリングメカニズムでは、特定の限定されたフレーズと短い文章しかフィルタリングできません。インターネットの普及に伴い、毎日大量の新しい単語が登場しており、手動で単語を追加することで、語彙ライブラリをタイムリーかつ迅速に更新することは不可能です。さらに、今日、多数のユーザーがテキストメッセージを送信する場合、テキストメッセージ全体に違法な言葉が含まれていなくても、表現された考えや感情には多くの否定的な感情的傾向が含まれている可能性があり、単語や短い文章だけに頼るだけでは否定的な感情コンテンツをうまく傍受することはできません。したがって、テキスト感情分析を使用して、否定的な感情傾向を含む文章を傍受してレビューすることで、否定的な情報制御の有効性をさらに高め、スパムによるユーザーへの侵食と被害を軽減できます。

人気のオンラインフレーズやニュースメッセージを含むテキスト感情ライブラリを構築することで、テキストに含まれる感情は、肯定的な感情、中立的な感情、否定的な感情の3つのカテゴリに分類されます。各テキストは、これらの3つのカテゴリに従ってラベル付けされます。感情ライブラリ内のテキストは、ディープラーニングネットワークを使用してトレーニングされます。トレーニングされたモデルは、5Gバッドニュース管理プラットフォームで使用され、悪い感情のメッセージを傍受できます。

4. ディープラーニングに基づく5Gバッド制御システムの技術的実装の詳細

このテクノロジーには、Jieba 単語分割システム、フレーズベクトル化、テキスト感情認識アルゴリズムという 3 つの主要な部分が含まれています。各部分間の相互作用は次の図に示されています。

モジュール相互作用フローチャート

クローラー技術を使用して、オンラインの単語やニュースメッセージを元のテキストとしてクロールし、元のテキストを8：2の比率でトレーニングセットとテストセットに分割します。トレーニングセットのテキスト情報にラベルを付け、Jieba単語分割ツールを使用してテストセットのテキスト情報を分割します。例：彼は杭州移動研究ビルに来ました。 Jieba 単語分割ツールを使用して単語を分割すると、結果は「he/came to/mobile/Hangzhou Research Institute/building」になります。最後に、分割されたデータはコーパスに整理されます。トレーニングセットとテストセット内のテキスト情報の量は非常に大きい (通常は数百万のデータ) ため、単語分割後のコーパス内のデータ量も非常に大きくなります (数千万のデータ)。これらのコーパスは数値の形でコーパスに保存できますが、データ量が膨大であるため次元障害が発生する可能性が非常に高くなります。したがって、「了」、「的」、「吗」など、テキスト情報に現れる助詞については、これらの単語は非常に頻繁に出現しますが、感情的な効果にはほとんど貢献しません。次元を削減するという目的を達成するために、これらのフレーズをコーパスから削除することを選択します。

トレーニングセット内のベクトル化されたフレーズをディープラーニングネットワークに送信して学習とトレーニングを行い、対応するモデルを取得します。最後に、テストセットのデータをモデルに入力して、対応する認識結果を表示します。モデルが良好な精度率を得られると、モデルは5G不良制御プラットフォームに接続され、ユーザーはフィルタリングのためにエンドツーエンドの情報を送信します。フィルタリングプロセス中に否定的な情報が見つかった場合は、タイムリーに傍受されるため、5G否定情報管理および制御システムは、否定的な情報の傍受においてより体系的かつ包括的になります。

具体的な手順は次のとおりです。

インターネットから元のテキストコーパスをクロールし、元のテキストを前処理します。これには、助詞の削除、テキスト内の句読点、空白領域、終端語、散在語、特定の語の削除が含まれます。単語分割に jieba ライブラリを使用し、フレーズに従ってテキスト文を個々のフレーズに正確に分割します。
クロールされたテキストデータセットは、一定の比率に従ってトレーニングセットとテストセットに分割され、トレーニングセット内のテキスト文は手動でラベル付けされ、肯定的な感情、否定的な感情、中立的な感情に分割されます。 jieba ライブラリを使用して、トレーニングセットとテストセット内のテキスト文を分割し、分割後のトレーニングセットをコーパスに構築します。
ステップ 1 のフレーズをベクトル化し、各単語セグメントを多次元連続値ベクトルにマッピングして、データセット全体の単語ベクトルマトリックスを取得します。
まず感情語が位置する節を抽出することで文章の複雑さを軽減し、次にさまざまな特徴に基づいて節内の感情オブジェクトの位置を予測し、対応する位置から感情を抽出します。感情抽出とは、テキストから貴重な感情情報を取得し、感情表現における単語やフレーズの役割を判断することです。これには、感情を表現する人物の識別、評価対象の識別、感情意見語の識別などのタスクが含まれます。
上記の操作で得られた感情ベクトルはディープラーニングネットワークに送信され、テキスト感情認識モデルが得られます。次に、テストセット内の感情ベクトルがモデルに送信され、テスト結果が確認され、検出結果が正常なデータは、テキストマッチング、リッチメディア認識などの従来の戦略によってフィルタリングされます。

5. ディープラーニングを取り入れた5G傍受システムの利点

既存の5G傍受システムと比較して、ディープラーニングを統合した5G傍受システムには以下の利点があります。

ディープラーニング技術を使用して、高い信頼性と真正性を備えた効果的な識別を提供します。
感情認識にディープラーニング技術を使用し、手動介入を減らして作業効率を高めます。
テキスト感情認識を使用すると、キーワード傍受の欠点を効果的に補うことができます。
テキスト感情認識を利用することで、新しいエントリ情報を戦略にタイムリーに自動的に更新および補足し、効率を向上させることができます。

結論は：

現在、ディープラーニングの応用分野は非常に広く、反復トレーニングと自己学習方式を利用することで、手作業の作業負荷を大幅に軽減し、効率と精度を向上させることができます。この技術は、前述の悪質な情報遮断システムに応用できるだけでなく、近い将来、他の新興分野でも活躍すると信じています。もちろん、ディープラーニング自体は完璧ではなく、すべての難しい問題を解決できるわけではありません。そのため、新たなブレークスルーを達成し、より良い未来のスマートライフを実現するために、ディープラーニング技術を新しいシナリオや新しい分野に適用し続ける必要があります。

<<: メタ研究者が新たなAIの試み：地図や訓練なしでロボットに物理的なナビゲーションを教える

>>: データセットを正しく分割するにはどうすればいいでしょうか? 3つの一般的な方法の概要