著者: Sun Yue、所属部署: 中国移動 (杭州) 情報技術有限公司 | 中国移動杭州 R&D センター ラボガイド5G ネットワークの継続的な普及により、多数のユーザーが 5G ネットワークにアクセスして使用し始めています。 5G ネットワークは、従来のネットワークの音声、ビデオ、テキストなどの情報を伝送できるだけでなく、低遅延と高精度の測位機能により、ライブ戦場情報、衛星測位ナビゲーションなど、実用的な価値のあるより多くのアプリケーション シナリオで使用できます。 オンライン情報には、政治情報、ポルノ情報、ギャング関連情報、詐欺関連情報、商業広告メッセージなどの悪質な情報が混在することが多く、悪質な情報の量は年々増加しており、ユーザーに多大な迷惑をかけています。ネットワーク環境を浄化し、悪質な情報の拡散を効果的に抑制するために、中国移動の5G悪質な情報セキュリティ管理プラットフォームが誕生しました。 データソース: 中国移動グループ情報セキュリティセンター 1. 5G悪質情報制御プラットフォームの応用シナリオテキストメッセージ、音声メッセージ、ビデオメッセージ、リッチメディアメッセージなどの複雑なネットワーク情報環境に直面した場合、プラットフォームは情報を政治、ポルノ、ギャング関連、詐欺関連、商業広告メッセージ、通常のメッセージなどに分類し、対応する戦略を通じて速やかに傍受し、悪質なニュースの重大性に基づいてその後の処罰を行い、ネットワーク環境を根本から浄化し、良好なサイバースペースを創造します。 2. 既存の5G悪質情報制御プラットフォームの技術的ハイライトプラットフォームは主に以下の方法で不正な情報を傍受します。 ① 第一レベルのキーワードを設定する:第一レベルのキーワードは通常、非常に敏感な単語に設定されます。ユーザーが第一レベルのキーワードを含むメッセージを送信すると、メッセージはすぐにブロックされ、メッセージの内容は送信できず、ユーザーにマークが付けられます。 ② 共通キーワードの設定:共通キーワードは、比較的センシティブな単語に設定されています。ユーザーが送信した情報に共通キーワードが含まれており、一定期間内にユーザーがこのセンシティブなメッセージを送信した回数がシステムの事前設定された傍受しきい値を超えると、システムはユーザーをブラックリストに登録し、一定期間内にユーザーは5Gネットワークサービス全体を利用できなくなります。 ③ 複雑なテキスト情報監視の設定:ユーザーがテキストと画像を含む PDF ファイルを送信する場合、ファイルからテキストを抽出し、第 1 レベルのキーワードと共通キーワードのメカニズムでフィルタリングし、リッチ メディア メカニズムを通じて画像をフィルタリングします。テキストと画像のフィルタリング結果に基づいて、ファイルの処理結果としてより重い処理の原則を採用します。 3. 既存の5G管理・制御プラットフォームの技術的な弱点既存の5G悪報セキュリティ管理プラットフォームのフィルタリングメカニズムでは、特定の限定されたフレーズと短い文章しかフィルタリングできません。インターネットの普及に伴い、毎日大量の新しい単語が登場しており、手動で単語を追加することで、語彙ライブラリをタイムリーかつ迅速に更新することは不可能です。さらに、今日、多数のユーザーがテキストメッセージを送信する場合、テキストメッセージ全体に違法な言葉が含まれていなくても、表現された考えや感情には多くの否定的な感情的傾向が含まれている可能性があり、単語や短い文章だけに頼るだけでは否定的な感情コンテンツをうまく傍受することはできません。したがって、テキスト感情分析を使用して、否定的な感情傾向を含む文章を傍受してレビューすることで、否定的な情報制御の有効性をさらに高め、スパムによるユーザーへの侵食と被害を軽減できます。 人気のオンラインフレーズやニュースメッセージを含むテキスト感情ライブラリを構築することで、テキストに含まれる感情は、肯定的な感情、中立的な感情、否定的な感情の3つのカテゴリに分類されます。各テキストは、これらの3つのカテゴリに従ってラベル付けされます。感情ライブラリ内のテキストは、ディープラーニングネットワークを使用してトレーニングされます。トレーニングされたモデルは、5Gバッドニュース管理プラットフォームで使用され、悪い感情のメッセージを傍受できます。 4. ディープラーニングに基づく5Gバッド制御システムの技術的実装の詳細このテクノロジーには、Jieba 単語分割システム、フレーズベクトル化、テキスト感情認識アルゴリズムという 3 つの主要な部分が含まれています。各部分間の相互作用は次の図に示されています。 モジュール相互作用フローチャート クローラー技術を使用して、オンラインの単語やニュースメッセージを元のテキストとしてクロールし、元のテキストを8:2の比率でトレーニングセットとテストセットに分割します。トレーニングセットのテキスト情報にラベルを付け、Jieba単語分割ツールを使用してテストセットのテキスト情報を分割します。例:彼は杭州移動研究ビルに来ました。 Jieba 単語分割ツールを使用して単語を分割すると、結果は「he/came to/mobile/Hangzhou Research Institute/building」になります。最後に、分割されたデータはコーパスに整理されます。トレーニング セットとテスト セット内のテキスト情報の量は非常に大きい (通常は数百万のデータ) ため、単語分割後のコーパス内のデータ量も非常に大きくなります (数千万のデータ)。これらのコーパスは数値の形でコーパスに保存できますが、データ量が膨大であるため次元障害が発生する可能性が非常に高くなります。したがって、「了」、「的」、「吗」など、テキスト情報に現れる助詞については、これらの単語は非常に頻繁に出現しますが、感情的な効果にはほとんど貢献しません。次元を削減するという目的を達成するために、これらのフレーズをコーパスから削除することを選択します。 トレーニングセット内のベクトル化されたフレーズをディープラーニングネットワークに送信して学習とトレーニングを行い、対応するモデルを取得します。最後に、テストセットのデータをモデルに入力して、対応する認識結果を表示します。モデルが良好な精度率を得られると、モデルは5G不良制御プラットフォームに接続され、ユーザーはフィルタリングのためにエンドツーエンドの情報を送信します。フィルタリングプロセス中に否定的な情報が見つかった場合は、タイムリーに傍受されるため、5G否定情報管理および制御システムは、否定的な情報の傍受においてより体系的かつ包括的になります。 具体的な手順は次のとおりです。
5. ディープラーニングを取り入れた5G傍受システムの利点既存の5G傍受システムと比較して、ディープラーニングを統合した5G傍受システムには以下の利点があります。
結論は:現在、ディープラーニングの応用分野は非常に広く、反復トレーニングと自己学習方式を利用することで、手作業の作業負荷を大幅に軽減し、効率と精度を向上させることができます。この技術は、前述の悪質な情報遮断システムに応用できるだけでなく、近い将来、他の新興分野でも活躍すると信じています。もちろん、ディープラーニング自体は完璧ではなく、すべての難しい問題を解決できるわけではありません。そのため、新たなブレークスルーを達成し、より良い未来のスマートライフを実現するために、ディープラーニング技術を新しいシナリオや新しい分野に適用し続ける必要があります。 |
<<: メタ研究者が新たなAIの試み:地図や訓練なしでロボットに物理的なナビゲーションを教える
>>: データセットを正しく分割するにはどうすればいいでしょうか? 3つの一般的な方法の概要
科学技術の継続的な発展に伴い、ますます多くのブラックテクノロジーが私たちの生活に浸透し始めており、そ...
近年、バーチャルデジタルヒューマン業界は大変人気が高まっており、あらゆる分野の人々が独自のデジタルヒ...
6月26日のニュース:大学入試願書の記入は毎年大学入試後の重要なステップであり、受験生や保護者が最も...
7月4日、コード生成に重点を置いたAIモデルとしてMetaGPTが発表された。名前は似ているが、Me...
技術オタクの父親たちは、Netflix のエピソードを数本静かに観るために何をするのでしょうか? [...
以前、GPT + mindshow 自動 PPT の操作プロセスを紹介しました。主な手順は、まず G...
モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...
人工知能はあらゆる業界に混乱をもたらしています。医療分野では、AI 技術が病気の診断において人間を上...
機械学習の分野が発展し続けるにつれて、機械学習を扱うチームが単一のマシンでモデルをトレーニングするこ...
[[199809]]まず第一に、この質問は非常に広範囲にわたります。機械学習にはさまざまな方向性が...
7月9日、2020年世界人工知能会議クラウドサミットが正式に開幕しました。 AI という SF 用語...