「チューリップ」は、感染症予防・抑制期間中に政府情報へのアクセスを容易にするためのインテリジェントな質疑応答アシスタントを作成します。

突然の感染拡大に直面し、国民は情報の適時性、透明性、伝達効率にさらに注目するようになった。このような状況の中で、北京市経済情報化局と中国中央経済社会開発基金ビッグデータ専門委員会は、北京智源人工知能研究所と共同で、「科学技術による疫病撲滅・ビッグデータチャリティーチャレンジ」を開催しました。「Tulip」というアルゴリズムチームは、参加した595チームの中で傑出した成績を収め、リストAで2位、リストBで3位という素晴らしい成績を収めました。

Tulipはアルゴリズムとエンジニアリングの分野で豊富な経験を持つ業界チームであると伝えられています。メンバーは主に宜蘭群志社出身者で、銀鑫科技からの有能な外部支援も受けています。メンバーは全員、NLP ディープラーニング、情報検索/インターネット検索、データマイニングの分野のベテラン専門家です。アルゴリズムの開発全体には、プロジェクトの開始から評価の終了まで 30 日かかりました。

このコンテストは、DataFountainプラットフォームを通じて行われ、「疫病対策政府対応Q&Aアシスタント」というテーマを中心に行われました。感染症対策Q&Aアシスタントは、国民と企業に利益をもたらす政策データを収集・処理し、ユーザーからの政策に関する質問に対して、人間とコンピューターの対話によるQ&A方式で、関連する政策文書とその中の関連コンテンツを迅速かつ正確に見つけ出し、ユーザーに返すことを目指しています。これにより、さまざまな業界の企業が関連政策を正確に把握し、業務と生産をより適切に再開できるようになります。

疫病に関連する政府業務に関する質問に答えることは、全文検索と読解を組み合わせた複雑なタスクです。タスク設定は、情報に直面したときの人間の判断ロジックに非常に近いものです。質問に直面したとき、参加システムはドキュメントライブラリで関連文書を見つけるだけでなく、質問に最も関連性の高いコンテンツを見つける必要があります。これは、人間が文書を検索するときに行うプロセスに似ています。なぜこの文書が質問に最も関連しているのでしょうか?そこには、解決すべき問題に最もよく答えられる一節があるからです。

正しいターゲットを狙う： 「疫病対策Q&A 」の複雑さに向き合う

学術界における機械読解タスクデータセットのほとんどでは、質問とその回答を含む文書が直接対応していることが多く、読解モデルは大量の文書の中から関連文書を検索する必要がありません。しかし、実際のシナリオでは、ユーザーからの質問に対して、まずどのドキュメントに回答があるかを判断し、その後読解モデルを使用して実際の回答を見つける必要があります。そして、この回答文書は、多くの場合、検索ステップを通じて取得する必要があります。そのため、流行中に政府の質問に答えるタスクでは、タスクの結果に影響を与える2つの要因があります。1つ目は、検索モジュールが回答を含む文書の正確な呼び出しを保証できない可能性があること、2つ目は、回答が含まれている可能性のある複数の呼び出し文書の中で、正しい回答の場所が不確実であることです。さらに、政府の文書は一般的に非常に長く、回答も長くなる可能性があり、これにより作業の難易度が増します。

情報検索と認知インテリジェンスに関する豊富な経験と、モデルを迅速に反復して改善する能力が、 Tulip チームの成功の2 つの鍵です。 Tulip チームは、ElasticSearch に基づく全文検索モジュールと Transformer 構造に基づく読解モデルソリューションを採用し、質問の理解、コンテンツの検索、回答の抽出など、複数の側面で包括的なアルゴリズム機能を総合的に実証しました。質問応答システムは、主に「情報検索」と「読解」の2つの部分に分かれています。「チューリップ」は、疫病対策質問応答システムを設計する際に、競争を目標とし、実用性を方向性としました。疫病対策テキストの分野の特殊性を考慮して、計画全体の細部にさまざまな最適化を施しました。この総合ソリューションはコンテストで優秀な成績を収め、関連テキスト理解技術の総合ソリューションの先進性を改めて証明しました。

コンテスト中、チューリップチームはいくつかの大きな技術的課題を克服しました。

問題1:中国語の自然言語理解における基本技術として、中国語の単語分割の精度は下流のタスクの有効性に直接影響します。 ESでは、ik はよく使われる中国語の単語分割ツールです。ただし、政府文書はドメイン固有の性質を持っているため、ik ツールの有効性は大幅に制限されます。

回答1 : 政府文書の特殊性を考慮して、Tulip チームはさまざまな意味理解ツールを使用して文書の意味情報を理解します。文書を詳細に分析することで、実体名詞、長名詞、固有名詞、新語などの重要な要素を抽出し、カスタム辞書を構築して実際の単語分割効果を確保します。

問題2 : 検索モジュールにおける一般的な誤った想起は、イベントの主題の不一致によって発生します。たとえば、「蘇州市はどのようにして政府サービスのオンライン化を推進していますか？」と質問すると、検索結果は他の地域の「政府サービスのオンライン化の推進」に関する関連コンテンツである可能性があります。

回答2 : 政府の Q&A リクエストでは、テキストのイベントの主題は一意で一貫していることがよくあります。そのため、テキスト理解では、Tulip チームはイベントの主題を抽出し、イベントの主題が一致していることを確認しました。同時に、強力なルールフィルタリングによって発生する誤検知を回避するために、このソリューションではイベントサブジェクトを新しいインデックスドメインに配置します。クエリ中に質問内にイベントサブジェクトが見つかった場合、イベントサブジェクトインデックスドメインに対するクエリが追加されます。また、リクエスト内の行政区分イベント対象に対して、その上位行政区分に対して特別なフォールトトレラント処理が設定されます。

問題3 ：競争問題に対するトレーニングデータが不十分であり、読解モデルの一般化能力が限られている。

回答3 : Tulip チームは、統合学習テクノロジーを使用して、包括的な融合モデルソリューションを実装しています。統合モデルには、約 20 の基本モデルが含まれており、さまざまなモデルにインテリジェントに重みを割り当てます。重みは、検証セットにおけるモデルのパフォーマンスに基づいて割り当てられます。全量のデータを使用してトレーニングされたモデルの場合、重みは高くなります。同時に、敵対的サンプルを生成する高速勾配法 ( FGM ) アルゴリズムが追加され、モデルの一般化能力がさらに向上します。

問題4 : 政府文書は多くの場合非常に長く、読解モデルの長さ制限をはるかに超えています。読解タスクを実行する場合、長い文書を複数のテキストセグメントに切り詰める必要があります。ただし、長さを単純に切り捨てると、回答が失われ、文脈から外れてしまう可能性があります。

回答4 : Tulip チームは、回答のほとんどが 1 つの文で構成されていることを発見したため、テキストの前処理に中国語の文分割に基づく分割アルゴリズムを使用しました。具体的には、中国語の文章分割後の文章シーケンスを基本テキスト断片とし、最長の段落を最長シーケンス長を満たす最長連続文章シーケンスと規定し、条件を満たす断片を取得します。次に、 2 つのサブセグメント間の交差度を測定し、サブセグメントの全体的な冗長性を最適化することで、回答が失われるリスクを減らしながら冗長性を排除できるように適切にセグメント化されたサブセグメントを選択できます。

さまざまな場所で開花：インテリジェントなセマンティック検索エンジンの応用

このインテリジェントな質疑応答システムソリューションは、競争の中で優れたパフォーマンスを発揮しただけでなく、インテリジェントな検索やインテリジェントな質疑応答にも応用されています。このソリューションは、インタラクションの形式として自然言語を使用し、ユーザーエクスペリエンスを大幅に向上させます。

華夏基金研究報告インテリジェント検索システムは、このソリューションの代表的なアプリケーションの 1 つであることがわかっています。証券会社の調査レポートは投資家にとって大きな価値がありますが、長くて文章量が多いため、投資家が自分にとって有益な投資参考資料を入手するには時間がかかり、手間がかかることがよくあります。現在、このインテリジェントな調査レポート検索システムは、調査レポート内の事前評価、追跡レポート、トレンドチャート、調査議事録、投資アドバイスなどの検索意図を対象としています。NL2SQLを介して、調査レポートの質問と回答アシスタントの読解力と組み合わせることで、投資家が調査レポートをより速く、より簡単に、より効率的に理解するのに役立ちます。日常的な言葉で質問するだけで、関連する重要なコンテンツが即座に表示されるため、情報取得の効率が大幅に向上します。

さらに、この技術ソリューションに基づくインテリジェントなセマンティック検索エンジン製品は、さまざまな業界や分野でのシナリオ拡張をサポートします。この製品は、ナレッジグラフを使用して業界分野内のナレッジベースを統合し、質問と回答のアシスタントモデルを統合して、自然言語の「質問と回答」セマンティック入力を通じて、ユーザーにさらに正確なインテリジェント検索サービスを提供します。

政府にとって、この検索エンジンは政府内の大量データのガバナンス、意味分析、インテリジェントクエリに使用でき、政府がインテリジェント情報総合アプリケーションプラットフォームを構築するのに役立ちます。電子商取引にとって、電子商取引分野におけるターゲット製品の正確な検索をサポートし、ユーザーポートレートに基づいてよりパーソナライズされた検索結果を推奨できます。メディアにとって、大規模なメディアWebサイトのアプリケーションシナリオをサポートし、大量の情報を深く統合し、データの価値を深く掘り下げます。金融にとって、金融市場情報を統合し、動的に取得および分析し、金融機関により包括的で正確な金融データと情報を提供します。公安にとって、公安システムの業界特性に基づいて、公安業界向けの情報検索、問題分析、および知識管理プラットフォームを提供できます。

従来の検索エンジンは、一般的に単純で機械的な条件の組み合わせによってクエリを実行するため、インタラクティブなエクスペリエンスが乏しく、リスト形式が単純すぎるうえ、複数のソースの異種データの処理能力が不十分です。それに比べて、インテリジェントなセマンティック検索エンジン製品は、複数のソースの異種データの融合をサポートし、さまざまな形式で検索結果を提示し、自然言語の「質問と回答」スタイルのセマンティック入力をサポートし、強力な検索機能を備え、より便利な検索結果を提供します。

[概要] 意味理解に基づいたインテリジェントな会話やインテリジェントな検索が、私たちの日常生活にますます浸透しつつあります。将来的には、関連アプリケーションは、世界に基づいて構築された巨大な知識グラフに依存し、意味理解と組み合わせて、ユーザーにこれまでにない便利な体験を提供できるようになります。従来の検索技術と比較して、意味理解に基づくインテリジェントな対話とインテリジェントな検索は、人間とコンピューターの相互作用において、よりスマートで効率的、かつ配慮のある相互作用を提供します。検索がいくつかのキーワードに限定されなくなり、検索エンジンがさまざまな垂直分野とのつながりを徐々に深めていくと、インテリジェントな対話とインテリジェントな検索は真に「ユビキタス」になるかもしれません。