シャンダイノベーション研究所とソゴウ研究者：自然言語処理の応用

【TechWeb Report】6月26日、山大創新研究所検索テーマ研究所研究員の賈文傑氏と捜狗自然言語処理研究員の張凡氏が本日第165回ITドラゴンゲートアレイにゲストとして招かれ、自然言語処理の応用と難しさについて意見を交わした。

シャンダイノベーション研究所検索テーマ研究所研究員賈文傑氏：検索用中国語単語分割システム

山大創新研究所検索テーマ研究所研究員の賈文傑氏が「検索のための中国語単語分割システム」について基調講演を行った。彼は、「検索であれ、推奨であれ、単語の分割は中国のインターネットのインテリジェントな処理に不可欠なステップである」と考えています。

単語分割の最初の用途は検索です。単語分割を使用すると、語彙を大幅に拡張できます。単語に基づいてインデックスを作成すると、後続のチェーンが大幅に削減され、逆リストの削減により時間が節約されます。2番目の用途は、推奨システムなどのコンテキスト広告です。「読書、ビデオ、写真、電子商取引など、コンテンツの類似性に基づいて推奨が行われ、空間モデルに基づいているか、短い本に基づいているかに関係なく、最初のステップは単語分割です。」

賈文傑氏は、中国語の単語分割の第一の難しさは曖昧さを分割することだと紹介した。言語単位には多くの方法がある。第二の難しさは未登録語、つまり単語分割システムに含まれていない単語、または登場していない単語である。

これに基づいて、中国語の単語分割の現在の一般的なアルゴリズムには、教師なし分割、辞書ベースの機械的分割、言語モデルベースの分割、および文字タグ付けベースの分割が含まれます。その中で、言語モデルベースの方法が最も一般的に使用されている方法です。

「このような単語分割システムを作成する際に実行する必要がある主要なタスクは何ですか? 1 つ目は、URL、時間、数字、日付などの単純な名前付きエンティティの原子単語認識です。難しいのはルールの配置です。たとえば、時間を表す表現はたくさんあります。2 つ目のモジュールは名前付きエンティティの認識です。上記の名前付きエンティティに加えて、残りのエンティティは主に人、場所、機関の名前です。正規表現を使用して記述することはできません。どうすればよいでしょうか? シーケンス注釈メソッドに基づいて実行し、いくつかのメソッドを使用して辞書にない単語を検索できます。」

言語モデルをトレーニングするには、単語分割のコーパスを収集する必要があります。現在のコーパスには、富士通と北京大学が作成した人民日報コーパス、ペンシルバニア州の中国語ツリーバンク、台北の中央研究院のツリーバンクなどがあります。

人民日報コーパスは1400万語を収録しており、最大のコーパスですが、新しい単語が不足していること、作成されてから時間が経ちすぎていること、表現や語順が大きく変化していること、そしてまだ十分な大きさではないことが問題です。

賈文傑氏は、Shanda Innovation Instituteが立ち上げたShanda Cloud Word Segmentationを紹介した。その利点は、単語分割結果がより良く、単語分割がより速く、単語分割がアクティブであることだ。単語分割は常に更新され、さらに、検索に最適化されており、中国語と英語以外の言語での単語分割もサポートしている。

Sogou の自然言語処理研究員補佐、張凡氏: 検索クエリの意図の識別

Sogou自然言語処理研究員補佐の張凡氏は、「検索クエリの意図識別」について基調講演を行いました。張氏は、意図識別とは、ユーザーのニーズをよりよく満たすために、ユーザーが何をしたいのかを知ることだと考えています。

既存の検索エンジンは、一般検索エンジンと垂直検索エンジンの 2 つのカテゴリに分かれており、それぞれに特徴があります。一般的な検索エンジンは、インターネット上のあらゆる価値あるものを捕捉し、統一されたインデックスを作成し、キーワードマッチングを基本的な検索方法とし、ウェブページのタイトルや概要を表示方法とします。一般的な検索エンジンとしては、Baidu、Google、Sogou、Soso、Youdao などが挙げられます。

垂直検索エンジンは、特定のカテゴリをテーマとして、テーマに関連する情報のみをクロールします。テーマの特性に基づいて、対応するインデックス検索方法、スクリーニング方法、およびよりターゲットを絞った表示方法を確立します。航空券検索、地図検索、ショッピング検索などが代表的です。

「一般的な検索エンジンの欠点は、一般的で正確性が十分ではないことです。一方、垂直検索エンジンの欠点は、ユーザーが複数のウェブサイトを覚えておく必要があることです。この2つを組み合わせる方法はないでしょうか？」と張凡氏は述べ、「検索語句に対応する垂直検索を識別し、そこから結果を取得して一般的な検索エンジンに埋め込むことで、ユーザーに優れたエクスペリエンスを提供できます」と語った。これが意図認識の目的である。

意図認識の難しさとしては、非標準の入力、意図が多すぎること、意図の強さの差別化、コーパスの継続的かつ正確な取得、検索結果の信頼性、適時性の問題などが挙げられます。

Zhang Fan は意図認識のためのいくつかの方法を提案しました。

網羅的語彙法は最も単純かつ直接的な方法であり、語彙の直接マッチングを通じてクエリの意図を取得します。ホワイトリストシステム、語彙拡張システム、語彙前処理システムを確立することで実装されます。この方法の利点は、シンプルで実装が簡単なことです。欠点は、再現率が比較的低く、手動比率が比較的高いことです。

ルール解析方式は、焦点が絞られておらず、ルールに準拠していない一部のクエリに適しています。ルール解析クエリを通じて、共同識別とキー情報の抽出を実行できます。例えば、為替レートの照会、計算機、度量衡など。正確な情報抽出が利点ですが、規則性が強いカテゴリにしか適用できないという欠点があります。

統計モデル分類方法には、一般的に 2 種類あります。1 つはクエリ用語自体に基づく分類、もう 1 つはクエリ用語の結果に基づく分類です。この方法は、クエリが比較的散在していてルールが明確でないカテゴリに適しています。これは最も一般的に使用される方法であり、最も広範囲に及ぶ範囲をカバーします。この方法の欠点は、実装が比較的複雑で、データの取得と更新が難しいことです。

張凡氏は、これに加えて、検索結果の適時性を判断することによって実装されるWeibo意図認識などのいくつかの特殊な意図認識方法があることを紹介しました。

張凡氏は、意図認識の今後の発展方向は、カテゴリ概念のない意図認識、パーソナライズされた意図認識、正確な意図認識、音声アプリケーションの意図認識であると考えています。（張睿）

<<: App Storeが検索アルゴリズムを大幅に変更：名前よりも人気に重点を置く

>>: App Storeのランキングアルゴリズムの変更、開発者は準備が必要