「質問の海」戦略を取り除き、モデルに人間のように考えることを学習させる

[[395305]]

最近、Ant Security Tianzhu Labのセキュリティ専門家であるJiao Xue氏と復旦大学自然言語処理チーム（Fudan NLP）のWei Zhongyu教授が共同執筆した学術論文「小規模サンプル学習に基づくパーソナライズされたハッシュタグ推奨」が、中国コンピュータ学会が推奨するB級ジャーナルであるJournal of Chinese Information Sciencesに掲載されました。

『中国情報処理ジャーナル』は1986年に創刊されました。コンピューターとコンピューティング技術分野の中国のジャーナル83誌から選ばれた15の主要ジャーナルの1つとして、わが国の情報処理の高度なレベルをタイムリーに反映しています。データによれば、「中国情報処理ジャーナル」は毎年、さまざまな関連サブ分野で平均約 10 件の論文を受け入れており、中国における中国語情報処理の最新の進歩と学術的傾向を反映しています。

1. 迅速な学習：「疑問の海」から「知識を他のケースに適用する」へ

ソーシャルメディアにコンテンツを投稿する際に「#」と入力すると、ソーシャルメディアが適切なハッシュタグを推奨し、コンテンツを対応するトピックに分類するため、ソーシャルメディア上のコンテンツの分類と管理が容易になります。

ハッシュタグ推奨アルゴリズムに小サンプル学習アルゴリズムを導入する必要があるのはなぜですか?復旦大学自然言語処理チームの曾蘭軍氏は次のように紹介しました。「たとえば、既存のハッシュタグ推奨アルゴリズムは、一般的に分類フレームワークに基づいています。100 のカテゴリに属するソーシャルメディアのテキストを使用してモデルをトレーニングすると、後で推奨を行うときに、モデルは推奨するテキストをこれらの 100 のカテゴリに分類することしかできません。」再トレーニングを行わないと、モデルはトレーニング中に表示されなかったハッシュタグを処理できません。

ただし、ハッシュタグは現在注目されている話題に合わせて急速に更新されます。研究チームは、ユーザーが「#」と入力すると、ユーザーのソーシャルメディアテキストの履歴特性と現在のテキストコンテンツに基づいて、ユーザーが必要とする可能性のあるハッシュタグをソーシャルメディアが推測し、適切なハッシュタグを推奨してくれることを期待しています。

この問題を解決するために、この論文ではハッシュタグ推奨タスクを小規模なサンプル学習タスクとしてモデル化することを提案しています。同時に、ハッシュタグの使用に関するユーザーの好みを組み合わせることで、推奨事項の複雑さが軽減されます。インターネット上で公開されている認可 API を通じて取得したデータセットの実験では、現在の最適な方法と比較して、モデルはより優れた推奨結果を達成できるだけでなく、より堅牢に (つまり、より安定して) 実行できることが示されています。

通常、モデルがカテゴリを認識する場合、カテゴリを正しく識別するためには大量のデータが必要です。データ学習に依存するこのような認識は、大量の問題を解く戦術によって効率を向上させるが、効果的な推論ロジックが欠けている大学入試マシンのようなものです。人間は、たとえ子供であっても、見ている絵が何であるかを伝えれば、すぐにそのカテゴリーを認識できます。

小規模サンプル学習とは、少数のサンプルのみでカテゴリを見た後、そこから学習してカテゴリを認識する能力を機械に与えることです。ユーザーの履歴特性、以前に学習した経験、現在の少数のサンプルに基づいて新しいカテゴリをすばやく認識できるため、認識効率が向上します。

将来的には、小規模サンプル学習はより多くの分野に適用できるようになります。不正リスクの防止と管理において、不正リスクの状況認識と不正管理には不正手法の特定が重要です。今後も新たな詐欺の手口は次々と現れ、新たな手口のサンプルを蓄積しても、優れた認識モデルを訓練するには不十分な場合が多くあります。また、蓄積されたわずかなサンプルでいかにして新たな手口を正確に識別するかも課題です。小規模サンプル学習に関するこの研究の次の計画は、それを詐欺手法の識別シナリオに移行することです。

2. 知識主導：「詰め込み型受容」から「能動的な推論」へ

魏中宇教授とAnt Tianzhu Security Labは、小規模サンプル学習の分野に加えて、不正要素識別の分野でも協力しています。魏中宇教授は、このプロジェクトの目的は、多数のユーザーの詐欺苦情のテキストに直面したときに、モデルが詐欺要素が満たされているかどうかを判断できるようにし、次に報告テキストを通じて詐欺の事実が確立されているかどうかを判断できるようにすることだと述べた。

このプロジェクトの革新性は、以前のモデル認識がデータによって駆動されていたのに対し、現在ではモデルがテキスト要素を認識した後で能動的に推論できるようになり、データ学習と知識推論の二重の駆動により、リスクが発生する前により効果的に防止できるようになった点にあります。

このプロジェクトはビジネスシナリオとの関連性が高いものの、チームには法律の専門家がいないため、初期段階では不正なテキストの注釈付けと識別に困難が生じました。情報検索システムと関連文献の調査を通じて、予備的なテキスト注釈フレームワークを設計することしかできませんでした。

Antは協力に司法チームを導入し、詐欺の識別のための比較的専門的なフレームワーク設計を提供し、ラベリングシステムの構築をビジネスシナリオにさらに適合させました。このフレームワークに基づいて、学校チームはデータラベリングやモデル自動識別などのアルゴリズムを設計し、モデルを完成させました。 Antが初期段階で提供したフレームワーク基盤は、研究チームのビジネスにとって非常に実践的なガイダンスに相当し、最終結果は両者の期待を上回るものでした。

現在、同チームの詐欺要素特定精度は85％を超えており、主に通報者が騙されて送金したかどうか、受取人に不法所持の意図があったかどうかなど、詐欺裁判における重要な証拠を特定している。研究チームは現在、詐欺苦情サンプルの4万項目の注釈付けを完了しており、詐欺要素識別モデルを通じて、ユーザーが不足している点を積極的に補完できるように誘導し、報告プロセスにおけるユーザーエクスペリエンスと主体的な取り組みを強化しています。このプロセスを通じて、ユーザーのレポート完了率は 10% 増加し、報告された情報の品質は 8% 向上しました。これにより、不正行為の特徴付けの精度が着実に向上し、不正行為の防止と管理の効率も向上します。

研究チームの研究結果によると、ユーザーの証拠文中の詐欺証拠要素の識別に基づき、データ+知識推論を通じてインテリジェントな防御裁判がさらに実現され、モデルはユーザーの証拠とビッグデータ情報に基づいて、より説明可能な裁判ロジックチェーンと結果をユーザーに出力します（つまり、モデルは結論を与えるだけでなく、その分析アイデアを伝え、説得力のある理由を提供することもできます）。

データ学習に依存する従来の不正行為識別アルゴリズムと比較して、Antとのこの共同イノベーションは、人間の知識、経験、ルールを不正行為識別アルゴリズムシステムに入力することを提案しており、モデルは推論に基づくインテリジェントな判断を実現します。研究チームによるこの技術革新は、ユーザーの資金の安全性をより良く保護し、業界全体のリスク管理レベルの向上に重要な役割を果たすと信じています。

魏中宇教授は次のように述べた。「この新たな学校と企業の協力モデルは、チームの研究が常に必要としていた応用シナリオをもたらすだけでなく、アントの実際のビジネス経験とチームのアルゴリズム革新を補完し、将来の科学研究プロジェクトの運営の良いデモンストレーションとなるだろう。」私たちは、今後もAntとの長期的な協力関係をさらに深めていきたいと考えています。また、この研究をさまざまなシナリオに応用し、より正確な情報コンテンツをユーザーに推奨していきたいと考えています。

<<: 米国は中国のハイテク製品を全面的に禁止する「2021年戦略競争法」を提案した。

>>: 顔認識におけるコモンズの悲劇