Antの信用リスク管理の実践

1. 信用リスク管理業務の背景と事例

まず、当社の事業シナリオについて簡単にご紹介させていただきます。

1. 事業背景

当社が行うクレジットグラフリスク管理は、主にローン詐欺やキャッシュアウトの防止と管理に使用されます。

ローン詐欺とは、返済の意思がないのにローンを取得するために犯罪者が資金を悪用することを指します。この状況はより高い財務リスクにつながり、業界全体で延滞ローン全体の約 30% ～ 40% を占めています。
現金引き出しとは、ユーザーが偽の取引シナリオを通じて信用限度額を現金に変換することを指します。この行為は、クレジットカードや華北などの消費者ローンの利用規定に違反しており、資金の使用範囲を制御できず、多重借入を引き起こしやすく、財務リスクを引き起こします。

一般的な現金化詐欺ローンの手口には次のようなものがあります。

スキャンコードモード: オフラインストアで支払いコードを開き、ローカルに保存するか、ストアでスキャンして、Huabei 支払いを使用して現金化します。
タオバオモデル：仲介業者がオンラインで店舗を開設し、商品を棚に並べ、現金化したい人は華北決済を利用して仮想オンラインショッピングを完了し、信用限度額を増やす。
事前注文モード：サードパーティのアプリを使用して、支払いをせずに注文し、キャッシュアウト担当者にサードパーティのアカウントのパスワードを伝えます。キャッシュアウト担当者はログインして、Huabei を使用して支払いを行い、キャッシュアウトを完了します。

信用業務の特性に基づき、事前、事中、事後の総合的な予防と管理を設計しました。各リンクの主な内容は次のとおりです。

事前に: リスクを事前に認識します。これには、販売業者のリスク分析とユーザーのリスクレベルの評価が含まれます。作業のこの部分では、近似線グラフ分析機能が使用されます。
プロセス中: ユーザーがローンを申請したり、ローンを使用して支払いを希望したりすると、トランザクション要求に基づいてリアルタイムの分析と計算が実行され、リスク戦略、モデルアプリケーション、グラフが相互検証されます。
その後：資金の用途、換金の可能性、ギャングの摘発など、信用事業の総合的なリスク分析を実施します。

2. ビジネスアプリケーションのグローバルな視点

イベント前、イベント中、イベント後のビジネスシステムに基づいて、対応する技術フレームワークを設計しました。

事前: グラフバッチコンピューティングとイベント駆動型ニアラインコンピューティングの T+1 スケジューリング。
プロセス中: オンラインのリアルタイムコンピューティング要求に基づいて、グラフデータベースの機能を使用してクエリパフォーマンスが確保されます。
その後: ニアラインメッセージの監視、T+1 の完全な分析、インタラクティブなグラフ分析。

上記のモジュールで使用されるグラフテクノロジには、グラフの多次関係集約機能 (Traversal & Aggregate)、パターンマッチング (Pattern Matching)、グラフコミュニティ検出アルゴリズム (Community Detection)、グラフ学習、グラフ推論などがあります。

3. 華北反キャッシュアウト事件

以下では、Huabei のキャッシュアウト防止の事例を使用して、イベント後およびイベント中の予防および制御対策を説明します。

その後

リスク管理シナリオでは Y ラベルが不足しているため、ラベル付けを専門家の手動作業に頼ると、専門家によって識別されないキャッシュアウトパターンがカバーされなくなります。そこで、T+1オフラインデータとリアルタイムデータを通じて大規模なリスクグラフを開発しました。「類は友を呼ぶ」という考えに基づき、パターンマッチングで特定された黒とグレーの種をグラフ上にさらに広げて、よりリスクの高いユーザーを特定し、リスクを単一点からコミュニティに変換します。

イベント中

従来のリアルタイムのリスク管理計算では、多くの場合、Flink を使用して統計的特徴を生成しますが、多次関係を記述することはできません。さらに、グラフパターンが専門家の定義に完全に依存している場合、効率性とカバレッジに問題が発生します。そのため、買い手サブグラフ、売り手サブグラフ、買い手と売り手が接続されたサブグラフなどのオンラインサブグラフをニューラルネットワークへの入力として使用し、オンラインでスコア付けして、リアルタイムの予防と制御を実施しました。

2. リスク管理のスケール化された実施

1. マイクロローンプラットフォーム

リスク管理技術の大規模なビジネス実装に関しては、当初は効率の低い単純な試みしか行っていませんでした。信用シナリオは比較的厳密であるため、オンライン化する前にオフライン計算とバイパス検証が必要でした。これには、グラフシミュレーション機能を実現するために、オフラインとオンラインのデータソースが一貫しており、コンピューティングセマンティクスが一貫していることを保証することが必要です。そうしないと、グラフはオフラインテーブル JOIN を通じてのみ構築できるため、3 ～ 6 か月のグラフバックテストをサポートすることが難しくなります。

技術的な検証を経て、次のような一連の機能を開発しました。

グラフモデリング: オフライン、ニアライン、オンライングラフアセットの統合。
インタラクティブなグラフ分析: 専門家はインタラクティブなグラフ分析を使用して判断を下します。
グラフシミュレーションバックテスト: 分析されたケースに基づいて、3〜6 か月のグラフシミュレーションバックテストを実施します。
グラフコンピューティングサービスが開始されました。グラフ機能とグラフ演算子がワンクリックでオンラインで公開されます。

分析、シミュレーション、オンライン展開における統合グラフ資産のセマンティック一貫性により、スケールされたグラフのリスク管理の効率が保証されます。

2. スケーリング効率のボトルネック

スケールアップを達成した後、ビジネスプロセスの前にあるモジュールはすべてオフラインの T+1 バッチ実行またはイベントトリガーであり、すべて自動化されていることがわかりました。最後のステップのみ、人間による分析が必要です。このリンクが手作業に依存していると、グラフの大規模な適用が妨げられるため、次のステップではリスクを自動的に探索します。

3. サブグラフマイニング

これまでのビジネス分析や計算はすべて、専門家が提示した明確なリスクモデルに基づいて行われていましたが、実際には、このようなプロセスサイクルは非常に長く、非効率的です。そのため、現在、私たちはリスクパターンを自動的にマイニングし、それを専門家に分析を推奨しています。

1. 全体的な技術的解決策

全体的な技術的ソリューションは、次のステップに分かれています。

オフライン T+1 とリアルタイムデータに基づいてベースマップを構築します。
グラフ内の各ノードの表現ベクトルを計算し、p値とさまざまなビジネス指標を計算します。
シードノードに基づいてノードをフィルタリングし、拡散して重要なリスクサブグラフを取得します。
サブグラフ内のリスクパターンのマイニング、リスクパターンの候補セットの取得、バックテスト
バックテストの結果は、想定される指標のリスクモデルと一致しており、ビジネス側はインタラクティブな分析を行い、オンライン利用に採用するかどうかを決定します。
この一連のプロセスを通じて、アルゴリズムと計算能力を組み合わせることで、リスクパターンのマイニングを自動化しました。

このプロセスには 2 つの大きな課題があります。

情報混乱問題: ベースマップデータは膨大で、多くのノイズが含まれています。
計算の複雑さの問題: サブグラフ同型性アルゴリズムの複雑さは指数関数的です。

2. 情報混同問題

情報混雑問題に関しては、元々の大きなグラフを元にマイニングを行うと、まずグラフの規模が比較的大きく、マイニングが困難になります。また、グラフには毎日買うコーヒーや朝食など、多くのノイズが含まれています。頻度に基づいてマイニングする場合、このパターンはマイニングされやすいですが、リスク情報を提供しないため、排除する必要があります。

私たちのアプローチは、完全なベースマップに基づいてノード表現ベクトルを計算することです。次に、ノードの p 値とビジネス指標に基づいてノードの重要度を計算し、最終的に特定の重要度未満のノードをトリミングします。通常、私たちがマイニングするグラフのサイズは現在約 10 億です。これにより、ノイズが除去され、採掘効率が向上します。

3. 複雑な計算能力の問題

計算の複雑さは主に組み合わせ爆発から生じます。たとえば、あるタイプのエッジは 10 万個しかありませんが、それに対応するパターンは 11 億個ある場合があります。当社のマイニングでは、次数が増えるごとに、対応するビジネス指標を繰り返し検証する必要があるため、計算量が非常に大きくなります。

この問題には2つの解決策があります。 1 つ目は、ビジネスセマンティクスに基づいて不合理なパターンを削除することです。ビジネスアプリケーションの観点からグラフを整理するこの方法は、比較的良好な結果を達成しました。第二に、技術的な観点からは、外部グラフストレージの導入により、大規模なグラフマイニングのメモリ負荷が軽減されます。

4. 部分グラフ自己同型問題

サブグラフの自己同型性は、本来、比較のためにすべてのサブグラフを走査する必要があり、これは NP 問題であり、最適な解決策を見つけるのは困難です。私たちは大学と協力し、数学的なアイデアを使用してサブグラフを数学的な関数にマッピングし、比較的迅速に比較できるようにしました。この方法ですべての問題を解決できるわけではありませんが、ほとんどの問題は解決できます。この考えに基づいて、グラフマイニングとグラフパターンマッチングをより適切に実行するための分散実装を実行しました。

IV. レビューと要約

当社のクレジットグラフリスク管理構築は2018年に開始されました。専門家がまとめたリスクモデルをもとに、リスクマイニング用のグラフパターンマッチングに変換しました。その特徴は、精度は高いものの、リスクカバレッジが比較的低いことです。そこで、2019 年にクラスターリスクに対処するためのクラスターアルゴリズムを開発しました。 2020 年には、グラフの現在の情報を静的レベルで分析することから、グラフの時間的変化を分析することに移行し、ギャングの発展と変化に関する情報をさらに把握できるようになりました。 2021年にはグラフプラットフォームの大規模実装を実施し、3つのラインの統合を実現しました。 2022年と2023年の主な仕事は、自動グラフマイニングと分析でした。

5. 質疑応答

Q1. 先ほど、傍受はプロセス中にオンラインで行われ、遅延は 120 ミリ秒であるとおっしゃいました。オンラインではどのようなアルゴリズムが使用されるのでしょうか。あるいは、パターンマッチングにエキスパートシステムが使用されるのでしょうか。 120 ミリ秒を達成するにはどうすればよいでしょうか?

A: パターンマッチングとギャング検出は後から行われ、コミュニティの計算には数十秒かかります。このプロセスでは、主にグラフデータベース内の買い手サブグラフ、売り手サブグラフ、買い手と売り手が接続されたサブグラフを検索し、主にトラバーサルと集計を実行し、表現ベクトルを抽出して、ディープラーニングモデルにスコアを付けました。このプロセスには約 20 ミリ秒かかります。もちろん、リスク管理リンクでも多くの最適化を行っており、全体のプロセスには約 70 ～ 80 ミリ秒かかります。

Q2. 20 ミリ秒のクエリにはいくつの近隣クエリが含まれますか?

A: 買い手と売り手のサブグラフは外側に 2 度拡張し、買い手と売り手を接続するサブグラフはそれぞれ 2 度拡張し、それぞれ 2 度拡張した後に接続できます。

Q3. インプロセスクエリ中にグラフスライスを選択するにはどうすればよいですか?

A: グラフは複数のスレッドによって継続的に更新され、書き込まれます。アクセス要求があると、アクセスされたノードに対してリアルタイムでトラバーサルと集計が実行されます。

Q4. グラフ内のノード表現の更新頻度はどれくらいですか?

A: グラフノードの表現はリアルタイムで抽出され、計算されます。

Q5. サブグラフマイニングソリューション全体において、ブルーモジュールの評価タスクは自動化されていますか、それともビジネスエキスパートが関与しますか?

A: この評価部分は自動評価です。リスク候補セットに基づいて 3 ～ 6 か月のチャートでバックテストを実行し、履歴データで一致したパターンに基づいてユーザーとマーチャントのさまざまなリスクとビジネス指標を計算します。その後、ビジネスから提供された能力に基づいて自動評価を実行します。

<<: オープンソースプロジェクト向けのChatGPTベースのコードレビューロボットプログラム

>>:

ブログ

テンセントは、分散ベクトル化統計分析と因果推論に使用できるデータコンポーネントであるFast-Causal-Inferenceをオープンソース化しました。

Antの信用リスク管理の実践

1. 信用リスク管理業務の背景と事例

1. 事業背景

2. ビジネスアプリケーションのグローバルな視点

3. 華北反キャッシュアウト事件

その後

イベント中

2. リスク管理のスケール化された実施

1. マイクロローンプラットフォーム

2. スケーリング効率のボトルネック

3. サブグラフマイニング

1. 全体的な技術的解決策

2. 情報混同問題

3. 複雑な計算能力の問題

4. 部分グラフ自己同型問題

IV. レビューと要約

5. 質疑応答

Q2. 20 ミリ秒のクエリにはいくつの近隣クエリが含まれますか?

Q3. インプロセスクエリ中にグラフスライスを選択するにはどうすればよいですか?

Q4. グラフ内のノード表現の更新頻度はどれくらいですか?

Q5. サブグラフマイニングソリューション全体において、ブルーモジュールの評価タスクは自動化されていますか、それともビジネスエキスパートが関与しますか?

テンセントは、分散ベクトル化統計分析と因果推論に使用できるデータコンポーネントであるFast-Causal-Inferenceをオープンソース化しました。

浙江大学がSFロボットの群れを作り上げました！自主的に考え、自律的に移動してターゲットを追跡できる

OpenAI の組み込み検索は本当に便利ですか?定量的な評価により、より深い理解が得られます。

見逃せないビッグデータと人工知能分野の役立つウェブサイトトップ10

ディープラーニングのトレーニング中に GPU の温度が高すぎますか?すぐにクールダウンするには、以下の数行のコマンドを入力してください

エンタープライズネットワークセキュリティにおける AI アプリケーションについてご存知ですか?

データ駆動型パーソナライゼーションの時代: AI と ML がデータの読み取りと理解の方法をどのように変えているのか

推薦する

最初にサンプルが多すぎますか? 5つのサンプリングアルゴリズムを数分で実行できます

AIはサプライチェーンの脆弱性をある程度軽減できる

ハイパーコンバージドインフラストラクチャで AI をエッジに押し上げる

米国の3つの事例を踏まえた、医療AIの正しい導入アプローチとは？

Google AGI ロボットの大躍進！ 54人のチームが7か月間かけて強力な一般化と推論を実現した。これはDeepMindとGoogle Brainの合併後の新たな成果である。

受賞歴のある調査 | インターネット業界における顔認識の認知度

Slik-wrangler、機械学習と人工知能のデータ前処理とモデリングのためのツール

顔認識がまた失敗しました。アクセス制御システムは引き続き使用できますか?

同レベルの7Bモデルを上回る！中国のチームが大規模で高品質な画像とテキストのデータセットShareGPT4Vをオープンソース化し、マルチモーダルのパフォーマンスを大幅に向上させた。

1. 信用リスク管理業務の背景と事例

1. 事業背景

2. ビジネスアプリケーションのグローバルな視点

3. 華北反キャッシュアウト事件

その後

イベント中

2. リスク管理のスケール化された実施

1. マイクロローンプラットフォーム

2. スケーリング効率のボトルネック

3. サブグラフマイニング

1. 全体的な技術的解決策

2. 情報混同問題

3. 複雑な計算能力の問題

4. 部分グラフ自己同型問題

IV. レビューと要約

5. 質疑応答

Q2. 20 ミリ秒のクエリにはいくつの近隣クエリが含まれますか?

Q3. インプロセスクエリ中にグラフスライスを選択するにはどうすればよいですか?

Q4. グラフ内のノード表現の更新頻度はどれくらいですか?

Q5. サブグラフ マイニング ソリューション全体において、ブルー モジュールの評価タスクは自動化されていますか、それともビジネス エキスパートが関与しますか?

推薦する

Q5. サブグラフマイニングソリューション全体において、ブルーモジュールの評価タスクは自動化されていますか、それともビジネスエキスパートが関与しますか?