Antの信用リスク管理の実践

Antの信用リスク管理の実践

1. 信用リスク管理業務の背景と事例

まず、当社の事業シナリオについて簡単にご紹介させていただきます。

1. 事業背景

当社が行うクレジット グラフ リスク管理は、主にローン詐欺やキャッシュアウトの防止と管理に使用されます。

  • ローン詐欺とは、返済の意思がないのにローンを取得するために犯罪者が資金を悪用することを指します。この状況はより高い財務リスクにつながり、業界全体で延滞ローン全体の約 30% ~ 40% を占めています。
  • 現金引き出しとは、ユーザーが偽の取引シナリオを通じて信用限度額を現金に変換することを指します。この行為は、クレジットカードや華北などの消費者ローンの利用規定に違反しており、資金の使用範囲を制御できず、多重借入を引き起こしやすく、財務リスクを引き起こします。

一般的な現金化詐欺ローンの手口には次のようなものがあります。

  • スキャンコードモード: オフラインストアで支払いコードを開き、ローカルに保存するか、ストアでスキャンして、Huabei 支払いを使用して現金化します。
  • タオバオモデル:仲介業者がオンラインで店舗を開設し、商品を棚に並べ、現金化したい人は華北決済を利用して仮想オンラインショッピングを完了し、信用限度額を増やす。
  • 事前注文モード:サードパーティのアプリを使用して、支払いをせずに注文し、キャッシュアウト担当者にサードパーティのアカウントのパスワードを伝えます。キャッシュアウト担当者はログインして、Huabei を使用して支払いを行い、キャッシュアウトを完了します。

信用業務の特性に基づき、事前、事中、事後の総合的な予防と管理を設計しました。各リンクの主な内容は次のとおりです。

  • 事前に: リスクを事前に認識します。これには、販売業者のリスク分析とユーザーのリスク レベルの評価が含まれます。作業のこの部分では、近似線グラフ分析機能が使用されます。
  • プロセス中: ユーザーがローンを申請したり、ローンを使用して支払いを希望したりすると、トランザクション要求に基づいてリアルタイムの分析と計算が実行され、リスク戦略、モデル アプリケーション、グラフが相互検証されます。
  • その後:資金の用途、換金の可能性、ギャングの摘発など、信用事業の総合的なリスク分析を実施します。

2. ビジネスアプリケーションのグローバルな視点

イベント前、イベント中、イベント後のビジネスシステムに基づいて、対応する技術フレームワークを設計しました。

  • 事前: グラフ バッチ コンピューティングとイベント駆動型ニアライン コンピューティングの T+1 スケジューリング。
  • プロセス中: オンラインのリアルタイム コンピューティング要求に基づいて、グラフ データベースの機能を使用してクエリ パフォーマンスが確保されます。
  • その後: ニアライン メッセージの監視、T+1 の完全な分析、インタラクティブなグラフ分析。

上記のモジュールで使用されるグラフ テクノロジには、グラフの多次関係集約機能 (Traversal & Aggregate)、パターン マッチング (Pattern Matching)、グラフ コミュニティ検出アルゴリズム (Community Detection)、グラフ学習、グラフ推論などがあります。

3. 華北反キャッシュアウト事件

以下では、Huabei のキャッシュアウト防止の事例を使用して、イベント後およびイベント中の予防および制御対策を説明します。

その後

リスク管理シナリオでは Y ラベルが不足しているため、ラベル付けを専門家の手動作業に頼ると、専門家によって識別されないキャッシュアウト パターンがカバーされなくなります。そこで、T+1オフラインデータとリアルタイムデータを通じて大規模なリスクグラフを開発しました。「類は友を呼ぶ」という考えに基づき、パターンマッチングで特定された黒とグレーの種をグラフ上にさらに広げて、よりリスクの高いユーザーを特定し、リスクを単一点からコミュニティに変換します。

イベント中

従来のリアルタイムのリスク管理計算では、多くの場合、Flink を使用して統計的特徴を生成しますが、多次関係を記述することはできません。さらに、グラフ パターンが専門家の定義に完全に依存している場合、効率性とカバレッジに問題が発生します。そのため、買い手サブグラフ、売り手サブグラフ、買い手と売り手が接続されたサブグラフなどのオンラインサブグラフをニューラルネットワークへの入力として使用し、オンラインでスコア付けして、リアルタイムの予防と制御を実施しました。

2. リスク管理のスケール化された実施

1. マイクロローンプラットフォーム

リスク管理技術の大規模なビジネス実装に関しては、当初は効率の低い単純な試みしか行っていませんでした。信用シナリオは比較的厳密であるため、オンライン化する前にオフライン計算とバイパス検証が必要でした。これには、グラフ シミュレーション機能を実現するために、オフラインとオンラインのデータ ソースが一貫しており、コンピューティング セマンティクスが一貫していることを保証することが必要です。そうしないと、グラフはオフライン テーブル JOIN を通じてのみ構築できるため、3 ~ 6 か月のグラフ バックテストをサポートすることが難しくなります。

技術的な検証を経て、次のような一連の機能を開発しました。

  • グラフ モデリング: オフライン、ニアライン、オンライン グラフ アセットの統合。
  • インタラクティブなグラフ分析: 専門家はインタラクティブなグラフ分析を使用して判断を下します。
  • グラフシミュレーションバックテスト: 分析されたケースに基づいて、3〜6 か月のグラフシミュレーションバックテストを実施します。
  • グラフ コンピューティング サービスが開始されました。グラフ機能とグラフ演算子がワンクリックでオンラインで公開されます。

分析、シミュレーション、オンライン展開における統合グラフ資産のセマンティック一貫性により、スケールされたグラフのリスク管理の効率が保証されます。

2. スケーリング効率のボトルネック

スケールアップを達成した後、ビジネス プロセスの前にあるモジュールはすべてオフラインの T+1 バッチ実行またはイベント トリガーであり、すべて自動化されていることがわかりました。最後のステップのみ、人間による分析が必要です。このリンクが手作業に依存していると、グラフの大規模な適用が妨げられるため、次のステップではリスクを自動的に探索します。

3. サブグラフマイニング

これまでのビジネス分析や計算はすべて、専門家が提示した明確なリスク モデルに基づいて行われていましたが、実際には、このようなプロセス サイクルは非常に長く、非効率的です。そのため、現在、私たちはリスクパターンを自動的にマイニングし、それを専門家に分析を推奨しています。

1. 全体的な技術的解決策

全体的な技術的ソリューションは、次のステップに分かれています。

  • オフライン T+1 とリアルタイム データに基づいてベース マップを構築します。
  • グラフ内の各ノードの表現ベクトルを計算し、p値とさまざまなビジネス指標を計算します。
  • シードノードに基づいてノードをフィルタリングし、拡散して重要なリスクサブグラフを取得します。
  • サブグラフ内のリスクパターンのマイニング、リスクパターンの候補セットの取得、バックテスト
  • バックテストの結果は、想定される指標のリスクモデルと一致しており、ビジネス側はインタラクティブな分析を行い、オンライン利用に採用するかどうかを決定します。
  • この一連のプロセスを通じて、アルゴリズムと計算能力を組み合わせることで、リスク パターンのマイニングを自動化しました。

このプロセスには 2 つの大きな課題があります。

  • 情報混乱問題: ベースマップデータは膨大で、多くのノイズが含まれています。
  • 計算の複雑さの問題: サブグラフ同型性アルゴリズムの複雑さは指数関数的です。

2. 情報混同問題

情報混雑問題に関しては、元々の大きなグラフを元にマイニングを行うと、まずグラフの規模が比較的大きく、マイニングが困難になります。また、グラフには毎日買うコーヒーや朝食など、多くのノイズが含まれています。頻度に基づいてマイニングする場合、このパターンはマイニングされやすいですが、リスク情報を提供しないため、排除する必要があります。

私たちのアプローチは、完全なベースマップに基づいてノード表現ベクトルを計算することです。次に、ノードの p 値とビジネス指標に基づいてノードの重要度を計算し、最終的に特定の重要度未満のノードをトリミングします。通常、私たちがマイニングするグラフのサイズは現在約 10 億です。これにより、ノイズが除去され、採掘効率が向上します。

3. 複雑な計算能力の問題

計算の複雑さは主に組み合わせ爆発から生じます。たとえば、あるタイプのエッジは 10 万個しかありませんが、それに対応するパターンは 11 億個ある場合があります。当社のマイニングでは、次数が増えるごとに、対応するビジネス指標を繰り返し検証する必要があるため、計算量が非常に大きくなります。

この問題には2つの解決策があります。 1 つ目は、ビジネス セマンティクスに基づいて不合理なパターンを削除することです。ビジネス アプリケーションの観点からグラフを整理するこの方法は、比較的良好な結果を達成しました。第二に、技術的な観点からは、外部グラフ ストレージの導入により、大規模なグラフ マイニングのメモリ負荷が軽減されます。

4. 部分グラフ自己同型問題

サブグラフの自己同型性は、本来、比較のためにすべてのサブグラフを走査する必要があり、これは NP 問題であり、最適な解決策を見つけるのは困難です。私たちは大学と協力し、数学的なアイデアを使用してサブグラフを数学的な関数にマッピングし、比較的迅速に比較できるようにしました。この方法ですべての問題を解決できるわけではありませんが、ほとんどの問題は解決できます。この考えに基づいて、グラフマイニングとグラフパターンマッチングをより適切に実行するための分散実装を実行しました。

IV. レビューと要約

当社のクレジットグラフリスク管理構築は2018年に開始されました。専門家がまとめたリスクモデルをもとに、リスクマイニング用のグラフパターンマッチングに変換しました。その特徴は、精度は高いものの、リスクカバレッジが比較的低いことです。そこで、2019 年にクラスター リスクに対処するためのクラスター アルゴリズムを開発しました。 2020 年には、グラフの現在の情報を静的レベルで分析することから、グラフの時間的変化を分析することに移行し、ギャングの発展と変化に関する情報をさらに把握できるようになりました。 2021年にはグラフプラットフォームの大規模実装を実施し、3つのラインの統合を実現しました。 2022年と2023年の主な仕事は、自動グラフマイニングと分析でした。

5. 質疑応答

Q1. 先ほど、傍受はプロセス中にオンラインで行われ、遅延は 120 ミリ秒であるとおっしゃいました。オンラインではどのようなアルゴリズムが使用されるのでしょうか。あるいは、パターン マッチングにエキスパート システムが使用されるのでしょうか。 120 ミリ秒を達成するにはどうすればよいでしょうか?

A: パターンマッチングとギャング検出は後から行われ、コミュニティの計算には数十秒かかります。このプロセスでは、主にグラフ データベース内の買い手サブグラフ、売り手サブグラフ、買い手と売り手が接続されたサブグラフを検索し、主にトラバーサルと集計を実行し、表現ベクトルを抽出して、ディープラーニング モデルにスコアを付けました。このプロセスには約 20 ミリ秒かかります。もちろん、リスク管理リンクでも多くの最適化を行っており、全体のプロセスには約 70 ~ 80 ミリ秒かかります。

Q2. 20 ミリ秒のクエリにはいくつの近隣クエリが含まれますか?

A: 買い手と売り手のサブグラフは外側に 2 度拡張し、買い手と売り手を接続するサブグラフはそれぞれ 2 度拡張し、それぞれ 2 度拡張した後に接続できます。

Q3. インプロセスクエリ中にグラフスライスを選択するにはどうすればよいですか?

A: グラフは複数のスレッドによって継続的に更新され、書き込まれます。アクセス要求があると、アクセスされたノードに対してリアルタイムでトラバーサルと集計が実行されます。

Q4. グラフ内のノード表現の更新頻度はどれくらいですか?

A: グラフ ノードの表現はリアルタイムで抽出され、計算されます。

Q5. サブグラフ マイニング ソリューション全体において、ブルー モジュールの評価タスクは自動化されていますか、それともビジネス エキスパートが関与しますか?

A: この評価部分は自動評価です。 リスク候補セットに基づいて 3 ~ 6 か月のチャートでバックテストを実行し、履歴データで一致したパターンに基づいてユーザーとマーチャントのさまざまなリスクとビジネス指標を計算します。 その後、ビジネスから提供された能力に基づいて自動評価を実行します。

<<:  オープンソースプロジェクト向けのChatGPTベースのコードレビューロボットプログラム

>>: 

ブログ    

推薦する

...

ゲームに「顔認識」を追加したことで生まれた考え

最近、国内で人気の「チキン早食い」ゲームに「顔認識システム」が導入され、大きな論争を巻き起こした。多...

毎日のアルゴリズム: 有効な三角形の数

[[429712]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

Facebook がアルゴリズム コード ライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

Facebook AI Research は近年、ビデオ理解研究において多くの素晴らしい成果を上げて...

人工知能は242万件の医療記録の分析を支援した

人工知能は242万件の医療記録の分析を支援した1月26日、iFLYTEKは最前線の防疫・管理を支援す...

OpenAIの人事異動はシリコンバレーで警鐘を鳴らし、一部の技術者はAIの将来を心配している。

過去数年間、シリコンバレーの多くの人々は、OpenAI が普及させた GenAI テクノロジーに希望...

メンガー: 大規模分散強化学習アーキテクチャ

過去 10 年間で、強化学習 (RL) は機械学習で最も人気のある研究分野の 1 つになりました。R...

自動運転の 3 つの大きな問題点、つまり安全性に直接対処しますか?プレミアム?プライバシー漏洩?

2021年の上海モーターショーが終わったばかりですが、会場内外で自動運転が大きな注目を集めています...

...

OpenAI取締役会の爆発的な活動が暴露される!投資家は訴訟の準備をしている、ネットユーザー:GPT-4はあなたよりも人を解雇するのが得意

OpenAIのドラマはまだ終わっておらず、多くのとんでもない行為が暴露されている。アルトマン氏を解雇...

政府における人工知能の積極的な役割

近年、政府の間ではAIへの関心が高まっており、さまざまなAIベースのアプリケーションのパイロットプロ...

知っておきたい!AI を活用したサイバー犯罪対策に機械学習を活用する方法

[51CTO.com クイック翻訳] 今日のインターネット時代において、ネットワーク セキュリティは...

Python 機械学習でプログラミングスキルを向上させる方法

この記事では、Packt の『Python Machine Learning, 3rd Editio...

...

大規模言語モデルの最大のボトルネック:レート制限

マット・アセイ企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:bl...