フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

[51CTO.com からのオリジナル記事] 金融テクノロジーのブームは 21 世紀以降急増しています。人工知能とインターネット技術の台頭により、伝統的な金融業界は破壊的な影響に見舞われています。特に金融リスク管理の分野では、機械学習理論の発展と成熟、そして人々のテクノロジーへの信頼の高まりに伴い、ますます多くの金融会社や機関が伝統的なビジネス上の問題に対処するために人工知能を採用しています。

人工知能の観点から見ると、リスク管理自体は不均衡な分類問題です。いわゆる不均衡な分類問題とは、分類プロセス中に陽性サンプルと陰性サンプルが極端に不均一に分布することを指します。銀行融資のプロセスにおいて、詐欺行為をするユーザーは結局少数派です。インターネット金融の公開データの詐欺率は10%から20%の間であり、従来の銀行の詐欺率は通常それより低いです。したがって、金融テクノロジー企業が解決する必要があるのは、データの分布が不均一な場合に、分類を通じて悪意のあるユーザーをどのように排除するかということです。

これは本質的に分類問題であるため、任意の分類アルゴリズムを使用して問題を解決することができます。ロジスティック回帰、ランダムフォレスト、xgboost などの従来の浅いモデル、および後続のハイブリッド モデルとディープラーニング モデルはすべて、リスク管理に使用できます。ここでは、金融業界のリスク管理を紹介する2018年の国際会議DMKD 2018でHengchang Litongの研究者が発表した「P2P金融市場における不正ユーザーの検出」と題する論文を共有したいと思います。

論文の著者らが入力したデータは、主にオフライン店舗でユーザーが入力した情報であり、ユーザーの家族情報、勤務先情報、ローン情報などが含まれます。著者はランダムフォレストとxgboostの手法を試し、比較しました。比較では主にグリッド検索を使用してモデル パラメータを列挙します。評価指標はAUCです。

入力データには合計 97 個の特徴があり、そのうち 33 個の特徴はカテゴリ特徴です。カテゴリ機能はワンホット方式で処理されます。実験データは、データ比率が 4:1:1 で、トレーニング セット、テスト セット、検証セットに分割されます。データの全体的な次元が高いため、分類前に PCA を使用してデータの次元を削減します。ランダム フォレスト + PCA のグリッド検索効果図は次のとおりです。

テスト セットでのランダム フォレスト + PCA の AUC は 0.78 で、トレーニング セットでの AUC は 0.797 です。次に著者らは xgboost + PCA の効果を比較しました。データセットの分布スパンが非常に大きいため、tanh を使用してデータを正規化することを検討します。正規化後、xgboost + tanh の効果は最高になります。特異点を除外すると、次の図に示すように、AUC は基本的に 0.88 前後になります。

筆者もPCA + tanhの組み合わせを試してみましたが、効果がxgboost + tanhほど理想的ではなかったため、最終的にxgboost + tanhモデルを採用しました。

リスク管理と詐欺防止の分野における人工知能の研究は長年にわたって続けられてきました。2000 年代初頭には、米国の研究者がすでに関連分野の技術を研究していました。しかし、関連技術が本当に人々の信頼を得るには、何年ものテストが必要でした。人工知能技術がますます成熟しつつある今日でも、多くの偏見が残っています。例えば、金融業務に精通した人だけが本当にリスク管理を行える、リスク管理データとモデルのどちらが重要かなどです。深刻な偏見を伴うこれらの退屈な社内政治の話題は、多くの場合、社内の正常な業務運営に影響を与えます。

2018年、Home Credit社はKaggleで不正防止コンテストを開催しました。提供された基本データは同じで、参加者は基本的に技術者でした。唯一の違いは、特徴エンジニアリングとモデルの選択と処理でした。最終結果は大きく異なりました。このようなコンテストは、人工知能技術に対する多くの人々の偏見や誤解を払拭することができます。したがって、多くの場合、テクノロジーやキャリアの進歩に影響を与えるのはテクノロジーそのものではなく、人々の本来の執着心です。

もちろん、これは、技術が成熟していなくても、無理に前進すべきだという意味ではありません。たとえば、金融リスク管理の分野では、ディープラーニング モデルはまだ xgboost モデルや浅いモデルよりも優れた結果を達成していません。パフォーマンスや虚栄心のためだけにディープラーニング モデルを使用することは、会社のリソースと開発者の貴重な時間を無駄にすることになります。

つまり、金融テクノロジー業界は近年急速に発展していますが、発展の過程では良い面もあれば悪い面もありました。フィンテックの実践者として、自分のキャリアを明確に理解し、位置づける必要があります。

著者について:

[[263763]]

ブロックチェーン企業の科学者であり、恒昌利通のビッグデータ部門の元責任者である王昊氏は、ユタ大学で学士号/修士号を取得しています。百度、新浪、網易、豆瓣などの企業で長年の研究開発と技術管理の経験があります。機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。 TVCGやASONAMなどの国際会議やジャーナルに10本の論文を発表している。私の学部論文は 2008 IEEE SMI *** 論文賞を受賞しました。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  半日で2000件のいいねを獲得、李菲菲の弟子が33のニューラルネットワークトレーニングの秘密を公開

>>:  AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。

ブログ    

推薦する

インターフェース開発にアルゴリズムは必要ないなんて誰が言ったのでしょうか?

[[146153]]アルゴリズムとは何ですか?簡単に言えば、問題を解決するための手順がアルゴリズム...

機械学習エンジニアとデータサイエンティストの違い

今日では、データ サイエンティストの仕事は非常に一般的になり、機械学習もその中に完全に含まれる可能性...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

...

初級データベースアルゴリズム [I]

作者は長い間ブログを更新していませんでした。その理由の一つは、開発したプロジェクトで使用されている技...

Google、チャットボットデータ分析プラットフォーム「Chatbase」の開設を発表

[[210402]]アメリカのテクノロジーブログ「VentureBeat」によると、11月17日、G...

AIが地震の前兆信号を識別?機械学習がデータ内の不思議な相関関係を発見、人類に地震予測の希望を与える

最近、世界中で地震が頻繁に発生しています。 1月1日、突然、マグニチュード7.6の地震が日本を襲い、...

...

ChatGPTの現在の時代では、ベクトルデータベースには大規模モデル用のスーパーブレインが搭載されています

次のような経験をしたことはありませんか。インターネットで壁紙を見て、写真に写っている雪をかぶった山や...

ZTEのインテリジェントビデオReIDアルゴリズムは大きな進歩を遂げ、3つの主要なデータセットで世界記録を更新しました。

最近、ZTEコーポレーションは人物再識別(ReID)技術で画期的な進歩を遂げました。Market15...

トレンディで無料! 2024 年に持つ価値のある 8 つの「チート」ツール!

編纂者:Xing Xuan企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat...

日本のCGマスターがまた登場!リアルタイムの顔キャプチャのための 3D モデリング ソフトウェア

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ドローンを使って「国勢調査」を実施?人だけでなく動物も!

データによれば、我が国の人口は過去 10 年間にわたり緩やかな増加傾向を維持し続けており、我が国は依...

...