CatBoost: XGBoost よりも優れた GBDT アルゴリズム

CatBoost: XGBoost よりも優れた GBDT アルゴリズム

[[242113]]

[51CTO.com クイック翻訳] インターネット アルゴリズムには、推奨システム、計算広告、金融詐欺防止など、多くの応用シナリオがあります。多くのインターネット機械学習およびデータマイニングの問題は、分類問題に変換できます。この種の分類問題を扱う場合、最も一般的に使用される方法には、ロジスティック回帰、GBDT、ディープラーニングなどがあります。中でもロジスティック回帰は、アルゴリズムの効率性が高く、大規模データを効率的に処理できるため、ディープラーニングが普及する前から大手インターネット企業で広く利用されてきました。

ディープラーニングは、百度が2012年に初めてディープラーニング研究所を設立して以来、中国で巻き起こっている人工知能のトレンドである。しかし、ディープラーニングはまだ急成長段階にあり、大規模データを処理するためのマシンに対する資金要件が比較的高いため、多くのアプリケーションシナリオでは機械学習は選択肢になりません。 GBDT は導入以来、業界だけでなく Kaggle コンペティションでも多くの機械学習の問題で優れた結果を達成してきました。

学界や産業界には、GBDT アルゴリズム用のオープン ソース アルゴリズム パッケージが数多く存在します。有名なものとしては、ワシントン大学の Tianqi Chen 氏が開発した XGBoost、Microsoft の LightGBM、Yandex 氏が開発した CatBoost などがあります。 XGBoostは業界で広く使用されており、LightGBMはGBDTの計算効率を効果的に向上させ、YandexのCatBoostはアルゴリズムの精度の点でXGBoostやLightGBMよりも優れたパフォーマンスを発揮するアルゴリズムと言われています。この記事では、Yandex が 2017 年に公開した「CatBoost: Unbiased Boosting with Categorical Features」という論文を紹介しながら、主に CatBoost アルゴリズムを紹介します。

CatBoost アルゴリズムを設計した本来の目的は、GBDT 機能におけるカテゴリ機能をより適切に処理することです。 GBDT 機能のカテゴリ機能を扱う場合、最も簡単な方法は、カテゴリ機能に対応するラベルの平均値に置き換えることです。決定木では、ラベル平均がノード分割の基準として使用されます。この方法は、Greedy Target-based Statistics (略して Greedy TBS) と呼ばれ、次の式で表すことができます。

この方法には明らかな欠陥があり、特徴には通常、ラベルよりも多くの情報が含まれています。ラベルの平均値を強制的に使用して特徴を表すと、トレーニングデータセットとテストデータセットのデータ構造と分布が異なる場合に問題が発生します(条件シフト問題)。

Greedy TBS を改善する標準的な方法は、事前分布項を追加することです。これにより、ノイズや低頻度データがデータ分布に与える影響を軽減できます。

ここで、P は追加された事前項であり、a は通常 0 より大きい重み係数です。

条件付き移行問題を解決するために、一般的な方法は、データセットを 2 つの部分に分割し、最初の部分で Greedy TBS と同様の方法でデータ機能を処理し、次に 2 番目のデータセットでトレーニングすることです。 CatBoost はオンライン学習法を指します。最初にトレーニング データをランダムに並べ替え、次にトレーニング サンプルとして選択し、データ セット全体をテスト サンプルとして使用します。

同様に、GBDT モデルのトレーニング フェーズでは、トレーニング データとテスト データの分布が異なるため、予測シフトと残差シフトの問題も発生します。対応する問題を解決するために、CatBoost の作者は順序付きブースティングの方法を採用し、最初にすべてのデータをランダムに配置し、次にモデルは i 番目のステップの残差を計算するときにランダム配置の最初の i-1 個のサンプルのみを使用しました。

元の GBDT のさまざまなオフセット問題を改善した後の CatBoost アルゴリズムの疑似コードは次のとおりです。

いくつかのよく知られたデータ セットでの CatBoost、XGBoost、LightGBM のテスト結果を次の表に示します。評価指標は Logloss と Zero-one Loss です。

CatBoost の基本原理は、元の GBDT におけるさまざまなデータ オフセット問題を解決することです。一部のオープンソースの機械学習およびデータマイニングアルゴリズム パッケージでは、呼び出すことができる既製のモジュールがあります。 CatBoost は、2017 年に Yandex によって初めて提案されて以来、幅広い注目を集めています。この記事の紹介が皆さんのお役に立てれば幸いです。

恒昌立通のビッグデータ部門責任者兼シニアアーキテクトの王昊氏は、ユタ大学で学士号/修士号を取得し、国際経済貿易大学で実務MBAを取得しています。 Baidu、Sina、NetEase、Doubanなどの企業で長年にわたり研究開発と技術管理に携わっており、機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。 TVCGやASONAMなどの国際会議やジャーナルに8本の論文を発表している。私の学部論文は 2008 IEEE SMI *** 論文賞を受賞しました。

[[242116]]

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  AI人材の競争は軍拡競争となっている。AIの創造性競争に賭けるAI大手の中で、勝利のポイントを獲得するのはどれだろうか?

>>:  機械学習 = 「新しいボトルに入った古いワイン」の統計?いいえ!

ブログ    
ブログ    
ブログ    

推薦する

ChatGPTはPyTorchなしでは構築できません。LeCunの発言は白熱した議論を引き起こしました。モデルメーカーが重量を公開しない理由は、

ここ2日間で、オープンソースの話題が再び人気を集めています。 「オープンソースがなければ、AI は何...

人工知能が野生生物保護活動に貢献

犯罪現場の足跡が貴重な証拠となるのと同様に、野生動物の足跡も野生生物保護活動家にとって同様に貴重なも...

...

ソートアルゴリズムを簡単に学ぶ: よく使われるソートアルゴリズムを視覚的に体験

1. クイックソート導入:クイックソートは、Tony Hall によって開発されたソートアルゴリズム...

...

ワンクリックで 2D GAN を「3D」化、CUHK が教師なし 3D 再構築の新しい方法を提案

CUHK の MMLab チームによるこの研究は、2 次元 GAN がオブジェクトの 3 次元構造を...

...

メタバースの目!メタの機械式バイオニックアイの特許が明らかになり、バイオニック人体に搭載される予定

ロボットの皮膚、空気圧触覚手袋... Meta は将来のメタバースに、よりリアルな触覚インタラクショ...

深セン大学教授が顔検出ライブラリをオープンソース化、顔検出速度は最大1500FPS以上

先週、深セン大学コンピュータサイエンスおよびソフトウェア工学部の Yu Shiqi 教授が、最大 1...

機械学習モデルの仕組み

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能が実戦投入され、すでに一部は排除・解雇されている!

脳極体[[237444]]全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェ...

あなたの向かいに座っている「オフィス秘書」はロボットかもしれませんか?ロシアが超リアルなロボットを発表

ロボットがいくつかの簡単な作業を実行できることは目新しいことではありません。最近、ロシア西部の都市ペ...

Alibaba Cloudが「Tongyi Lingma」AIプログラミングツールをリリース、VS CodeやJetBrainsなどの主流IDEをサポート

11月1日、アリババクラウドは「Tongyi Lingma」というAIプログラミングツールをリリース...

...

地球外文明の探査における人工知能技術の応用

近年、人工知能(AI)は急速に発展し、さまざまな分野で画期的な進歩を遂げています。中国の著名な学者、...