15年前の初出勤の日のことを今でも覚えています。大学院を終えて、世界的な投資銀行にアナリストとして入社したばかりでした。その日は、ネクタイを直したり、学んだことをすべて思い出そうとしたり、自分がその仕事に十分適しているかどうか考えたりしながら過ごしました。私の不安を感じ取った上司は微笑んでこう言いました。 「心配しないでください!必要なのは回帰モデルだけです!」 「これ知ってる!」って思いました。私は回帰モデル、線形回帰、ロジスティック回帰を知っています。上司の言う通りでした。在職中、私は回帰ベースの統計モデルだけを構築していました。当時、回帰モデリングは予測分析の絶対的な王者でした。 15年を経て、回帰モデリングの時代は終わりました。昔の女王は舞台を去り、その代わりに、流行りの名前を持ち、エネルギーに満ちた新しい女王 XGBoost (Exterme Gradient Boosting) が登場します。 XGBoost とは何ですか?XGBoost は、勾配ブースティング フレームワークを使用した、決定木に基づく統合機械学習アルゴリズムです。非構造化データ (画像、テキストなど) を含む予測問題では、人工ニューラル ネットワークが他のすべてのアルゴリズムやフレームワークよりも優れたパフォーマンスを発揮する傾向があります。ただし、小規模から中規模の構造化/表形式データに関しては、決定木ベースのアルゴリズムが現時点では最高クラスであると考えられています。長年にわたるツリーベースのアルゴリズムの開発については、下の表を参照してください。 決定木に基づく XGBoost アルゴリズムの進化 XGBoost アルゴリズムはワシントン大学の研究プロジェクトです。 2016 年の SIGGDD カンファレンスで Tianqi Chen 氏と Carlos Guestrin 氏が発表した論文は、機械学習の世界に衝撃を与えました。このアルゴリズムは導入以来、数多くの Kaggle コンペティションで優勝しただけでなく、いくつかの最先端の業界アプリケーションの原動力とも考えられています。その結果、XGBoost オープンソース プロジェクトに貢献するデータ サイエンティストの強力なコミュニティが形成され、GitHub には約 350 人の貢献者と約 3,600 人のコミッターがいます。このアルゴリズムには次の特性があります。
XGBoost についての直感を養うにはどうすればいいでしょうか?決定木は、最も単純な形式では視覚化が容易で、かなり解釈しやすいアルゴリズムですが、次世代のツリーベースのアルゴリズムに対する直感を構築するのは、少し難しい場合があります。ツリーベースのアルゴリズムの開発をよりよく理解するための簡単な例えを示します。
Unsplash の rawpixel からの写真 優秀な資格を持つ数人の候補者を面接する採用担当者であると想像してください。ツリーベースのアルゴリズムの進化における各ステップは、面接プロセスのバージョンと考えることができます。
XGBoost のパフォーマンスが優れているのはなぜですか?XGBoost と Gradient Boosting Machines (GBM) はどちらも、勾配降下構造を使用して弱学習者 (CART) の学習能力を向上させるアンサンブル ツリー手法です。ただし、XGBoost は、システムの最適化とアルゴリズムの強化を通じて基本的な GBM フレームワークを改善します。 XGBoost が標準 GBM アルゴリズムを最適化する方法
アルゴリズムの強化:
証拠はどこにあるのですか?scikitlearn の「Make_nuclassification」パッケージを使用して、20 個の特徴 (2 つは有益、2 つは冗長) を持つ 100 万個のデータ ポイントのランダム サンプルを作成しました。ロジスティック回帰、ランダム フォレスト、標準勾配ブースティング、XGBoost などのいくつかのアルゴリズムをテストしました。 SKLearn を使用した Make_Classification データセットでの XGBoost と他の ML アルゴリズムの比較 上の図に示すように、XGBoost モデルは他のアルゴリズムと比較して、予測パフォーマンスと処理時間の組み合わせが最も優れています。他の厳密なベンチマーク研究でも同様の結果が出ています。最近のデータサイエンス コンテストで XGBoost が広く使用されているのも不思議ではありません。 「迷ったら XGBoost を使いましょう」 — Owen Zhang では、常に XGBoost を使用するべきでしょうか?機械学習(あるいは人生)に関しては、ただで得られるものなどありません。データ サイエンティストとして、私たちは手元にあるデータに対して考えられるすべてのアルゴリズムをテストし、最適なアルゴリズムを特定する必要があります。さらに、適切なアルゴリズムを選択するだけでは十分ではありません。また、ハイパーパラメータを調整して、データセットに適したアルゴリズム構成を選択する必要があります。さらに、最適なアルゴリズムを選択する際には、計算の複雑さ、解釈可能性、実装の容易さなど、他にも考慮すべき点がいくつかあります。ここで機械学習は科学から芸術へと移行し始めますが、正直なところ、ここで魔法が起こるのです。 将来はどうなるのでしょうか?機械学習は非常に活発な研究分野であり、XGBoost に代わる実用的な代替手段がすでにいくつか存在します。 Microsoft Research は最近、勾配を強化する LightGBM フレームワークをリリースしましたが、これは大きな可能性を秘めています。 Yandex Technology が開発した CatBoost は、印象的なベンチマーク結果を達成しました。予測性能、柔軟性、解釈可能性、実用性の点で XGBoost よりも優れたモデル フレームワークが登場するのは時間の問題です。しかし、強力な挑戦者が現れるまでは、XGBoost は機械学習の世界を支配し続けるでしょう。 |
<<: 看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?
>>: ドローンによる配達は近づいているが、商業利用にはまだ問題点を解決する必要がある
背景今日のデータ爆発の時代では、言語モデルのトレーニングはますます複雑かつ困難になっています。効率的...
[[252430]]ビッグデータダイジェスト制作編纂者:江宝尚今年 9 月に開催された Deep L...
0 コードの大規模モデルを20 ドル未満で微調整できますか?プロセスも非常に簡単で、必要なステップは...
動物園に行くときは指紋で「チェックイン」する必要があり、家に帰ってコミュニティに入るときも顔をスキャ...
IT Homeは11月16日、韓国銀行が最近、人工知能(AI)が労働市場に与える影響に関する調査報告...
11 日間、11 人、11 人の見込み客。 2018 年が終わるまで残り 11 日となりました。有名...
スマート音声開発者はAIの「ゴールドラッシュ」を先導しています。 7月4日、第2回百度AI開発者会議...
7月4日、北京国家会議センターで「Baidu Create 2018」Baidu AI開発者会議が開...
Stable DiffusionとMidjourneyの人気以来、人々は画像生成の分野における人工知...
[[423975]]独自のクラウドクラスターを構築するこれらは 50 ドル未満の小型コンピュータで...
大規模なデータセットを扱う場合、データ全体を一度にメモリにロードすることが非常に困難になることがあり...
5G時代が到来し、あらゆる分野がその将来の発展に向けて準備を進めています。最近、OPPOは、Futu...
アクションネットワークによると、7月19日、約8,000人の作家がニューヨーク作家組合宛ての公開書簡...
世界的なエネルギー危機が深刻化するにつれ、エネルギーの使用と管理の技術の継続的な開発と進歩も促進され...