ブースティングとバギング: 堅牢な機械学習アルゴリズムを開発する方法

導入

機械学習とデータサイエンスでは、単にデータを Python ライブラリに投入してその結果を活用する以上のことが求められます。データサイエンティストは、成功するシステムを実装するために、データとその背後にあるプロセスを真に理解する必要があります。この記事は、ブースティングとバギングが何であるかを理解できるように、ブートストラップから始めます。

機械学習とデータサイエンスでは、単にデータを Python ライブラリに投入してその結果を活用する以上のことが求められます。

データサイエンティストは、成功するシステムを実装するために、データとその背後にあるプロセスを真に理解する必要があります。

これを実現するための重要な方法は、モデルがブートストラップの使用からどのようなメリットを得られるかを知ることです。これらはいわゆるアンサンブルモデルです。アンサンブルモデルの例としては、AdaBoost や Stochastic Gradient Boosting などがあります。

アンサンブルモデルを使用する理由は何ですか?

アルゴリズムの精度を向上させたり、モデルの堅牢性を高めたりするのに役立ちます。この例としては、ブースティングとバギングが挙げられます。ブースティングとバギングは、データサイエンティストや機械学習エンジニアにとって必須のトピックです。特に、データサイエンス/機械学習の面接を受ける予定がある場合。

本質的に、アンサンブル学習は「アンサンブル」という言葉から来ています。違いは、美しいハーモニーを作り出すために複数の人が異なるオクターブを使用するのではなく、各声が他の声の隙間を埋めるという点です。アンサンブル学習では、同じアルゴリズムの数百から数千のモデルが連携して、正しい分類を見つけます。

アンサンブル学習について考える別の方法は、盲人と象のたとえ話です。それぞれの盲人は象の特徴を見つけ、それぞれが何か違うものだと認識しました。しかし、彼らが集まって問題について話し合えば、自分たちが何を見ているのかを理解できるかもしれない。

ブースティングやバギングなどの手法を使用すると、統計モデルの堅牢性が向上し、分散が低減されます。

さて、問題は、これらの異なる「B」の単語の違いは何なのかということです。

ブートストラップ

まず、ブートストラップの重要な概念について説明しましょう。多くのデータサイエンティストが「ブースティング」と「バギング」の説明にすぐに飛びつくため、この点は見落とされてしまうことがあります。どちらもブートストラップが必要です。

図1 ブートストラップ

機械学習において、ブートストラップ法は復元抽出法を指します。このタイプのサンプリングはリサンプリングと呼ばれます。これにより、モデルまたはアルゴリズムは、再サンプリングに存在するさまざまなバイアス、分散、特性をより適切に理解できるようになります。データからサンプルを取得すると、再サンプルには全体に含まれていたものとは異なる特性が含まれるようになります。図 1 に示すように、各サンプル集団には異なる部分があり、同じものは 2 つとして存在しません。これは、データセットの全体的な平均、標準偏差、およびその他の記述指標に影響します。その結果、より堅牢なモデルの開発が可能になります。

ブートストラップは、過剰適合する傾向がある小さなデータセットにも非常に役立ちます。実際、ある企業にこれを推奨したのは、その企業のデータセットが「ビッグデータ」とは程遠いものだったからです。この場合、ブートストラップが解決策となります。ブートストラップを利用するアルゴリズムは、選択した方法 (ブースティングまたはバギング) に応じて、より堅牢になり、新しいデータセットを処理できるためです。

ブートストラップ法を使用する理由は、ソリューションの安定性をテストできるためです。複数のサンプルデータセットを使用して複数のモデルをテストすることで、堅牢性を向上させることができます。おそらく、あるサンプルデータセットの平均値は別のサンプルデータセットよりも大きいか、標準偏差が異なります。これにより、過剰適合したモデルや、さまざまなバリエーションを持つデータセットでテストされていないモデルが破壊される可能性があります。

ブートストラッピングが普及した理由の 1 つは、コンピューティング能力の向上です。これにより、これまで異なる再サンプリングを使用して可能だったものよりも何倍も多くの順列が可能になります。ブートストラップはバギングとブースティングの両方で使用され、これについては以下で説明します。

袋詰め

バギングは実際には (Bootstrap Aggregators) を指します。バギングアルゴリズムを引用するほとんどの論文や投稿では、Leo Breiman [1996] による「Bagging Predictors」という論文が引用されています。

Leo はバギングを次のように説明しています:

「バギング予測子は、予測子の複数のバージョンを生成し、それらのバージョンを使用して集約予測子を取得する方法です。」

バギングは分散を減らすのに役立ちます。これらのモデルは非常に正確ですが、トレーニングに使用されたデータに基づいているだけです。これはオーバーフィッティングとも呼ばれます。

関数がデータに適合しすぎると、過剰適合が発生します。これは通常、実際の方程式が複雑すぎて、すべてのデータポイントと外れ値を考慮することができないためです。

図2 過剰適合

過剰適合が発生しやすいアルゴリズムのもう 1 つの例は、決定木です。決定木を使用して開発されたモデルには、非常に単純なヒューリスティックが必要です。決定木は、特定の順序で実行される一連の if-else ステートメントで構成されます。したがって、データセットを新しいものに変更すると、以前のデータセットと比較して、基礎となる機能の分布に何らかの偏りや違いが生じる可能性があります。これはデータがモデルに適合しないためです。

バギングは、データをサンプリングして置き換え、データに独自の分散を作成することで、この問題を回避します。バギングは複数の仮説 (モデル) を同時にテストします。これにより、さまざまな特性 (中央値、平均値など) を持つデータで構成される可能性のある複数のサンプルを使用することで、ノイズが削減されます。

各モデルに仮定が設定されたら、モデルでは、分類には投票を使用し、回帰には平均化を使用します。ここで、「Bootstrap Aggregating」の「Aggregating」が役立ちます。各仮説には同等の重みが与えられます。これは、後でブースティングについて説明するときに、2 つのアプローチが異なる点の 1 つです。

図3 バギング

基本的に、これらのモデルはすべて同時に実行され、どの仮説が最も正確であるかを投票します。

これにより、分散が低減され、過剰適合が軽減されます。

ブースト

ブースティングとは、加重平均を使用して弱い学習者を強い学習者に変えるアルゴリズムのグループを指します。バギングとは異なり、バギングでは各モデルを独立して実行し、どのモデルにも優先順位を付けずに最後に出力を集約します。ブースティングは「チームワーク」がすべてです。実行される各モデルによって、次のモデルが重点を置く機能が決まります。

ブースティングにはブートストラップも必要です。しかし、ここにはもう一つの違いがあります。バギングとは異なり、各データサンプルの重みが増加します。つまり、一部のサンプルは他のサンプルよりも頻繁に実行されます。

データサンプルに重み付けする必要があるのはなぜですか?

図4 ブースティング

boost は各モデルを実行する際に、どのデータサンプルが最も成功し、どのデータサンプルが成功しなかったかを追跡します。出力分類エラーが最も多いデータセットには、より大きな重みが与えられます。これらのデータはより複雑であると考えられており、モデルを適切にトレーニングするにはより多くの反復が必要になります。

実際の分類フェーズでは、ブースティングによってモデルも異なる方法で処理されます。ブースティングでは、より良いモデルにより良い重みが与えられるため、モデルのエラー率が追跡されます。

このように、「投票」が行われると、バギングと同様に、より良い結果を持つモデルが最終出力に対してより強い影響力を持つようになります。

要約する

ブースティングとバギングはどちらも分散を減らすのに適した方法です。アンサンブル法は、多くの場合、単一のモデルよりも優れたパフォーマンスを発揮します。これが、多くの Kaggle 受賞者がアンサンブル手法を使用する理由です。ここで説明されていないのはスタッキングです。ただし、これには独自の投稿が必要です。

しかし、それらはすべての問題を解決するわけではなく、それら自体の問題を抱えています。理由はいろいろあります。バギングは、モデルが過剰適合した場合に分散を減らすのに大きな役割を果たします。ただし、2 つの方法のうち、ブースティングの方がより良い選択である可能性が高いです。ブーストによりパフォーマンスの問題が発生する可能性も高くなります。これは、不一致なモデルのバイアスを減らすのにも役立ちます。

ここで経験と専門家の出番です。最初に機能するモデルに飛びつくのは簡単です。ただし、アルゴリズムとその選択のすべての特性を分析することが重要です。たとえば、決定木に特定のリーフノードが設定されている場合、次のような疑問が生じます。なぜそのように設定されているのでしょうか。このアイデアをサポートするためにデータポイントを視覚化する他の方法がない場合、おそらくそのように実装すべきではありません。

これは、さまざまなデータセットで AdaBoost や Random Forest を試すだけではありません。最終的なアルゴリズムは、アルゴリズムから得られた結果と利用可能なサポートに基づいて決定されます。

<<: 1秒で元の写真に戻る: Adobe Photoshop のリバースツールは、編集した場所を認識して修正するのに役立ちます

>>: 5G + AI はカスタマーサービス業界にどのような大きな影響を与えるでしょうか?

ブースティングとバギング: 堅牢な機械学習アルゴリズムを開発する方法

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

人間が作成したデータは高価すぎます!開発者はAI合成データをひそかに使用してモデルをトレーニングしている

LinkedIn、ユーザーが夢の仕事を見つけるのを支援するAIチャットボットを導入

3つの主要な章がAIの実装を加速します。2019年のWOTグローバル人工知能技術サミットはAIの新たな章を開きます

カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

鉄道欠陥検出における機械学習の実用化

オタクなおじさんが独学でAIを学んでマスターレベルを作成し、Twitterで人気になった

ザッカーバーグは涙ながらに300人のチームを解散させた！ Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

推薦する

Linux搭載のAppleコンピュータにグラフィックカードドライバが搭載され、初めてOpenGL ES標準と互換性があるとネットユーザーが語る：リバースエンジニアリングの巨人

12 のモダリティ、1 つの学習フレームワーク、Meta-Transformer がバックボーンネットワークの統合を実現

Ctrip における Flutter マップのベストプラクティス

IoTが災害管理にどのように役立つか

ネットワーク管理における人工知能の役割

ドローンのインターネット: IoT がさまざまな業界のユースケースをサポートする方法

百度の顔認識技術のインテリジェント企業人事管理分野への応用分析

600以上のベーキングレシピを分析し、機械学習を使用して新製品を開発しました

デジタルヒューマンがアジア競技大会の聖火を灯す：ICCV 論文から見る Ant の生成 AI テクノロジーの新たな一面

世界に革命を起こす5つの新興技術

GitHub スター 6000 以上! Pythonで機械学習のバイブルPRMLを実践

教師なし学習アルゴリズム: 異常検出