アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

[51CTO.com からのオリジナル記事] 「靴屋が 3 人いれば、諸葛亮 1 人より優れている」ということわざがあります。複数の弱い立場の人々が知恵を結集する方法があれば、より良い結果が得られます。

[[241185]]

実際、アンサンブル学習の考え方は同じです。新しいインスタンスを分類するときに、複数の単一分類器が統合され、複数の分類器の分類結果を何らかの方法で組み合わせて最終的な分類が決定され、単一の分類器よりも優れたパフォーマンスが実現されます。

単一の分類器を意思決定者に例えると、アンサンブル学習法は複数の意思決定者が一緒に意思決定を行うことに相当します。

アンサンブル学習の一般的なアルゴリズム

現在、アンサンブル学習で一般的に使用されているアルゴリズムは、バギング、ブースティング、スタッキングの 3 つです。

バギングアルゴリズム

バギング アルゴリズム。ブートストラップ集約アルゴリズムとも呼ばれます。バギングはブートストラップと集約を組み合わせて形成された複合モデルであるため、通常はバギングという名前が使用されます。

バギング アルゴリズムは、主にサンプル トレーニング セットに対してランダム サンプリングを実行し、繰り返しサンプリングすることで新しいモデルをトレーニングし、最終的にこれらのモデルに基づいて包括的な予測結果を選択します。

袋詰め

バギングに基づく代表的なアルゴリズムにはランダムフォレストがある。

ブースティングアルゴリズム

ブースティング アルゴリズムは、一般的に使用されている効果的な統計学習アルゴリズムであり、反復アルゴリズムです。ブースティングとバギングの違いは、重み付けされたデータが弱い分類器を使用して順番にトレーニングされることです。

ブースティングは、弱い学習器を継続的に使用して、以前の弱い学習器の「欠陥」を補うことで、より強い学習器を連続的に構築します。この強い学習器は、目的関数の値を十分に小さくすることができます。

ブースト

Boosting シリーズのアルゴリズムの中で最も人気のあるアルゴリズムは、AdaBoost アルゴリズムと GBDT アルゴリズムです。

スタッキングアルゴリズム

スタッキング アルゴリズムは、メタ分類器またはメタ回帰器を通じて複数の分類モデルまたは回帰モデルを統合するアンサンブル学習手法です。ベースモデルはトレーニング セット全体をトレーニングに使用し、メタモデルはベースモデルの機能をトレーニングの機能として使用します。

スタッキング

基本モデルには通常、異なる学習アルゴリズムが含まれているため、スタッキングは通常、異種のアンサンブルになります。

アンサンブル学習のための組み合わせ戦略

平均法

数値出力の場合、最も一般的な結合戦略は平均化を使用することです。

  • 単純平均法

  • 加重平均法

ただし、大規模な統合の場合、重みパラメータが多くなり、過剰適合に陥りやすくなります。加重平均法は必ずしも単純平均法よりも優れているわけではありません。

一般的に、学習者ごとの成績が大きく異なる場合には加重平均法を用いるのが適切であり、学習者ごとの成績が同程度である場合には単純平均法を用いるのが適切である。

投票法

多数決: 最も多くの票を獲得したマークが予測となります。複数のマークが同時に *** 票を獲得した場合、ランダムに 1 つが選択されます。

予測カテゴリが、任意の予測サンプル x に対して、弱学習器の予測結果がそれぞれであると仮定します。 最も単純な投票方法は相対多数決投票法で、これはよく「少数が多数に従う」と呼ばれるものです。つまり、サンプル X に対する弱学習器の予測結果のうち、最も数字が大きいカテゴリが最終的な分類カテゴリになります。複数のカテゴリーが最も多くの票を獲得した場合、最終カテゴリーとしてランダムに 1 つが選ばれます。

絶対多数決方式: ラベルが過半数の票を獲得した場合、そのラベルの予測が有効になります。そうでない場合、予測は拒否されます。

これは、しばしば多数決と呼ばれる相対多数決方式よりも複雑です。相対多数決方式に基づくと、100% の投票だけでなく、過半数の投票も必要になります。

加重投票法:アルゴリズムはより複雑です。加重平均法と同様に、各弱学習器の分類投票に重みを掛け、最後に各カテゴリの加重投票を合計し、最も高い値に対応するカテゴリが最終カテゴリになります。

学習方法

トレーニング データが大量にある場合、エラーを最小限に抑えるために、より強力な組み合わせ戦略、つまり「学習法」を使用して、別の学習者を介して組み合わせることができます。

学習方法としては、スタッキングが代表的な方法です。スタッキングの組み合わせ戦略では、弱学習器の結果に対して単純な論理処理を実行するのではなく、もう 1 層の学習器を追加します。つまり、トレーニング セット内の弱学習器の学習結果を入力として、トレーニング セットの出力を出力として使用し、学習器を再トレーニングして最終結果を取得します。

この場合、弱い学習者を一次学習者、組み合わせに使用される学習者を二次学習者と呼びます。テスト セットでは、最初にプライマリ学習器を使用して 1 回予測し、セカンダリ学習器の入力サンプルを取得し、次にセカンダリ学習器を使用してもう一度予測し、最終的な予測結果を取得します。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  「ブロックチェーン+人工知能」は医療金融やその他の応用シナリオに応用されています

>>:  アルゴリズムは偏っているか?他の人よりも優れていればいいのです!

ブログ    
ブログ    

推薦する

...

GPT-4を直接使用してエアコンを制御する、マイクロソフトのトレーニング不要の手法によりLLMは産業用制御に向けて前進

大規模言語モデル (LLM) 技術が成熟するにつれて、その適用範囲が拡大しています。インテリジェント...

顔認識防止技術でプライバシー漏洩を防ぐ方法

人工知能監視システムに対する懸念から、研究者たちはそれを標的とするツールの開発に取り組んでいる。最近...

...

Google Cloud、パンデミック対策のAIモデル構築に向けCOVID-19データセットをリリース

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ブラックテクノロジー界の「魏英洛」は人の表情を読むのが得意

[51CTO.comよりオリジナル記事] 今ではAIでも人の表情を読んだり、心を理解したり、感情を分...

世界のAIチップ投資環境が明らかに、5つのシナリオにチャンスあり

[[241691]]画像出典: Visual China AIチップ投資マップAI チップの設計は、...

AIがネットワークゴミを生み出す:古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる

網易科技は6月27日、ここ数カ月、インターネットの方向性が変化したことを示すさまざまな兆候があると報...

人工知能が誤って解釈する画像とはどのようなものでしょうか?

ウィリアム・ギブソンの2010年の小説『ゼロ・ヒストリー』では、ある登場人物が「これまでで最も醜いT...

人工知能がもたらすサイバー脅威はどれほど大きいのでしょうか?

チャットボットから ChatGPT のような大規模言語モデルまで、AI はあらゆるところに存在します...

...

...

コンピューティングパワーとは正確には何でしょうか?

ご存知のとおり、コンピューティング パワーの文字通りの意味はコンピューティング能力です。 「コンピュ...

LeCun、Zhou Zhihua、Kai-Fu Leeらは2020年にAIに何を期待しているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能技術は建設業界をどのように変えるのでしょうか?

人工知能 (AI) は世界中の産業に革命をもたらし、その能力によって世界を変えています。 ChatG...