勉強!機械学習アルゴリズムの長所と短所の概要

勉強!機械学習アルゴリズムの長所と短所の概要

目次

  • 正規化アルゴリズム
  • アンサンブルアルゴリズム
  • 決定木アルゴリズム
  • 回帰
  • 人工ニューラルネットワーク
  • ディープラーニング
  • サポートベクターマシン
  • 次元削減アルゴリズム
  • クラスタリングアルゴリズム
  • インスタンスベースのアルゴリズム
  • ベイズアルゴリズム
  • 相関ルール学習アルゴリズム
  • グラフィカルモデル

正規化アルゴリズム

これは、モデルの複雑さに基づいてモデルにペナルティを課し、より一般化しやすい比較的単純なモデルを優先する別のアプローチ (通常は回帰) の拡張です。

例:

  • リッジ回帰
  • 最小絶対収縮および選択演算子 (LASSO)
  • グラッソ
  • 弾性ネット
  • 最小角回帰

アドバンテージ:

  • そのペナルティは過剰適合を減らすだろう
  • 解決策は常に存在する

欠点:

  • ペナルティはアンダーフィッティングを引き起こす
  • 調整が難しい

アンサンブルアルゴリズム

アンサンブル法は、複数の弱いモデルで構成されたモデルのグループであり、モデルを個別にトレーニングし、その予測を何らかの方法で組み合わせて全体的な予測を行うことができます。

このアルゴリズムの主な問題は、どの弱いモデルを組み合わせることができるか、またそれらをどのように組み合わせるかを見つけることです。これは非常に強力なテクニックのセットなので、非常に人気があります。

  • ブースト
  • ブートストラップ集約(バギング)
  • アダブースト
  • 積み重ねられた一般化(ブレンディング)
  • 勾配ブースティングマシン (GBM)
  • 勾配ブースティング回帰木 (GBRT)
  • ランダムフォレスト

アドバンテージ:

  • 現在の最先端の予測のほぼすべてでは、アルゴリズム アンサンブルが使用されています。これは、単一のモデルによって予測される結果よりもはるかに正確です。

欠点:

  • 多くのメンテナンスが必要

決定木アルゴリズム

決定木学習では、決定木を予測モデルとして使用し、項目に関する観察 (枝で表される) を項目のターゲット値に関する結論 (葉で表される) にマッピングします。

ツリー モデルのターゲットは可変であり、分類ツリーと呼ばれる有限の値のセットを取ることができます。これらのツリー構造では、葉はクラス ラベルを表し、枝はこれらのクラス ラベル間の接続を特徴付ける機能を表します。

例:

  • 分類と回帰ツリー (CART)
  • 反復二分法 3 (ID3)
  • C4.5 と C5.0 (強力なメソッドの 2 つの異なるバージョン)

アドバンテージ:

  • 説明しやすい
  • ノンパラメトリック

欠点:

  • 過剰適合する傾向がある
  • 局所的最小値に陥る可能性がある
  • オンライン学習なし

回帰アルゴリズム

回帰は、2 つの変数間の関係を推定するために使用される統計手法です。従属変数と 1 つ以上の独立変数の関係を分析するために使用すると、このアルゴリズムは複数の変数をモデル化および分析するための多くの手法を提供します。より具体的には、回帰分析は、いずれかの独立変数が変化し、他の独立変数が変化しない場合の従属変数の典型的な値を理解するのに役立ちます。最も一般的には、回帰分析は独立変数が与えられた場合に従属変数の条件付き期待値を推定します。

回帰アルゴリズムは統計学の定番であり、統計機械学習に組み込まれています。

例:

  • 通常最小二乗回帰 (OLSR)
  • 線形回帰
  • ロジスティック回帰
  • ステップワイズ回帰
  • 多変量適応回帰スプライン (MARS)
  • 局所推定散布図平滑化 (LOESS)

アドバンテージ:

  • 直接的かつ迅速
  • 注目度の高い

欠点:

  • 厳密な仮定が必要
  • 外れ値を処理する必要性

人工ニューラルネットワーク

人工ニューラル ネットワークは、生物学的ニューラル ネットワークにヒントを得たアルゴリズム モデルです。

これは、回帰問題や分類問題によく使用されるパターン マッチングの形式ですが、さまざまな種類の問題に対応する何百ものアルゴリズムとバリアントで構成される大規模なサブフィールドがあります。

例:

  • パーセプトロン
  • バックプロパゲーション
  • ホップフィールドネットワーク
  • ラジアル基底関数ネットワーク (RBFN)

アドバンテージ:

  • 音声、セマンティクス、視覚、さまざまなゲーム (囲碁など) を含むタスクで非常に優れたパフォーマンスを発揮します。
  • アルゴリズムは新しい問題に適応するために素早く調整できます。

欠点:

  • トレーニングには大量のデータが必要
  • トレーニングには高度なハードウェア構成が必要
  • モデルはブラックボックス状態であり、内部の仕組みを理解することは困難である
  • メタパラメータとネットワークトポロジを選択するのは困難です。

ディープラーニング

ディープラーニングは、現代のハードウェアの急速な発展の恩恵を受けている人工ニューラル ネットワークの最新分野です。

現在、多くの研究者の方向性は、より大規模で複雑なニューラル ネットワークの構築に主に焦点を当てています。現在、多くの手法は、トレーニングに使用される大規模なデータ セットに少数のラベルしか含まれていない半教師あり学習の問題に焦点を当てています。

例:

  • ディープボルツマンマシン (DBM)
  • ディープビリーフネットワーク(DBN)
  • 畳み込みニューラルネットワーク (CNN)
  • スタック型オートエンコーダ

長所/短所:ニューラルネットワークを参照

サポートベクターマシン

それぞれが 2 つのカテゴリのいずれかに属する一連のトレーニング例が与えられた場合、サポート ベクター マシン (SVM) トレーニング アルゴリズムは、新しい例を入力すると、その例を 2 つのカテゴリのいずれかに分類し、非確率的なバイナリ線形分類器として機能します。

SVM モデルは、トレーニング例を空間内の点として表し、2 つのクラスを区別するために可能な限り広い明確なマージンで区切られたグラフにマッピングします。

次に、新しい例が同じ空間にマッピングされ、間隔のどちら側に位置するかに基づいてクラスに属すると予測されます。

アドバンテージ:

  • 非線形分離問題における優れたパフォーマンス

欠点:

  • 訓練が非常に難しい
  • 説明するのは難しい

次元削減アルゴリズム

クラスタリング手法と同様に、次元削減は、より少ない情報を使用してデータを要約または記述することを目的として、データの固有の構造を探して活用します。

このアルゴリズムは、高次元データを視覚化したり、教師あり学習で使用できるようにデータを簡素化したりするために使用できます。これらの方法の多くは、分類や回帰に使用するために適応できます。

例:

  • 主成分分析(PCA)
  • 主成分回帰(PCR)
  • 部分最小二乗回帰 (PLSR)
  • サモンマッピング
  • 多次元尺度法 (MDS)
  • 投影の追求
  • 線形判別分析 (LDA)
  • 混合判別分析 (MDA)
  • 二次判別分析 (QDA)
  • 柔軟な判別分析 (FDA)

アドバンテージ:

  • 大規模なデータセットを処理できる
  • データに関する仮定は必要ありません

欠点:

  • 非線形データの扱いの難しさ
  • 結果の意味を理解するのが難しい

クラスタリングアルゴリズム

クラスタリング アルゴリズムは、ターゲットのグループの分類を指します。同じグループ (つまり、クラス、クラスター) に属するターゲットは 1 つのグループに分割されます。他のターゲット グループと比較すると、同じグループ内のターゲットは互いにより類似しています (ある意味で)。

例:

  • K平均法
  • k-Mediansアルゴリズム
  • 期待最大化(EM)
  • 期待最大化(EM)
  • 階層的クラスタリング

アドバンテージ:

  • データに意味を持たせる

欠点:

  • 結果は解釈が難しく、通常とは異なるデータ セットには役立たない可能性があります。

インスタンスベースのアルゴリズム

インスタンス ベースのアルゴリズム (メモリ ベースの学習とも呼ばれる) は、明示的な帰納法を行うのではなく、問題の新しい例を、メモリに保存されているトレーニング中に確認された例と比較する学習アルゴリズムです。

トレーニング例から直接仮説を構築するため、インスタンスベースのアルゴリズムと呼ばれます。これは、仮説の複雑さがデータの増加に応じて拡大する可能性があることを意味します。最悪の場合、仮説がトレーニング項目のリストである場合、単一の新しいインスタンスを分類するには計算複雑度O(n)が必要です。

例:

  • k近傍法 (kNN)
  • ベクトル量子化の学習 (LVQ)
  • 自己組織化マップ (SOM)
  • 局所重み付け学習 (LWL)

アドバンテージ:

  • シンプルなアルゴリズムと簡単に解釈できる結果

欠点:

  • メモリ使用量が非常に高い
  • 計算コストが高い
  • 高次元の特徴空間では使用できません

ベイズアルゴリズム

ベイズ法は、ベイズの定理を明示的に適用して分類や回帰などの問題を解決する方法です。

例:

  • ナイーブベイズ
  • ガウス単純ベイズ
  • 多項式ナイーブベイズ
  • 平均 1 依存推定量 (AODE)
  • ベイジアン信念ネットワーク (BBN)
  • ベイジアンネットワーク (BN)

アドバンテージ:

  • 速く、トレーニングが簡単で、必要なリソースがあれば優れたパフォーマンスを発揮します

欠点:

  • 入力変数が相関している場合、これは問題となる可能性がある。

相関ルール学習アルゴリズム

関連ルール学習法は、データ内の変数間の関係についての最適な説明を抽出できます。たとえば、スーパーマーケットの販売データに「{玉ねぎ、ジャガイモ}=> {ハンバーガー}」というルールがある場合、顧客が玉ねぎとジャガイモを同時に購入すると、ハンバーガーの肉も購入する可能性が高いことを意味します。

例:

  • アプリオリアルゴリズム
  • エクラアルゴリズム
  • FP成長

グラフィカルモデル

グラフィカル モデルまたは確率グラフィカル モデル (PGM) は、グラフを使用してランダム変数間の条件付き依存構造を表す確率モデルです。

例:

  • ベイジアンネットワーク
  • マルコフ確率場
  • チェーングラフ
  • 祖先グラフ

アドバンテージ:

  • モデルは明確で直感的に理解できる

欠点:

  • 依存関係のトポロジーを決定することは困難であり、時には曖昧になる。

<<:  蘇寧のデジタルツインプラットフォームが倉庫の効率向上に貢献

>>:  コレクションにおすすめ!素晴らしい AWS 機械学習ツールキットの概要

ブログ    

推薦する

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

[[422682]]以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏...

AI実践者の意見:ディープラーニングは強力だが、過大評価してはいけない

AlphaGOとイ・セドルの人間対機械の戦いにより、ディープラーニングという言葉が再び人気を集めてい...

CLIP と LLM を使用したマルチモーダル RAG システムの構築

この記事では、オープンソースの Large Language Multi-Modal モデルを使用し...

Google に行ったが、ディープラーニングはできなかった。Facebook の Tian Yuandong が人生の課題と選択について語る

初めての15分間のスピーチの準備に2か月を要し、卒業後すぐにGoogleに入社したものの歯車の一部に...

人工知能の時代に優れた教師とはどのような人物であるべきでしょうか?

つい先日の教師の日、ジャック・マー氏は引退を発表し、正式にアリババの会長を辞任した。引退後、ジャック...

...

不動産業界における人工知能のメリットトップ10

人工知能 (AI) は不動産業界に革命をもたらし、データ分析の強化から顧客体験の向上まで、さまざまな...

...

人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

予測によると、AI の影響を最も受ける職業の 1 つはアプリケーション開発者です。結局のところ、Ch...

中国ダイビングチームの勝利には人工知能が貢献した

ネットユーザーたちはこのオリンピックについて不満を述べている。たとえ境界線を越えたとしても、高得点を...

アメリカのAI企業の優位性を打ち破り、AI数学オープンソースモデルでアベルが1位に

ChatGPTに代表される大型モデル製品は新たな産業革命を先導し、国内外の機関が関連技術研究に積極的...

...

AIを活用した自動化が成果を上げる:自動化の破壊的イノベーションにより収益成長が1.5倍に増加

新型コロナウイルス感染症のパンデミックによって引き起こされた市場の混乱は、世界中の企業に引き続き重く...

チップ不足は人工知能にどれほどの損害を与えるでしょうか?

現在の半導体サプライチェーンのボトルネックの根本的な原因は何年も前から潜んでいたが、COVID-19...

...