7つの機械学習アルゴリズムの7つの重要なポイント

7つの機械学習アルゴリズムの7つの重要なポイント

さまざまなライブラリとフレームワークの助けを借りて、たった 1 行のコードで機械学習アルゴリズムを実装できます。さらに一歩進んで、複数のアルゴリズムを一度に実装して比較できるものもあります。

使いやすさにはいくつかの欠点があります。これらのアルゴリズムを完全に理解するために不可欠な、アルゴリズムの背後にある重要な概念やアイデアを見落としてしまう可能性があります。

[[358237]]

この記事では、7 つの機械学習アルゴリズムに関する 7 つの重要なポイントについて説明します。ただし、この説明ではこれらのアルゴリズムを完全には説明できないため、基本的な理解があればなお良いでしょう。

始めましょう。

1. サポートベクターマシン (SVM)

重要なポイント: Cパラメータ

SVM は、2 つ以上のクラスを区別するための決定境界を作成します。

ソフトマージン SVM は、次の目的で最適化問題を解決しようとします。

  • 決定境界とクラス(またはサポートベクトル)間の距離を増やす
  • トレーニングセット内の正しく分類されたポイントの数を最大化する

これら 2 つの目標の間には明らかにトレードオフがあります。すべてのデータ ポイントに正しくラベルを付けるには、決定境界を特定のクラスに非常に近づける必要がある場合があります。ただし、この場合、決定境界がノイズや独立変数の小さな変化に敏感すぎるため、新しい観測値の精度が低下する可能性があります。

一方、一部の誤分類例外を犠牲にして、各クラスの決定境界を可能な限り大きく設定することも可能です。このトレードオフは c パラメータによって制御されます。

C パラメータは、誤分類されたデータ ポイントごとにペナルティを追加します。 c が小さい場合、誤分類されたポイントに対するペナルティは低くなるため、誤分類の数が増える代わりに、より大きなマージンを持つ決定境界が選択されます。

c が大きい場合、SVM は高いペナルティにより誤分類された例の数を最小限に抑えようとし、その結果、決定境界のマージンが小さくなります。ペナルティは、誤分類されたすべての例に対して同じではありません。決定境界までの距離に比例します。

2. 決定木

ポイント:情報収集

分割する機能を選択する際に、決定木アルゴリズムは次のことを達成しようとします。

  • より予測的
  • 不純物が少ない
  • エントロピーが低い

エントロピーは不確実性またはランダム性の尺度です。変数のランダム性が高くなるほど、エントロピーは高くなります。均一に分布する変数はエントロピーが最も高くなります。たとえば、サイコロを振ると、等しい確率で 6 つの結果が出る可能性があるため、均一な分布と高いエントロピーが実現されます。

> エントロピーとランダム性

より純粋なノードが生成される分割を選択します。これらすべては「情報ゲイン」を示唆しており、これは基本的に、分割前と分割後のエントロピーの差です。

3. ランダムフォレスト

重要なポイント: ブートストラップと関数のランダム性

ランダム フォレストは、多数の決定木の集合体です。ランダム フォレストの成功は、相関のない決定木の使用に大きく依存します。同じまたは非常に類似したツリーを使用すると、全体的な結果は単一の決定木の結果と区別がつかなくなります。ランダム フォレストは、ブートストラップと特徴のランダム性を通じて相関のない決定木を実現します。

ブートストラップでは、トレーニング データからランダムにサンプルを選択して置き換えます。これらはブートストラップ サンプルと呼ばれます。

特徴のランダム性は、ランダム フォレスト内の各決定木の特徴をランダムに選択することによって実現されます。ランダム フォレスト内の各ツリーに使用される特徴の数は、max_features パラメータによって制御できます。

> 機能のランダム性

4. 勾配ブースティング決定木

重要なポイント: 学習率とn_estimators

GBDT は、決定木とブースティング法を組み合わせたもので、決定木が順番に接続されます。

学習率と n_estimator は、勾配ブースティング決定木の 2 つの重要なハイパーパラメータです。

学習率は、モデルがどれだけ速く学習するかを示します。学習速度が遅いことの利点は、モデルがより堅牢になり、より一般化されることです。しかし、学習が遅いと代償が伴います。モデルのトレーニングにはさらに時間がかかるため、別の重要なハイパーパラメータが必要になります。

n_estimator パラメータは、モデルで使用されるツリーの数です。学習率が低い場合は、モデルをトレーニングするためにさらに多くのツリーが必要になります。ただし、木の数を選択する際には細心の注意を払う必要があります。ツリーを多用しすぎると、過剰適合のリスクが高くなります。

5. ナイーブベイズ分類器

重要なポイント: 素朴な仮定の利点は何でしょうか?

ナイーブ ベイズは分類のための教師あり機械学習アルゴリズムであるため、タスクは特徴の値が与えられた場合に観測のクラスを見つけることです。ナイーブベイズ分類器は、特徴値のセット、つまりp(yi | x1, x2, …, xn)が与えられたクラスの確率を計算します。

ナイーブベイズでは、特徴は互いに独立しており、特徴間に相関関係はないものと想定します。しかし、現実にはそうではありません。特徴は相関していないというこの単純な仮定が、このアルゴリズムが「単純」と呼ばれる理由です。

すべての関数が独立しているという仮定により、複雑なアルゴリズムに比べて非常に高速になります。場合によっては、正確さよりも速度の方が重要です。

テキスト分類、電子メールスパム検出などの高次元データに適しています。

6. K 最近傍点

重要なポイント: いつ使うべきか、いつ使わないべきか

K 最近傍法 (kNN) は、分類および回帰タスクを解決するために使用できる教師あり機械学習アルゴリズムです。 kNN の主な原則は、データ ポイントの値が周囲のデータ ポイントによって決定されるというものです。

データ ポイントの数が増えると、モデルがデータ ポイント間の距離を計算するためにすべてのデータ ポイントを保存する必要があるため、kNN アルゴリズムは非常に遅くなります。この理由により、アルゴリズムのメモリも非効率的になります。

もう 1 つの欠点は、外れ値が最も近いポイント (離れすぎている場合でも) に影響を与える可能性があるため、kNN が外れ値の影響を受けやすいことです。

良い面としては:

  • わかりやすい
  • 仮定は行われないため、非線形タスクに実装できます。
  • 複数のカテゴリの分類に適しています
  • 分類および回帰タスクに適しています

7. K平均法クラスタリング

重要なポイント: いつ使うべきか、いつ使わないべきか

K 平均法クラスタリングは、同じクラスター内のデータ ポイントは類似し、異なるクラスター内のデータ ポイントは離れるように、データを k 個のクラスターに分割することを目的としています。

K-means アルゴリズムでは、データ内に存在するクラスターの数を推測できません。クラスターの数を事前に決定する必要があり、これは難しい作業になる可能性があります。

各ステップですべてのデータ ポイントにアクセスして距離を計算するため、サンプル数が増えるにつれてアルゴリズムの速度が低下します。

K-means では線形境界のみを描画できます。データ内のグループを分離する非線形構造がある場合、k-means は適切な選択ではありません。

良い面としては:

  • 説明しやすい
  • もっと早く
  • 大規模なデータセットに対応できるスケーラビリティ
  • 初期重心の位置をインテリジェントに選択し、より速い収束を実現する機能
  • 統合の保証

各アルゴリズムに関するいくつかの重要な概念を紹介しました。示されたポイントとコメントは、決してアルゴリズムの完全な説明ではありません。ただし、これらのアルゴリズムを実装するときには必ず何か問題が発生することを理解しておくことが重要です。

<<:  ニューロモルフィック・コンピューティングが私たちを AI の新しい時代へと導くのはいつでしょうか?

>>:  動的プログラミングアルゴリズムのルーチンをマスターするにはどうすればいいですか?

ブログ    

推薦する

世界の技術大国の人工知能+インテリジェント製造戦略の展開を振り返る

1. アメリカ合衆国2016 年 10 月、米国政府は「人工知能の未来への準備」と「国家人工知能研究...

強力な顔認識システムを騙すには、額に紙を貼り付けてください。 Huawei製、Face IDは終了

[[275013]]額にお守りを貼るとAIがあなたを認識できなくなるって知っていましたか?たとえば、...

...

人工知能を活用して顧客サービスを向上させる方法

顧客エンゲージメント、パーソナライゼーションなど、5 つの異なる領域で AI を使用して顧客サービス...

...

無人経済が新たな機会をもたらす

[[385322]]春節が過ぎ、広州のアパレル工場は「労働者の採用難」という問題に直面した。広州服装...

...

Google の覇権は崩壊するのか?支配から疑惑へ:20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

Googleで最初に出てくるのは、スタンフォード大学の元学長ゲルハルト・カスパーの名前です。 199...

時代と戦う:ハードコアな百度の AI 探究

2021年2月18日午前、百度は2020年第4四半期および通期の財務報告を発表し、印象的なデータを示...

エンタープライズ向け人工知能プラットフォームの選択ガイド

企業における人工知能の応用はますます広範になってきており、産業化される可能性もあります。既存のデータ...

スタンフォード HAI が主催: 世界中で 18 の主要な AI イベント

3月18日、李飛飛氏が所長を務める人間中心人工知能研究所(HAI)は、発足からそれほど経たないうちに...

ロボット工学の可能性を解き放つ:産業に革命を起こし、人々の生活を向上させる

ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...

米メディア:中国が人工知能市場を支配すると予想

[[388200]] 3月15日、アメリカの隔週刊誌フォーブスのウェブサイトは、バーナード・マー氏に...

ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました

最近、業界の多くの大規模なモデルベンチマークが、「強度値」のアップデートの新たなラウンドを導入しまし...

マイクロソフトCEOナデラ氏:世界は人工知能に関して幅広い合意を形成しつつある

マイクロソフトのCEOサティア・ナデラ氏は1月17日(現地時間)の火曜日、人工知能に関して世界中でコ...