機械学習エンジニアが知っておくべきアルゴリズムトップ10

機械学習/人工知能のサブフィールドがここ数年で人気が高まってきたことは間違いありません。ビッグデータは現在テクノロジー業界で大流行しており、大量のデータに基づいて予測や推奨を行う機械学習は間違いなく非常に強力です。機械学習の最も一般的な例としては、以前に視聴した映画に基づいて映画を推奨できる Netflix のアルゴリズムや、以前に購入した本に基づいて本を推奨できる Amazon のアルゴリズムが挙げられます。

では、機械学習についてもっと学びたい場合、どのように始めればよいのでしょうか? 私の場合、きっかけはコペンハーゲン留学中に受講した人工知能の授業でした。当時の私の講師は、デンマーク工科大学の応用数学とコンピュータサイエンスの教授でした。彼の研究は論理と人工知能で、論理を使用して人間のような計画、推論、問題解決をモデル化することに重点を置いていました。このコースには、理論/コア概念の議論と実践的な問題解決が含まれます。私たちが使用した教科書は、AIの古典の一つ、ピーター・ノーヴィグ著『人工知能—現代的アプローチ』（中国語訳：「人工知能：現代的アプローチ」）です。この本では、主にインテリジェントエージェント、探索問題解決、敵対的探索、確率論、マルチエージェントシステム、ソーシャルAI、AIの哲学・倫理・将来などについて解説されています。コースの最後に、私たちの 3 人のチームは、検索ベースのエージェントが仮想環境で輸送タスクを解決する簡単なプログラミングプロジェクトを実装しました。

私はそのコースで多くのことを学び、関連するトピックの勉強を続けることにしました。ここ数週間、私はサンフランシスコでディープラーニング、ニューラルネットワーク、データ構造をテーマとした技術講演に数回出席し、またこの分野の著名な専門家が多数参加する機械学習カンファレンスにも出席しました。それに加えて、6 月初旬に Udacity の機械学習入門オンラインコースを受講し、数日前に終了しました。この記事では、コースで学んだ最も一般的に使用される機械学習アルゴリズムのいくつかを紹介します。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習の 3 つの主要なカテゴリに分けられます。教師あり学習は、特定のデータセット (トレーニングセット) に特定の属性 (ラベル) があるが、他のデータにはラベルがないか、ラベルを予測する必要がある場合に使用できます。教師なし学習は、データ間の根本的な関係を見つけることを目的として、特定のラベルなしデータセット（データが事前に割り当てられていない）に使用できます。強化学習はその中間に位置し、各予測には何らかの形のフィードバックがありますが、正確なラベルやエラーメッセージはありません。これは入門コースなので、強化学習については取り上げていませんが、教師あり学習と教師なし学習の次の 10 個のアルゴリズムが皆さんの興味を引くのに十分であることを願っています。

教師あり学習

1. 決定木

意思決定ツリーは、ツリー図または意思決定モデルと、偶発事象、リソースコスト、ユーティリティの結果を含む一連の可能性を使用する意思決定支援ツールです。次の図はその基本原理を示しています。

ビジネス上の意思決定の観点から見ると、意思決定ツリーは、ほとんどの場合に正しい決定を下す可能性を評価するために尋ねなければならない「はい」または「いいえ」の質問の最小数です。方法としては、構造化された体系的な方法で問題にアプローチし、論理的な結論を導くことができます。

2. 単純ベイズ分類

ナイーブベイズ分類器は、ベイズの定理と特徴間の強い (ナイーブな) 独立性の仮定に基づく単純な確率分類器のクラスです。この図はベイズの式を示しています。ここで、P(A|B) は事後確率、P(B|A) は尤度、P(A) はクラスの事前確率、P(B) は予測される事前確率です。

[[188768]]

いくつかの応用例: スパムの識別

テクノロジー、政治、スポーツなどのカテゴリ別にニュースを分類する
テキストに表現されている感情が肯定的か否定的かを判断する
顔認識

3. 通常の最小二乗回帰

統計について少しでも知っている人なら、おそらく線形回帰について聞いたことがあるでしょう。最小二乗法は線形回帰を計算する方法です。線形回帰は、一連の点を通る直線を当てはめるものと考えることができます。これを行うには多くの方法がありますが、「最小二乗法」は次のようになります。直線を描き、各データポイントについて、各ポイントから直線までの垂直距離を計算し、それらを合計します。最もよく適合する直線は、距離の合計が最小になる直線です。

線形はデータを適合させるために使用するモデルを指し、最小二乗は最小化する誤差の尺度を指します。

4. ロジスティック回帰

ロジスティック回帰は、1 つ以上の説明変数に基づいて二項結果を表すことができる強力な統計手法です。これは、ロジスティック関数を使用して確率を推定することにより、累積ロジスティック分布に従うカテゴリ従属変数と 1 つ以上の独立変数の関係を測定します。

一般に、ロジスティック回帰は次の実際のアプリケーションシナリオで使用できます。

クレジットスコア
マーケティングキャンペーンの成功率を計算する
製品の収益を予測する
特定の日に地震は発生しますか?

5. サポートベクターマシン (SVM)

SVM はバイナリ分類アルゴリズムです。 N 次元座標内の 2 種類の点が与えられると、SVM は (N-1) 次元の超平面を生成し、これらの点を 2 つのグループに分けます。平面上に線形に分離可能な 2 種類の点があるとします。SVM は、これらの点を 2 種類に分離し、すべての点から可能な限り離れた線を見つけます。

規模の点では、SVM (適切な修正を加えたもの) を使用して解決される最も一般的な問題には、ディスプレイ広告、人間のスプライスサイトの認識、画像ベースの性別検出、大規模な画像分類などがあります。

6. アンサンブル法

アンサンブル法は、分類器のグループを構築し、その予測に基づいて加重投票を行うことで新しいデータポイントを分類する学習アルゴリズムです。元のアンサンブル法はベイズ平均化でしたが、最近のアルゴリズムにはエラー訂正出力コーディング、バギング、ブースティングが含まれます。

では、アンサンブル法はどのように機能するのでしょうか? また、アンサンブル法が単一モデルよりも優れているのはなぜでしょうか?

それらは個々のモデルの偏りを平均化します。つまり、民主党の世論調査と共和党の世論調査を平均すると、どちらの側にも偏らないバランスの取れた結果が得られます。
それらはばらつきを減らします。つまり、モデルのグループ全体の意見は、モデルのいずれか 1 つの意見よりも均一になります。金融の世界では、これを分散化と呼びます。多くの株式のポートフォリオは単一の株式よりも不確実性が低くなるため、データが多いほどモデルのパフォーマンスが向上します。
過剰適合する可能性が低くなります。過剰適合しない個々のモデルがある場合、それらのモデルからの予測 (平均、加重平均、ロジスティック回帰) を単純に組み合わせても、過剰適合は発生しません。

教師なし学習

7. クラスタリングアルゴリズム

クラスタリングは、同じグループ (クラスター) 内のオブジェクトを他のグループ内のオブジェクトよりも類似させることを目的として、一連のオブジェクトをグループ化するタスクです。

クラスタリングアルゴリズムはそれぞれ異なりますが、以下に例を示します。重心ベースのアルゴリズム

接続ベースのアルゴリズム
密度ベースのアルゴリズム
確率
次元削減
ニューラルネットワーク/ディープラーニング

8. 主成分分析（PCA）

PCA は、直交変換を使用して、相関している可能性のある変数のセットの観測値を主成分と呼ばれる線形に相関のない値のセットに変換する統計手順です。

PCA の用途としては、圧縮、学習を容易にするためのデータの簡素化、視覚化などがあります。 PCA を続行するかどうかを選択する際には、ドメイン知識が非常に重要であることに注意してください。これは、データにノイズが多い場合（PCA のすべてのコンポーネントの分散が大きい場合）には適用されません。

9. 特異値分解（SVD）

線形代数において、SVD は複素行列の因数分解です。与えられた m*n 行列 M に対して、M=UΣV となるような分解が存在します。ここで、U と V はユニタリ行列、Σ は対角行列です。

実際、PCA は SVD の単純な応用です。コンピュータービジョンにおける最も初期の顔認識アルゴリズムでは、PCA と SVD を使用して顔を「固有顔」の線形結合として表現し、次元削減を実行し、単純な方法で顔と ID を一致させていました。現代の方法はより洗練されていますが、多くの側面で依然として同様の技術に依存しています。

10. 独立成分分析（ICA）

ICA は、ランダム変数、測定値、または信号のセット内の隠れた要因を明らかにするために使用される統計手法です。 ICA は、観測された多変量データ（通常は大規模なサンプルデータベース）の生成モデルを定義します。モデルでは、データ変数がいくつかの未知の潜在変数によって線形に混合され、混合方法も不明であると想定されます。潜在変数は非ガウス分布であり、互いに独立していると仮定され、観測データの独立成分と呼ばれます。

ICA は PCA に関連していますが、これらの従来の方法が完全に失敗した場合にソースの根本的な要因を見つけることができる、より強力な手法です。その用途には、デジタル画像、文書データベース、経済指標、心理測定学などがあります。これらのアルゴリズムの理解を応用して、世界中の人々により良い体験をもたらす機械学習アプリケーションを作成しましょう。

<<: 悪いことを学ぶのは簡単ですが、良いことを学ぶのは難しいです！人工知能は人間の人種や性別の偏見を継承する

>>: SEO技術における人工知能の応用