適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

[[327632]]

【51CTO.com クイック翻訳】

この質問に対する単純で明確な答えはありません。答えは、問題の説明、期待される出力の種類、データの種類とサイズ、利用可能な計算時間、特徴の数、データ内の観測値など、多くの要因によって異なります。

アルゴリズムを選択する際に考慮すべき重要な要素がいくつかあります。

1. トレーニングデータのサイズ

通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。しかし、多くの場合、データの可用性は制約となります。したがって、トレーニングデータが少ない場合、またはデータセットに含まれる観測値は少ないが遺伝子データやテキストデータなどの特徴が多数ある場合は、線形回帰、ナイーブベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。

トレーニングデータが十分に大きく、観測数が特徴数よりも多い場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを使用できます。

2. 出力の正確性および/または解釈可能性

モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰などの制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルでは、解釈可能性の低さと引き換えに精度が高くなります。

図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフの表現。

一部のアルゴリズムは、マッピング関数の形状の範囲が狭いため、「制限的」アルゴリズムと呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。

一部のアルゴリズムは、より広範囲のマッピング関数の形状を生成できるため、柔軟なアルゴリズムと呼ばれます。たとえば、k = 1 の KNN は、すべての入力データポイントを考慮してマッピング出力関数を生成するため、柔軟性が非常に高くなります。次の図は、柔軟なアルゴリズムと制限的なアルゴリズム間のトレードオフを示しています。

図 2. さまざまな統計学習方法を使用した柔軟性と解釈可能性のトレードオフの表現。

どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。推論が目的であれば、解釈がはるかに簡単な制限付きモデルの方が適しています。より高い精度が目標であれば、柔軟なモデルの方が適しています。方法の柔軟性が高まるにつれて、解釈可能性は通常低下します。

3. スピードまたはトレーニング時間

通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニングデータをトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。

ナイーブベイズや線形回帰、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータ調整を必要とする SVM などのアルゴリズム、収束時間が長いニューラルネットワーク、ランダムフォレストでは、データのトレーニングに多くの時間が必要です。

4. 直線性

多くのアルゴリズムは、クラスを直線 (またはその高次元類似物) で分離できるという仮定に基づいています。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。これらのアルゴリズムは、データが線形である場合に適切に機能します。

ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダムフォレスト、ニューラルネットワークなどがあります。

直線性を調べる最良の方法は、直線を当てはめるか、ロジスティック回帰または SVM を実行して残差を調べることです。誤差が大きいということは、データが線形ではなく、適合するには複雑なアルゴリズムが必要であることを意味します。

5. 機能の数

データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性があり重要であるとは限りません。遺伝子データやテキストデータなどの特定の種類のデータの場合、特徴の数はデータポイントの数に比べて非常に大きくなることがあります。

多数の機能があると、一部の学習アルゴリズムの動作が遅くなり、トレーニングに時間がかかりすぎる可能性があります。 SVM は、データの特徴空間が大きく、観測ポイントが少ない状況に適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の方法を使用する必要があります。

以下の便利なチートシートには、さまざまな種類の機械学習の問題を解決するために使用できるアルゴリズムが詳しく記載されています。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分けられます。この記事では、このチートシートを使用するプロセスについて説明します。

チートシートには主に 2 つの種類があります。

教師あり学習アルゴリズムは、トレーニングデータに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。

教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。

トレーニングデータに応答変数がない場合、教師なし学習アルゴリズムが使用されます。これらのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリングアルゴリズムと次元削減アルゴリズムは、教師なし学習アルゴリズムの 2 つのタイプです。

次のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについてのみ説明し、それぞれの方法を適用できる例を示します。

新しい問題を解決しようとするときに考慮すべき主なポイントは次のとおりです。

問題を定義します。質問の目的は何ですか?
データを探索し、理解を深めます。
基本モデルから始めてベースラインモデルを構築し、その後、より複雑なアプローチを試してください。

そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを覚えておいてください。同様に重要なのは、適切に設計された機能です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル法は優れた精度を提供することが多いため、試してみてください。

原題: 適切な機械学習アルゴリズムを選択するための簡単なガイド、著者: Yogita Kinha

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: 機械学習モデルを使用して数十億のデータポイントの性別を予測する方法

>>: なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?