適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

[[327632]]

【51CTO.com クイック翻訳】

この質問に対する単純で明確な答えはありません。答えは、問題の説明、期待される出力の種類、データの種類とサイズ、利用可能な計算時間、特徴の数、データ内の観測値など、多くの要因によって異なります。

アルゴリズムを選択する際に考慮すべき重要な要素がいくつかあります。

1. トレーニングデータのサイズ

通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。しかし、多くの場合、データの可用性は制約となります。したがって、トレーニング データが少ない場合、またはデータセットに含まれる観測値は少ないが遺伝子データやテキスト データなどの特徴が多数ある場合は、線形回帰、ナイーブ ベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。

トレーニング データが十分に大きく、観測数が特徴数よりも多い場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを使用できます。

2. 出力の正確性および/または解釈可能性

モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰などの制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルでは、解釈可能性の低さと引き換えに精度が高くなります。

図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフの表現。

一部のアルゴリズムは、マッピング関数の形状の範囲が狭いため、「制限的」アルゴリズムと呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。

一部のアルゴリズムは、より広範囲のマッピング関数の形状を生成できるため、柔軟なアルゴリズムと呼ばれます。たとえば、k = 1 の KNN は、すべての入力データ ポイントを考慮してマッピング出力関数を生成するため、柔軟性が非常に高くなります。次の図は、柔軟なアルゴリズムと制限的なアルゴリズム間のトレードオフを示しています。

図 2. さまざまな統計学習方法を使用した柔軟性と解釈可能性のトレードオフの表現。

どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。推論が目的であれば、解釈がはるかに簡単な制限付きモデルの方が適しています。より高い精度が目標であれば、柔軟なモデルの方が適しています。方法の柔軟性が高まるにつれて、解釈可能性は通常低下します。

3. スピードまたはトレーニング時間

通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニング データをトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。

ナイーブベイズや線形回帰、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータ調整を必要とする SVM などのアルゴリズム、収束時間が長いニューラル ネットワーク、ランダム フォレストでは、データのトレーニングに多くの時間が必要です。

4. 直線性

多くのアルゴリズムは、クラスを直線 (またはその高次元類似物) で分離できるという仮定に基づいています。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。これらのアルゴリズムは、データが線形である場合に適切に機能します。

ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダム フォレスト、ニューラル ネットワークなどがあります。

直線性を調べる最良の方法は、直線を当てはめるか、ロジスティック回帰または SVM を実行して残差を調べることです。誤差が大きいということは、データが線形ではなく、適合するには複雑なアルゴリズムが必要であることを意味します。

5. 機能の数

データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性があり重要であるとは限りません。遺伝子データやテキストデータなどの特定の種類のデータの場合、特徴の数はデータポイントの数に比べて非常に大きくなることがあります。

多数の機能があると、一部の学習アルゴリズムの動作が遅くなり、トレーニングに時間がかかりすぎる可能性があります。 SVM は、データの特徴空間が大きく、観測ポイントが少ない状況に適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の方法を使用する必要があります。

以下の便利なチートシートには、さまざまな種類の機械学習の問題を解決するために使用できるアルゴリズムが詳しく記載されています。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分けられます。この記事では、このチートシートを使用するプロセスについて説明します。

チートシートには主に 2 つの種類があります。

  • 教師あり学習アルゴリズムは、トレーニング データに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。

教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。

  • トレーニング データに応答変数がない場合、教師なし学習アルゴリズムが使用されます。これらのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリング アルゴリズムと次元削減アルゴリズムは、教師なし学習アルゴリズムの 2 つのタイプです。

次のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについてのみ説明し、それぞれの方法を適用できる例を示します。

新しい問題を解決しようとするときに考慮すべき主なポイントは次のとおりです。

  • 問題を定義します。質問の目的は何ですか?
  • データを探索し、理解を深めます。
  • 基本モデルから始めてベースライン モデルを構築し、その後、より複雑なアプローチを試してください。

そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを覚えておいてください。同様に重要なのは、適切に設計された機能です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル法は優れた精度を提供することが多いため、試してみてください。

原題: 適切な機械学習アルゴリズムを選択するための簡単なガイド、著者: Yogita Kinha

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  機械学習モデルを使用して数十億のデータポイントの性別を予測する方法

>>:  なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?

ブログ    

推薦する

畳み込みニューラルネットワークの「修理工」のための「マニュアル」

[[242145]]ビッグデータダイジェスト制作編集者: Luo Ran、Xue Qing、Ail...

IEEE: 新たな AI サイバーセキュリティの課題と解決策

人工知能はさまざまな課題に直面しており、IEEE の専門家は対応する解決策を提案しています。合成現実...

全光自動運転ネットワーク、F5G全光スマートシティの共同構築

新たなインフラ、都市のデジタルガバナンス、政府と企業のデジタル変革、デジタルホームの急速な発展に伴い...

...

SAIC Maxus、クローズドループエコシステム構築に向けた「RVスマートモビリティビジョン」を発表

2017年6月30日、第一回世界知能大会で上汽大通の「RVスマートモビリティビジョン」が盛大に発表さ...

...

広告および推奨システムに機械学習モデルを導入するための 2 つのアーキテクチャ

広告および推奨システムは、機械学習の最も成熟した応用分野です。では、広告システムや推奨システムでは、...

2.5 ~ 4 倍の深さで、より少ないパラメータと計算量で、DeLighT はどうやってそれを実現したのでしょうか?

ディープラーニングはパラメータが多すぎる、モデルが大きすぎる、展開が不便、そしてコンピューティングリ...

...

...

スーパー暗号解読:自動運転はこうして実現される

多くの新製品と同様に、自動運転に対する人々の態度は、過度の信頼から過少な信頼まで二極化しています。自...

ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

学術界は、ChatGPT がなぜ愚かになったのかという新たな説明を持っています。カリフォルニア大学サ...

...