適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

[[327632]]

【51CTO.com クイック翻訳】

この質問に対する単純で明確な答えはありません。答えは、問題の説明、期待される出力の種類、データの種類とサイズ、利用可能な計算時間、特徴の数、データ内の観測値など、多くの要因によって異なります。

アルゴリズムを選択する際に考慮すべき重要な要素がいくつかあります。

1. トレーニングデータのサイズ

通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。しかし、多くの場合、データの可用性は制約となります。したがって、トレーニング データが少ない場合、またはデータセットに含まれる観測値は少ないが遺伝子データやテキスト データなどの特徴が多数ある場合は、線形回帰、ナイーブ ベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。

トレーニング データが十分に大きく、観測数が特徴数よりも多い場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを使用できます。

2. 出力の正確性および/または解釈可能性

モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰などの制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルでは、解釈可能性の低さと引き換えに精度が高くなります。

図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフの表現。

一部のアルゴリズムは、マッピング関数の形状の範囲が狭いため、「制限的」アルゴリズムと呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。

一部のアルゴリズムは、より広範囲のマッピング関数の形状を生成できるため、柔軟なアルゴリズムと呼ばれます。たとえば、k = 1 の KNN は、すべての入力データ ポイントを考慮してマッピング出力関数を生成するため、柔軟性が非常に高くなります。次の図は、柔軟なアルゴリズムと制限的なアルゴリズム間のトレードオフを示しています。

図 2. さまざまな統計学習方法を使用した柔軟性と解釈可能性のトレードオフの表現。

どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。推論が目的であれば、解釈がはるかに簡単な制限付きモデルの方が適しています。より高い精度が目標であれば、柔軟なモデルの方が適しています。方法の柔軟性が高まるにつれて、解釈可能性は通常低下します。

3. スピードまたはトレーニング時間

通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニング データをトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。

ナイーブベイズや線形回帰、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータ調整を必要とする SVM などのアルゴリズム、収束時間が長いニューラル ネットワーク、ランダム フォレストでは、データのトレーニングに多くの時間が必要です。

4. 直線性

多くのアルゴリズムは、クラスを直線 (またはその高次元類似物) で分離できるという仮定に基づいています。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。これらのアルゴリズムは、データが線形である場合に適切に機能します。

ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダム フォレスト、ニューラル ネットワークなどがあります。

直線性を調べる最良の方法は、直線を当てはめるか、ロジスティック回帰または SVM を実行して残差を調べることです。誤差が大きいということは、データが線形ではなく、適合するには複雑なアルゴリズムが必要であることを意味します。

5. 機能の数

データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性があり重要であるとは限りません。遺伝子データやテキストデータなどの特定の種類のデータの場合、特徴の数はデータポイントの数に比べて非常に大きくなることがあります。

多数の機能があると、一部の学習アルゴリズムの動作が遅くなり、トレーニングに時間がかかりすぎる可能性があります。 SVM は、データの特徴空間が大きく、観測ポイントが少ない状況に適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の方法を使用する必要があります。

以下の便利なチートシートには、さまざまな種類の機械学習の問題を解決するために使用できるアルゴリズムが詳しく記載されています。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分けられます。この記事では、このチートシートを使用するプロセスについて説明します。

チートシートには主に 2 つの種類があります。

  • 教師あり学習アルゴリズムは、トレーニング データに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。

教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。

  • トレーニング データに応答変数がない場合、教師なし学習アルゴリズムが使用されます。これらのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリング アルゴリズムと次元削減アルゴリズムは、教師なし学習アルゴリズムの 2 つのタイプです。

次のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについてのみ説明し、それぞれの方法を適用できる例を示します。

新しい問題を解決しようとするときに考慮すべき主なポイントは次のとおりです。

  • 問題を定義します。質問の目的は何ですか?
  • データを探索し、理解を深めます。
  • 基本モデルから始めてベースライン モデルを構築し、その後、より複雑なアプローチを試してください。

そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを覚えておいてください。同様に重要なのは、適切に設計された機能です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル法は優れた精度を提供することが多いため、試してみてください。

原題: 適切な機械学習アルゴリズムを選択するための簡単なガイド、著者: Yogita Kinha

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  機械学習モデルを使用して数十億のデータポイントの性別を予測する方法

>>:  なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?

ブログ    

推薦する

復旦大学の邱希鵬さんへの10の質問:大手モデルはAndroidの時代に入り、国産モデルがLIamaに取って代わることを望みます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能はどれくらい普及しているのでしょうか?国内初となる人工知能講座が小中学校で実施されました!

5月5日、教育部が主催する第3回全国基礎教育情報化応用展示会・交流活動において、北京市朝陽区で人工...

...

鍾南山氏は人工知能カンファレンスでAI COVID-19画像認識などの技術について講演した。

現在、世界の健康は大きな課題に直面しています。2020年以降の新型コロナウイルスの蔓延は、世界的な公...

集団雷雨!自動化された攻撃により、主要な言語モデルを1分で脱獄できる

大規模な言語モデル アプリケーションが直面する 2 つの主要なセキュリティ上の脅威は、トレーニング ...

ニューラル ネットワーク: 神秘的で驚異的なニューラル ネットワークの完全な歴史

[[346995]]さまざまな資料を読んでいくうちに、ニューラルネットワークの歴史に深く魅了されるよ...

企業で文明的な AI を推進するための 6 つのヒント

「文明化された AI」への期待が高まるにつれ、コンサルタントは公平で偏見のないアルゴリズムを作成する...

...

...

人工知能は人間の文化を継承するが、人間の偏見も受け継いでいる

テクノロジーは既存の人間文化の延長です。テクノロジーは人類の知恵を広げた一方で、人々の偏見や差別も受...

太陽光発電や風力発電に AI はメリットをもたらすのでしょうか?

太陽光発電と風力発電は急成長しているが、世界の再生可能電力への移行は、気候目標を迅速に達成するにはま...

Google ナレッジグラフ プロダクト マネージャーへのインタビュー: 探検するために生まれた

Google は最近、検索ページの新しい機能である Google ナレッジグラフをリリースしました。...

NLPの新人プロンプトは円を超えて、清華大学劉志遠の最新論文はそれをVLM画像に適用する

[[426388]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

データアーキテクチャはAIと医療の未来を推進する上で重要

COVID-19パンデミックは、医学的発見のスピードの重要性だけでなく、その加速を支援するデータサイ...