適切な機械学習アルゴリズムを簡単に選択

適切な機械学習アルゴリズムを簡単に選択

著者: ヨギータ・キナ

ブガッティが編集

企画丨孫淑娊

適切な機械学習アルゴリズムを選択するにはどうすればよいでしょうか?

この質問に対する直接的で明確な答えはありません。答えは、問題の説明と必要な出力の種類、データのタイプとサイズ、利用可能な計算時間、データ内の特徴と観測の数など、多くの要因によって異なります。

アルゴリズムを選択する際に考慮すべき重要な要素をいくつか示します。

1. トレーニングデータのサイズ

通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。ただし、データの可用性が制限要因となることがよくあります。したがって、トレーニング データが少ない場合、またはデータセットに含まれる観測値の数が少なく、特徴の数が多い場合 (遺伝子データやテキスト データなど) は、線形回帰、ナイーブ ベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。

トレーニング データが十分に大きく、観測数が特徴の数に比べて大きい場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを選択できます。

2. 出力の正確性および/または解釈可能性

モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰のような制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルは、精度は高くなりますが、解釈可能性は低くなります。

図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフ。

一部のアルゴリズムは、マッピング関数の形状の小さなバッチを生成するため、制限的と呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。

一部のアルゴリズムは、マッピング関数に対して多数の形状を生成するため、柔軟であると言われています。たとえば、k=1 の KNN は、すべての入力データ ポイントを考慮してマッピング出力関数を生成するため、非常に柔軟です。次の図は、柔軟なアルゴリズムと制限的なアルゴリズムのトレードオフを示しています。

図2. 異なる統計学習手法を用いた、柔軟性と解釈可能性のトレードオフを示す

どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。目標が推論である場合、制限付きモデルの方が解釈がはるかに簡単なので適しています。より高い精度を目標とする場合は、柔軟性モデルの方が適しています。方法が柔軟になるにつれて、その解釈可能性は一般的に低下します。

3. スピードまたはトレーニング時間

通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニング データを使用してトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。

ナイーブベイズ、線形、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータの調整が必要な SVM や、収束時間が長いニューラル ネットワーク、ランダム フォレストなどのアルゴリズムでは、データのトレーニングに多くの時間が必要です。

4. リニア

多くのアルゴリズムは、クラスを直線(またはその高次元類似物)で分離できるという仮定に基づいて動作します。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。データが線形の場合、これらのアルゴリズムは非常にうまく機能します。

ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダム フォレスト、ニューラル ネットワークなどがあります。

線形性を調べる最良の方法は、線形ラインを当てはめるか、ロジスティック回帰または SVM を実行して残差誤差を確認することです。誤差が大きいということは、データが線形ではなく、適合するために複雑なアルゴリズムが必要であることを意味します。

5. 機能の数

データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性や重要性を持つとは限りません。遺伝子データやテキスト データなどの特定の種類のデータの場合、特徴の数はデータ ポイントの数に比べて非常に大きくなることがあります。

多数の機能があると、一部の学習アルゴリズムが妨げられ、トレーニング時間が長くなりすぎる可能性があります。 SVM は、特徴空間が大きく、観測値が少ないデータに適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の手法を使用する必要があります。

さまざまな種類の機械学習の問題に使用できるアルゴリズムを詳しく説明した便利なチートシートをご紹介します。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分類できます。これについては、以前のブログ (https://www.edvancer.in/understanding-artificial-intelligence-machine-learning-and-data-science/) で説明しました。この記事では、チートシートの使用手順について説明します。チートシートには主に 2 つの種類があります。

教師あり学習アルゴリズムは、トレーニング データに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。

教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。

トレーニング データに応答変数がない場合、教師なし学習アルゴリズムが使用されます。このタイプのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリング アルゴリズムと次元削減アルゴリズムは、2 つの典型的な教師なし学習アルゴリズムです。

以下のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについて、それぞれのアルゴリズムを適用できる例とともに簡単に説明しています。

新しい問題を解決しようとするときに考慮すべき重要なポイントをいくつか示します。

  • 問題を定義します。質問の目的は何ですか?
  • データを探索し、理解を深めます。
  • 基本モデルから始めてベースライン モデルを構築し、より複雑な方法を試してください。

そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを常に覚えておいてください。適切に設計された機能も同様に重要です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル学習法を試してください。精度が大幅に向上することが多いからです。

<<:  AIアルゴリズムの包囲とフードデリバリー業者の「ブレイクアウト」

>>:  AIは「GitHub危機」を乗り越えられるか?

ブログ    
ブログ    
ブログ    

推薦する

AIとIoTが交通管理に及ぼす6つの影響

物流と輸送は世界貿易とサプライチェーン管理にとって極めて重要であり、テクノロジーの急速な発展により、...

ADAPT: エンドツーエンドの自動運転の説明可能性を徹底的に探求する、理解の夜明け!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

平均して、1 秒で 1 つの高得点大学入試エッセイが生成されます。PaddlePaddle Wenxin モデルはどのようにしてこれを実現するのでしょうか?

全国的な大学入試が進行中で、百度のAI技術も「大学入試」に直面している。 6月7日、大学入試の中国語...

自動運転のための強化学習:人間主導の経験ベースのアプローチ

[[428302]] 2021年9月26日にarXivにアップロードされた論文「人間のガイダンスによ...

上級アーキテクトが初めて秘密を明かす:Toutiao の推奨アルゴリズムの原理を 3 分で学ぶ

[[217643]]現在、アルゴリズムの配布は、情報プラットフォーム、検索エンジン、ブラウザ、ソーシ...

...

かつては世界トップ50のロボット技術企業の一つだったスターロボット企業がまた一つ倒産した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

最初のRISC-Vラップトップが公開される、またはWindowsシステムが搭載されると思われますが、年末までに利用可能になりますか

チップ業界では、Armとx86が現在の主流のアーキテクチャであり、オープンなRSIC-Vが将来の方向...

ディズニーは強化学習を利用して新しいロボットをスターウォーズ風に仕上げた

ディズニーの新しいロボットがデビュー!では早速、どんな感じか見てみましょう——大きく輝く目、揺れる頭...

機械学習の人気のトレンドの概要

Google トレンドを使ったことがありますか? かなり便利です。キーワードをいくつか入力すると、G...

...

JD Digits の AI ロボットが物理産業に貢献し、業界賞を受賞

電気の「ジュージュー」という音が響くコンピューター室では、「スマートガーディアン」コンピューター室検...

顔認識技術の法的ギャップを埋める必要がある

顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...

無人店舗の新たなパートナー、蘇寧スポーツビウ

[51CTO.com からのオリジナル記事] 「スマートテクノロジー」の代名詞として、無人店舗は晩夏...