著者: ヨギータ・キナ ブガッティが編集 企画丨孫淑娊 適切な機械学習アルゴリズムを選択するにはどうすればよいでしょうか?この質問に対する直接的で明確な答えはありません。答えは、問題の説明と必要な出力の種類、データのタイプとサイズ、利用可能な計算時間、データ内の特徴と観測の数など、多くの要因によって異なります。 アルゴリズムを選択する際に考慮すべき重要な要素をいくつか示します。 1. トレーニングデータのサイズ通常、信頼性の高い予測を得るには、大量のデータを収集することが推奨されます。ただし、データの可用性が制限要因となることがよくあります。したがって、トレーニング データが少ない場合、またはデータセットに含まれる観測値の数が少なく、特徴の数が多い場合 (遺伝子データやテキスト データなど) は、線形回帰、ナイーブ ベイズ、線形 SVM などのバイアスが高く分散が低いアルゴリズムを選択する必要があります。 トレーニング データが十分に大きく、観測数が特徴の数に比べて大きい場合は、KNN、決定木、カーネル SVM などの低バイアス/高分散アルゴリズムを選択できます。 2. 出力の正確性および/または解釈可能性モデルの精度とは、関数が特定の観測値に対して、その観測値の実際の応答値に近い応答値を予測することを意味します。高度に解釈可能なアルゴリズム (線形回帰のような制限的なモデル) は、単一の予測変数が応答とどのように関連しているかを簡単に理解できることを意味します。一方、柔軟なモデルは、精度は高くなりますが、解釈可能性は低くなります。 図 1. さまざまな統計学習方法を使用した精度と解釈可能性のトレードオフ。 一部のアルゴリズムは、マッピング関数の形状の小さなバッチを生成するため、制限的と呼ばれます。たとえば、線形回帰は直線などの線形関数しか生成できないため、制限的な方法です。 一部のアルゴリズムは、マッピング関数に対して多数の形状を生成するため、柔軟であると言われています。たとえば、k=1 の KNN は、すべての入力データ ポイントを考慮してマッピング出力関数を生成するため、非常に柔軟です。次の図は、柔軟なアルゴリズムと制限的なアルゴリズムのトレードオフを示しています。 図2. 異なる統計学習手法を用いた、柔軟性と解釈可能性のトレードオフを示す どのアルゴリズムを使用するかは、ビジネス問題の目標によって異なります。目標が推論である場合、制限付きモデルの方が解釈がはるかに簡単なので適しています。より高い精度を目標とする場合は、柔軟性モデルの方が適しています。方法が柔軟になるにつれて、その解釈可能性は一般的に低下します。 3. スピードまたはトレーニング時間通常、精度が高くなると、トレーニング時間が長くなります。さらに、アルゴリズムは膨大なトレーニング データを使用してトレーニングするためにより多くの時間を必要とします。実際のアプリケーションでは、アルゴリズムの選択は主にこれら 2 つの要素によって決まります。 ナイーブベイズ、線形、ロジスティック回帰などのアルゴリズムは実装が簡単で、すぐに実行できます。パラメータの調整が必要な SVM や、収束時間が長いニューラル ネットワーク、ランダム フォレストなどのアルゴリズムでは、データのトレーニングに多くの時間が必要です。 4. リニア多くのアルゴリズムは、クラスを直線(またはその高次元類似物)で分離できるという仮定に基づいて動作します。例としては、ロジスティック回帰やサポートベクターマシンなどがあります。線形回帰アルゴリズムは、データの傾向が直線に従うと想定します。データが線形の場合、これらのアルゴリズムは非常にうまく機能します。 ただし、データは必ずしも線形ではないため、高次元および複雑なデータ構造を処理できる他のアルゴリズムが必要になります。例としては、カーネル SVM、ランダム フォレスト、ニューラル ネットワークなどがあります。 線形性を調べる最良の方法は、線形ラインを当てはめるか、ロジスティック回帰または SVM を実行して残差誤差を確認することです。誤差が大きいということは、データが線形ではなく、適合するために複雑なアルゴリズムが必要であることを意味します。 5. 機能の数データセットには多数の機能が含まれる場合がありますが、そのすべてが関連性や重要性を持つとは限りません。遺伝子データやテキスト データなどの特定の種類のデータの場合、特徴の数はデータ ポイントの数に比べて非常に大きくなることがあります。 多数の機能があると、一部の学習アルゴリズムが妨げられ、トレーニング時間が長くなりすぎる可能性があります。 SVM は、特徴空間が大きく、観測値が少ないデータに適しています。次元を削減し、重要な特徴を選択するには、PCA と特徴選択の手法を使用する必要があります。 さまざまな種類の機械学習の問題に使用できるアルゴリズムを詳しく説明した便利なチートシートをご紹介します。 機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習に分類できます。これについては、以前のブログ (https://www.edvancer.in/understanding-artificial-intelligence-machine-learning-and-data-science/) で説明しました。この記事では、チートシートの使用手順について説明します。チートシートには主に 2 つの種類があります。 教師あり学習アルゴリズムは、トレーニング データに入力変数に対応する出力変数がある場合に使用されます。アルゴリズムは入力データを分析し、入力変数と出力変数の関係をマッピングする関数を学習します。 教師あり学習は、さらに回帰、分類、予測、異常検出に分けられます。 トレーニング データに応答変数がない場合、教師なし学習アルゴリズムが使用されます。このタイプのアルゴリズムは、データ内の固有のパターンと隠れた構造を見つけようとします。クラスタリング アルゴリズムと次元削減アルゴリズムは、2 つの典型的な教師なし学習アルゴリズムです。 以下のインフォグラフィックでは、回帰、分類、異常検出、クラスタリングについて、それぞれのアルゴリズムを適用できる例とともに簡単に説明しています。 新しい問題を解決しようとするときに考慮すべき重要なポイントをいくつか示します。
そうは言っても、「より良いデータは、より良いアルゴリズムに勝つことが多い」ということを常に覚えておいてください。適切に設計された機能も同様に重要です。さまざまなアルゴリズムを試してパフォーマンスを比較し、特定のタスクに最適なものを選択します。また、アンサンブル学習法を試してください。精度が大幅に向上することが多いからです。 |
<<: AIアルゴリズムの包囲とフードデリバリー業者の「ブレイクアウト」
コンピューティングは、私たちのほとんどが直感的に理解できる馴染みのある概念です。関数 f (x) =...
畳み込みニューラルネットワーク(CNN)と衛星画像データを使用して地域の所得レベルを予測する手法がま...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
SymphonyAI のマーケティング責任者として、私は企業における人工知能 (AI) のあらゆるア...
[[403918]]近年、経済の継続的な発展に伴い、わが国では中間所得層の総数が増加しています。現在...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ここ数か月、生成型人工知能(ChatGPT)に関するニュースがほぼ毎日のように報道されています。突然...
私たちはコンピューティングにおける革新の大きな段階を目撃しています。急速に加速する世界的な 5G 展...
【51CTO.comオリジナル記事】 [[193891]] 人工知能は、1956 年のダートマス会...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
インターネット上で話題となったスタンフォード大学のエビ揚げロボットは、1日で人気が急上昇した。結局の...
量子コンピューティングは、常に次の産業革命の原動力と考えられてきました。さまざまな国やテクノロジー企...
OpenAI の ChatGPT は人工知能言語モデルにおいて重要な進歩を遂げ、人間が特定のテキスト...