7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

あらゆる機械学習の問題にさまざまなアルゴリズムを適用して、さまざまなモデルを生成できます。たとえば、スパム検出分類問題は、ナイーブベイズ、ロジスティック回帰、BiLSTM などのディープラーニング技術を含むさまざまなモデルを使用して解決できます。

[[347078]]

選択肢が豊富であることは良いことですが、どのモデルを本番環境に実装するかを決めるのは難しいことです。モデルを評価するためのパフォーマンス メトリックは多数ありますが、あらゆる問題に対してあらゆるアルゴリズムを実装するのは賢明ではありません。これには多くの時間と労力が必要なので、特定のタスクに適切なアルゴリズムを選択する方法を知ることが重要です。

この記事では、プロジェクトや特定のビジネス ニーズに最適なアルゴリズムを選択するのに役立つ要素について説明します。これらの要素を理解することで、モデルが実行するタスクと問題の複雑さを理解できるようになります。

説明可能性

アルゴリズムの解釈可能性について議論する場合、予測を説明する能力について話していることになります。そのような説明がないアルゴリズムは、ブラックボックス アルゴリズムと呼ばれます。

k 近傍法 (KNN) などのアルゴリズムは特徴の重要度を通じて高度に解釈可能ですが、線形モデルなどのアルゴリズムは特徴に割り当てられた重みを通じて解釈可能です。機械学習モデルが最終的に何を行うかを考えるとき、アルゴリズムの解釈可能性を理解することが非常に重要になります。

がん細胞の検出や住宅ローンの信用リスクの判定などの分類問題では、システムの結果の背後にある理由を理解することが重要です。予測するだけでは不十分で、評価できる必要があります。たとえ予測が正確であったとしても、その予測に至ったプロセスを理解する必要があります。結果の背後にある理由を理解することが問題の要件である場合は、それに応じて適切なアルゴリズムを選択する必要があります。

データポイントの数と特性

データ ポイントの特性と数は、適切な機械学習アルゴリズムを選択する上で重要な役割を果たします。ユースケースに応じて、機械学習モデルは、さまざまなデータポイントと機能を備えたさまざまなデータセットで動作します。場合によっては、モデルを選択する際に、モデルがさまざまなサイズのデータ​​セットをどのように処理するかを理解する必要があります。

ニューラル ネットワークなどのアルゴリズムは、大量のデータや多数の機能に適しています。しかし、サポート ベクター マシンなどの一部のアルゴリズムでは、限られた数の特徴しか処理できません。アルゴリズムを選択するときは、データのサイズと特徴の数を考慮してください。

データ形式

データは、多くの場合、オープンソースとカスタム データ ソースの組み合わせから取得されるため、さまざまな形式で提供されることもあります。最も一般的なデータ形式はカテゴリと数値です。特定のデータセットには、カテゴリデータのみ、数値データのみ、またはその両方の組み合わせが含まれる場合があります。

アルゴリズムは数値データのみを処理できるため、データがカテゴリ形式または非数値形式である場合は、それを数値データに変換するプロセスについて検討する必要があります。

線形データ

モデルを選択する前に、データの直線性を理解することは必要なステップです。データの直線性を判断すると、決定境界または回帰線の形状を判断するのに役立ち、その結果、使用するモデルが決まります。身長と体重などの関係は線形関数で表すことができます。つまり、一方が増加すると、通常、もう一方も同じ量だけ増加し、この関係は線形モデルで表すことができます。

散布図でデータの直線性を理解する

これを知っておくと、適切な機械学習アルゴリズムを選択するのに役立ちます。データがほぼ線形に分離可能であるか、線形モデルを使用して表現できる場合は、サポート ベクター マシン、線形回帰、ロジスティック回帰などのアルゴリズムが適切な選択です。さらに、ディープニューラルネットワークやアンサンブルモデルも使用できます。

トレーニング時間

トレーニング時間とは、アルゴリズムが学習してモデルを作成するのにかかる時間です。特定のユーザーに対する映画の推奨などのユースケースでは、ユーザーがログインするたびにデータをトレーニングする必要があります。しかし、在庫予測などのユースケースでは、モデルを毎秒トレーニングする必要があります。したがって、モデルのトレーニングにかかる​​時間を考慮することが重要です。

ご存知のとおり、ニューラル ネットワークではモデルのトレーニングに多くの時間がかかります。 k 最近傍法やロジスティック回帰などの従来の機械アルゴリズムでは、かかる時間ははるかに短くなります。ランダム フォレストなどの一部のアルゴリズムでは、使用される CPU コアに応じて異なるトレーニング時間が必要になります。

予測時間

予測時間とは、モデルが予測を行うのにかかる時間です。検索エンジンやオンライン小売店を製品とすることが多いインターネット企業にとって、予測時間の速さはスムーズなユーザー エクスペリエンスの鍵となります。このような場合、速度は非常に重要であり、予測が遅すぎると、良い結果をもたらすアルゴリズムであっても役に立ちません。

ただし、一部のビジネス要件では、予測時間よりも精度の方が重要です。先ほど述べた癌細胞の例や、不正な取引を検出する場合などです。サポートベクターマシン、線形回帰、ロジスティック回帰、およびいくつかの種類のニューラルネットワークなどのアルゴリズムを使用すると、高速な予測を行うことができます。ただし、KNN やアンサンブル モデルなどのアルゴリズムでは、予測を行うのに通常より時間がかかります。

ストレージ要件

データセット全体をサーバーまたはコンピューターの RAM にロードできる場合は、多数のアルゴリズムを適用できます。ただし、これが不可能な場合は、増分学習アルゴリズムを採用する必要があるかもしれません。

増分学習とは、データを入力することで既存のモデルの知識を継続的に拡張する、つまりモデルをさらにトレーニングする機械学習手法です。増分学習アルゴリズムの目的は、既存の知識を忘れずに新しいデータに適応することであるため、モデルを再トレーニングする必要はありません。

機械学習タスクのアルゴリズムを選択する場合、パフォーマンスが最も明白な指標であると思われます。しかし、パフォーマンスだけでは最適なアルゴリズムを選択するには不十分であり、モデルはメモリ要件、トレーニングと予測の時間、解釈可能性、データ形式などの他の基準を満たす必要があります。より幅広い要素を考慮することで、より自信を持って決定を下すことができます。選択した複数のモデルの中から最適なアルゴリズムを選択するのが難しい場合は、検証データセットでテストすることもできます。

機械学習モデルの実装を決定する際に適切なモデルを選択するには、ニーズと期待される結果を分析する必要があります。これには多少の時間と労力がかかりますが、その見返りとして精度とパフォーマンスが向上します。

<<:  本番環境のMLを再現できない場合は、ワークフローに問題がある可能性があります。

>>:  人間は AI シミュレーションの中で生きられるのか?

ブログ    

推薦する

...

マイクロソフトの「Office の新時代」イベント プレビューでは AI が紹介される: 新しい描画アプリ、ゲーム フレーム レートの向上など

マイクロソフトは3月8日、北京時間3月22日午前1時にオンライン新製品発表会を開催することを決定した...

GoogleのAIチップ設計能力は人間より優れているのか?社内研究者が疑問を呈し解雇された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Google AI チームが新しい「流体アノテーション」を発表: 画像アノテーションの速度が 3 倍に向上

(原題: Google が新しいソリューションを発表、画像注釈の速度が 3 倍に向上) [[2505...

ChatGPT が突然大きなバグを発見しました!フル機能のGPT-4は無料で使用でき、ネットユーザーは大喜びしている

11月15日、OpenAIは突然、ChatGPT Plusの新規ユーザー登録を停止すると発表しました...

MITはロボットの構造を自動設計できるコンピュータシステムを発明し、25年で最高の成果を達成した。

研究者にとって、適切な形状を選択することは、ロボットが特定の地形を移動できる能力にとって非常に重要で...

...

人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。これ...

研究によると、ChatGPT は科学的仮説の偽のデータセットを生成し、学術的誠実性に脅威を与える可能性がある。

ネイチャー誌は11月24日、現地時間水曜日に、今月初めに米国医師会眼科学会誌に掲載された論文で、著者...

ヤン・ニン氏の新しい論文が突然ネイチャーのサブジャーナルに掲載された: 構造はAIの手の届かないところにある

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

買い物客の4分の3がレジなし店舗を試してみたいと考えている

[[418996]]画像ソース: https://pixabay.com/images/id-391...

ちょっとした会話の後に心を開いてみませんか?この世代の人工知能はあなたのプライバシーを会話の話題に変えました

あまりに多くのことを知ると、誰かがあなたを困らせたくなるでしょう。ドラマに出演するときも、会社を立ち...

...