回帰問題に最適な機械学習アルゴリズムを選択する

回帰問題に最適な機械学習アルゴリズムを選択する

あらゆる種類の機械学習 (ML) の問題に取り組む場合、選択できるさまざまなアルゴリズムがあります。機械学習の分野では、すべての問題を完全に解決できる ML アルゴリズムは存在しないというコンセンサスがあります。さまざまな ML アルゴリズムのパフォーマンスは、データのサイズと構造に大きく依存します。したがって、多くの試行錯誤を通じてアルゴリズムを直接テストしない限り、適切なアルゴリズムを選択することは難しい問題になることがよくあります。

[[238819]]

ただし、各 ML アルゴリズムには、ガイドとして使用できる長所と短所がいくつかあります。あるアルゴリズムが他のアルゴリズムより常に優れているとは限りませんが、各アルゴリズムには、適切なアルゴリズムをすばやく選択し、ハイパーパラメータを調整するためのガイドとして使用できるいくつかの特性があります。回帰問題に対するよく知られた ML アルゴリズムをいくつか紹介し、その長所と短所に基づいて使用するためのガイドラインを設定します。この投稿は、回帰問題に最適な ML アルゴリズムを選択するのに役立ちます。

線形回帰と多項式回帰

線形回帰

簡単なケースから始めましょう。単変量線形回帰は、直線などの線形モデルを使用して、単一の入力独立変数 (特徴変数) と出力従属変数の関係をモデル化するために使用される手法です。より一般的なケースは多変量線形和であり、複数の独立した入力変数 (特徴変数) と出力従属変数の関係についてモデルが作成されます。出力は入力変数の線形結合であるため、モデルは線形のままです。

3 番目に一般的なケースは、多項式回帰モデルと呼ばれます。これは、指数変数やコサインなどの特徴変数の非線形組み合わせになりますが、これにはデータと出力の関係を知ることが必要です。回帰モデルは、確率的勾配降下法 (SGD) を使用してトレーニングできます。

アドバンテージ:

  • これは、モデル化される関係がそれほど複雑ではなく、データもそれほど多くない場合に、迅速なモデリングを行うのに役立ちます。
  • 線形回帰は理解しやすいため、ビジネス上の意思決定に非常に役立ちます。

欠点:

  • 非線形データの場合、データの構造と特徴変数間の関係についての情報が必要になるため、多項式回帰の設計は非常に困難です。
  • したがって、これらのモデルは、非常に複雑なデータに関しては他のモデルほど優れていません。

ニューラルネットワーク

ニューラル ネットワークは、ニューロンと呼ばれる相互接続されたノードのグループで構成されます。データ内の入力特徴変数は、多変量線形結合としてこれらのニューロンに渡され、各特徴変数に掛けられる値は重みと呼ばれます。次に、この線形結合に非線形性を適用し、ニューラル ネットワークが複雑な非線形関係をモデル化できるようにします。ニューラル ネットワークには複数の層があり、1 つの層の出力は同じ方法で次の層に渡されます。出力では通常、非線形性は適用されません。ニューラル ネットワークは、確率的勾配降下法 (SGD) とバックプロパゲーション アルゴリズム (両方とも上の GIF に表示) を使用してトレーニングされます。

アドバンテージ:

  • ニューラル ネットワークは非線形性を持つ多数のレイヤー (およびパラメーター) を持つことができるため、非常に複雑な非線形関係をモデル化するのに非常に効果的です。
  • 通常、それについて心配する必要はありません。ニューラル ネットワークのデータ構造は、あらゆる種類の特徴変数の関係を学習できるほど柔軟です。
  • 研究によると、ネットワークにまったく新しいトレーニング データや元のデータセットを拡張したトレーニング データを供給するだけで、ネットワークのパフォーマンスが向上する可能性があることが示されています。

欠点:

  • これらのモデルは複雑なため、解釈して理解するのは簡単ではありません。
  • トレーニングが非常に困難で計算量が多くなる可能性があり、ハイパーパラメータの慎重な調整と学習スケジュールの設定が必要になります。
  • 高いパフォーマンスを実現するには大量のデータが必要であり、「少量データ」の状況では他の ML アルゴリズムよりもパフォーマンスが劣ることがよくあります。

回帰木とランダムフォレスト

ランダムフォレスト

基本から始めましょう。決定木は、ツリーのブランチをトラバースし、ノードで行われた決定に基づいて次のブランチを選択する直感的なモデルです。ツリー誘導は、一連のトレーニング インスタンスを入力として受け取り、分割に最適な属性を決定し、データセットを分割し、結果として得られる分割データセットに対して、すべてのトレーニング インスタンスが分類されるまでこれを繰り返すタスクです。ツリーを構築する際の目標は、可能な限り純粋な子ノードを作成する属性に基づいて分割することです。これにより、データセット内のすべてのインスタンスを分類するために必要な分割の数を最小限に抑えることができます。純度は情報ゲインの概念によって測定されます。これは、以前に見たことのないインスタンスを適切に分類するために、そのインスタンスについてどれだけ知る必要があるかに関するものです。実際には、エントロピー、つまり、現在のデータセット パーティションが特定の属性に基づいてさらにパーティション分割された場合に、現在のデータセット パーティションの単一のインスタンスを分類するために必要な情報量を比較することによって、単一のインスタンスが分類されます。

ランダムフォレストは、決定木の集合にすぎません。入力ベクトルは複数の決定木を介して実行されます。回帰の場合、すべてのツリーの出力値が平均化され、分類の場合、投票方式を使用して最終クラスが決定されます。

アドバンテージ:

  • 複雑で高度に非線形な関係を学習することに優れています。これらは通常、多項式回帰よりも優れ、ニューラル ネットワークに匹敵する、かなり高いパフォーマンスを達成できます。
  • とても説明しやすく理解しやすいです。最終的にトレーニングされたモデルは複雑な関係を学習できますが、トレーニング プロセス中に確立された決定境界は理解しやすく実用的です。

欠点:

  • トレーニング決定木の性質上、過剰適合が発生しやすくなります。完全な決定木モデルは過度に複雑になり、不要な構造が含まれる可能性があります。ただし、適切なツリーの剪定と、より大きなランダム フォレスト アンサンブルによって、この問題が軽減される場合もあります。
  • より大きなランダム フォレスト アンサンブルを使用してより高いパフォーマンスを実現すると、速度が低下し、より多くのメモリが必要になるという欠点があります。

***

この記事を楽しんでいただき、何か新しくて役に立つことを学んでいただければ幸いです。

<<:  ニューラルネットワーク技術の進化について

>>:  Meituan はどのようにしてディープラーニングに基づくインテリジェントな画像レビューを実現するのでしょうか?

ブログ    

推薦する

中国のAIを活用した教育の探求

教室に人工知能機器を導入することは、「スマート教育」の重要な形態の一つです。江蘇省宿遷市泗洪県第一実...

マインドタイピングがネイチャーの表紙に登場! 99%以上の正確さで1分間に90文字を書く

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ビジネスインテリジェンスをビジネスに活用する 10 のメリット

[[434146]]ビジネス インテリジェンス テクノロジーが推進する市場において、人工知能は企業に...

たった2枚の写真でAIは完全なモーションプロセスを生成できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

2021 年のサイバーセキュリティにおける人工知能のトレンドは何ですか?

研究によると、人工知能技術はサイバーセキュリティの脅威やデータ侵害を防ぐ上で非常に重要です。人工知能...

ビル・ゲイツ氏:GPT-5はGPT-4よりそれほど良くはならない、生成AIは限界に達した

ビル・ゲイツ氏の暴露は機械学習コミュニティで話題となっている。 「GPT-5 は GPT-4 よりそ...

「ドメイン外」テキストは不要、Microsoft: NLP はターゲットを絞った方法で事前トレーニングする必要がある

[[337084]]バイオメディカルなどの専門分野では、NLP モデルのトレーニングには、特定のデー...

インテリジェントなクラウドネイティブアプリケーションの台頭

マーク・アンドリーセンはかつてウォール・ストリート・ジャーナルに「なぜソフトウェアが世界を席巻してい...

...

ルーティングプロトコルアルゴリズム

ルーティング プロトコルの適用は、多くの大規模ネットワークで重要な役割を果たします。誰もがこの知識を...

不意を突かれたGoogleの「人間の創造」の成功は恐ろしい!人類は歴史上最悪の失業の波に直面しています...

01不意を突かれた!今回、Google は「人間を作った」のです! 5月8日、Googleは毎年恒...

...

データセンター: ジェネレーティブ AI 経済の推進

しかし、こうした大騒ぎのなか、生成 AI の可能性を最大限に引き出すために必要なインフラストラクチャ...

...