「回帰分析」は本当に「機械学習」なのでしょうか？

「統計」と「機械学習」の違いは何ですか?

これは数え切れないほど議論されてきた質問です。この問題については多くの記事があり、それが良いことなのか悪いことなのかについては意見が分かれています。しかし、「統計」と「機械学習」の議論では、人々は「森は見ても木は見ていない」ことが多いように思います。

Aatash Shah 氏はかつて自身の記事でこれを次のように定義しました。

「機械学習」とは、プログラム的なルールに依存せずにデータから直接学習できるアルゴリズムです。
「統計モデルの構築」とは、数式を使用してデータ変数間の関係を表すことを意味します。

Shah 氏は、「機械学習」と「統計モデル」を、それぞれの目的の違いに基づいて定義しています。彼は「機械学習」を実践的な活動、「統計モデル」を抽象的な理論とみなしています。（ここで言う「統計モデル」とは、正確には「統計」のことです。）しかし、実際には「統計」と「機械学習」の関係はもっと複雑で、単に概念を定義するだけで両者の関係を分析するだけでは十分ではありません。

この関係についての哲学的思考と研究はすぐに次のような疑問へと発展しました。

「機械学習」は「統計」に基づいていますか?
「機械学習」は単なる従来の統計の集合体なのでしょうか?
これら 2 つの概念には共通点がありますか? 比較的統一された概念はありますか?

このように構築され設計された、いわゆる高レベルの方法は、実際には間違っており、時間の無駄であると思います。

では、この場合、「回帰分析」は「機械学習」の特別な形式なのでしょうか?

KDnuggets の社長である Gregory Piatetsky-Shapiro 氏は、この質問に対して素晴らしい反論をしており、回帰は機械学習と呼ぶには単純すぎるかもしれないという誤解を払拭しています。

一部の機械学習研究の専門家の見解では、従来の「線形回帰」は、真の「機械学習」と呼ぶには単純すぎるかもしれないが、「統計」としてしか考えられない。しかし、「機械学習」と「統計」の境界線は実は非常に曖昧で恣意的であると私は思います。たとえば、C4.5 決定木アルゴリズムはそれほど複雑ではありませんが、「機械学習」に分類されます。

実際、「リッジ回帰」、「最小角度回帰」、LASSO など、より高度で洗練されたアルゴリズムが線形回帰から派生しており、これらのアルゴリズムのほとんどは機械学習の専門家によって使用されています。したがって、これらのアルゴリズムをより深く理解するには、まず基本的な「線形回帰」を理解する必要があります。

したがって、「線形回帰」はすべての機械学習研究者にとって必須のツールの 1 つになるはずです。

Diego Kuonen 氏と CStat PStat CSci 氏は、ともにスイスのジュネーブ大学の「データサイエンス」教授です。彼らはそれぞれ「Data Consulting Institute」の CEO と CAO です。彼らはこの問題に関して次のような見解を示しています。

すべての教師あり分析モデル (統計、データサイエンス、機械学習など) は、モデルの出力の分布がモデルの入力にどのように依存するかについて仮定を立てます。分析モデルが仮定を行わない場合、観測されたデータ以外に合理的な分析の根拠は存在しません。

したがって、正しいアプローチは、「有効なモデル」のみに基づいて結論を導き出すことです (「有効なモデル」とは、仮定が検証されたモデルを指します)。

データを理解するという最終目標を達成するには、「統計モデル」と「機械学習モデル」という 2 つのツールを使用する必要があります。 Diego は、どのツールが使用されるかについてはあまり気にしていないようですが、むしろ、ツールが適切に使用されているかどうか、効果的なモデルが構築されているかどうか、そして、データに対する最終的な理解が深まっているかどうかを重視しているようです。統計と機械学習の関係についての議論は、最終的な結論が無効なモデルに基づいている場合、意味がありません。

私は個人的に長年これらの問題について考えてきました。「線形回帰」や「決定木」のような単純な概念も「機械学習」とみなせることに初めて気づいたとき、私は衝撃を受けました。なぜなら、それ以前の私の勉強では、誰も私に「機械学習」という言葉を言ったことがなかったからです。私と同じレベルの専門知識を持つ人なら誰でも同じように反応するだろうと思っていました。

「データ研究」と「機械学習」の関係についてよく考えてみると、データ研究は実は研究プロセスであり、機械学習はこの研究を推進するためのツールであると考えます。したがって、「統計」の現代的な定義は、「統計」はデータから学び、不確実性を測定、制御、伝達できる科学であるということです。私は、これらの複雑な概念よりも、「統計研究」の定義を「大規模で高速な統計データ分析」に簡略化することを好みます。

簡単に言えば、機械学習には 3 つの要素があります。1 つ目はデータ、2 つ目はモデルまたは推定関数、3 つ目は最小限に抑える必要のあるコストまたは損失です。機械学習の存在意義のプロセス全体は、実際には、類似の統計的問題を使用して損失関数を最適化するプロセスです。

さて、元の質問に戻りましょう。「回帰分析」の最も基本的な形式である「線形回帰」は、これらの要件を満たしているでしょうか?

もちろん、この問題は完全に解決されたわけではありません。次のようなシナリオを想像してください。データポイントが 10 個あり、最初の 9 つのデータポイントの結果をプロットし、10 番目のデータポイントにテストを戻してもらい、自分で方程式を解いてテスト結果を手作業で描画します。これは機械学習と見なされますか? そうでない場合 (明らかに機械学習ではありません)、「機械学習」とは正確には何でしょうか?

上記の見解とは異なり、マイク・ヨーマンズはかつて自身の記事の中で、機械学習は単に統計学の一分野として捉えるべきだと述べました。クオネン氏もこの見解に同意しており、「データ研究は実際には規模と速度の面での統計である」と言う人もいるかもしれないが (Daryl Pregibon、1999)、そのアプローチには違いがあると指摘しています。私はキャノン・グレイ社の社長ケビン・グレイ氏にアドバイスを求めたが、彼はそれを議論する必要があるのかと疑問に思い、話題を別の問題へと導いた。

この記事にご協力いただいた皆様、特に執筆過程でご意見やフィードバックをいただいたDiego Kuonen教授に感謝申し上げます。

<<: ディープラーニングの19の格闘技を見てください。絶滅危惧動物の保護にも役立ちます

>>: 18年経った今、マイクロソフトの自然言語処理技術はどうなっているのでしょうか?