機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違いは何でしょうか? どちらもデータを扱うことではないでしょうか?

従来のデータ アナリストの観点から見ると、この質問に対する答えは簡単です。

機械学習は本質的にはデータ分析を通じて学習されるアルゴリズムであり、ルールベースのプログラミングに依存しません。

統計モデリングは、データに基づき、数式を使用して変数の変化の法則を調査する標準化されたプロセスです。

まとめると、機械学習のキーワードは予測、教師あり学習、教師なし学習です。数理統計学は、サンプリング、統計、仮説検定の科学です。

この答えは完璧に思えますが、実際には機械学習と数理統計の関係は決して単純ではありません。

類似点

数理統計学の修士であるラリー・ワッサーマン氏によれば、実際、「これら 2 つの分野 (機械学習と数理統計学) は同じこと、つまりデータから何を学ぶことができるかということに関心がある」とのことです。

彼の個人ブログの要約によると、数理統計学と機械学習における以下の一般的な用語は、実際には同じ意味を持っています。

さらに、別の学術専門家で、スタンフォード大学の有名な統計学者であり機械学習の専門家であるロバート・ティブシラニ氏は、常に機械学習を「美化された統計」と呼んでいます。

実際、今日では、機械学習と統計的手法は、パターン認識、知識発見、データマイニングなどの分野で一般的に使用されるテクノロジーになっています。 2014年にSASが発表した統計結果(下図)によれば、機械学習と数理統計の関係は互いに独立しているものの、実際には過去2年間で両者の境界はますます曖昧になり、相互統合の傾向さえ見られます。

機械学習と数理統計学は、データから学習するという同じ目標を持っているようです。本質的には、それらはすべて、人々が必要とする情報やパターンをデータから抽出する方法を探求しています。しかし、研究方法においては、この 2 つの分野の間には本質的な違いがあります。

違い

まず、機械学習は比較的新しい分野であり、特定のプログラムされた指示よりも、データを分析するためのシステムを構築する方法に重点を置いているコンピューターサイエンスと人工知能の分野です。

一方、統計モデリングは完全に数学の分野です。現在では、安価なコンピューティング能力と大量の利用可能なデータのサポートにより、データ サイエンティストはデータ分析、つまり機械学習を通じてコン​​ピューターの学習機能をトレーニングできるようになりました。しかし、統計モデリングは機械学習よりもはるかに長い歴史があり、実際にはコンピューターが発明されるずっと前から存在していました。

一方、機械学習は最適化とパフォーマンスに重点を置いているのに対し、統計は推論に重点を置いています。

この点に関しては、統計学者と機械学習研究者による同じデータモデルの説明である次の 2 つの段落から、より深い理解を得ることができるかもしれません。

機械学習研究者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正確に予測できます。

統計学者: a、b、c が与えられた場合、モデルは結果 Y を 85% の確率で正しく予測します。そして、あなたも同じ結論に達すると 90% 確信しています。

第三に、機械学習では、関係する変数間の根本的な関係について事前の仮定を必要としません。研究者は、利用可能なすべてのデータをモデルにインポートし、アルゴリズムが基礎となるパターンを分析して出力するのを待ってから、このパターンを新しいデータに適用して予測を行うだけです。研究者にとって、機械学習はブラックボックスのようなものです。使い方は知っていても、具体的な実装方法はわかりません。機械学習は高次元データセットに適用されることが多く、利用可能なデータが多いほど、予測の精度が高くなります。

対照的に、統計では、データの収集方法、推定値の統計的特性(p値や不偏推定値を含む)、研究対象の母集団の基本的な分布、複数の実験から予想されるパラメータの種類を理解する必要があります。研究者は、自分たちが何をしているのかを非常に明確にし、予測力のあるパラメータを考え出す必要があります。統計モデリングは、低次元のデータセットによく使用されます。

結論は

要約すると、機械学習と統計モデリングは、予測モデリングの分野における 2 つの異なる分野であると考えることができます。両者の間の溝はこの10年で縮まりつつあり、相互に学び、参考にできる余地は大いにある。今後、両者のつながりはさらに深まるでしょう。

開発者にとって、機械学習と統計モデリングの違いと関連性を完全に理解することは、知識を広げ、専門分野以外の分析手法を研究開発プロセスに導入するのに役立ちます。これはデータサイエンス自体の中核となる概念でもあり、機械学習と統計モデリングの違いを埋め、両者を徐々に標準化していくことです。 ***ここで確認しておく必要があるのは、これら 2 つのデータ駆動型分野間のコラボレーションとコミュニケーションが活発になればなるほど、私たちの生活はより豊かになるということです。

<<:  機械学習を簡単にする 5 つのオープンソース Python ライブラリ

>>:  クレジットカード詐欺を検出するための機械学習モデルを構築するにはどうすればよいでしょうか?

推薦する

ネイチャー、サイエンス、セルが参加し、80の学術機関がCOVID-19研究を無料で提供する

[[314283]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

DeepMindの最新研究がNatureに掲載され、AI時代の科学研究の新たなパラダイムを明らかにし、未知の領域を探索し、新たな課題をもたらしている。

AIがさまざまな科学分野と融合するにつれ、可能性と課題に満ちた技術革命が起こっています。 AI は...

...

新しいインフラストラクチャの何が新しいのでしょうか?

「新インフラ」と呼ばれる新しいインフラは、今年の両会で国家計画となって以来、ホットな言葉になってい...

GoogleからNvidiaまで、テクノロジー大手はAIモデルを解読するためにレッドチームハッカーを採用している

ChatGPTの一般公開の1か月前に、OpenAIはケニアの弁護士Boru Golloを雇い、AIモ...

ザッカーバーグは7億ドルの配当金を受け取り、Metaの株価は14%急騰、オープンソース計画は成功したのか?

メタの株価は木曜日の時間外取引で14%近く上昇し、史上最高値に達したが、同社は初の配当を発表した。最...

安全なパスワード保存の業界標準: bcrypt アルゴリズム

パスワードを安全に保護するための標準アルゴリズムである bcrypt アルゴリズムについて説明します...

EasyDLが新しくアップグレードされ、ERNIEの3つの機能によりエンタープライズレベルのNLPモデルを迅速にカスタマイズできるようになりました。

最近、百度文心は3つの主要機能をリリースし、カスタマイズされたマルチラベルテキスト分類、感情傾向分析...

人工知能が私たちの生活に及ぼす8つの影響

[[226485]]マイクロソフト アジア社長のラルフ ハウプター氏によると、AI が概念から現実の...

...

...

自動運転車の安全基準を緩和?米国上院議員の提案は拒否された

最近、ジョー・バイデン米大統領は1740億ドルの電気自動車提案を行った。バイデン氏は、米国民に電気自...

AIロボットが産業監視を強化

この機会に応えて、IBM と Boston Dynamics は協力して、IBM ソフトウェアと B...

HRがAIバイアスを理解し軽減する方法

人工知能 (AI) と機械学習 (ML) がもたらすメリットは広く認識されています。このテクノロジー...