機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

この記事では、データサイエンティスト兼アナリストの Vincent Granville が、データサイエンティストのさまざまな役割と、データサイエンスが機械学習、ディープラーニング、人工知能、統計、モノのインターネット、オペレーションズリサーチ、応用数学などの関連分野とどのように比較され、重なり合うかについて説明します。グランビル氏は、データサイエンスは非常に幅広い分野であるため、ビジネス環境で遭遇する可能性のあるデータサイエンティストのタイプを最初に紹介し、自分自身が何らかのデータサイエンティストになることもあるかもしれないと述べました。他の科学分野と同様に、データサイエンスは他の関連分野から技術を借用することがあります。もちろん、データサイエンスでは独自の技術も開発しており、特に、非常に大規模な非構造化データセットを自動で (または人間の介入なしに) 処理して、リアルタイムでトランザクションを実行したり予測を行ったりできる技術やアルゴリズムを開発しています。

1. データサイエンティストにはどのような種類がありますか?

データサイエンティストの種類の詳細については、次の記事を参照してください: http://suo.im/28rlX1 および http://suo.im/3NNUpd。さらに役立つ情報は以下でご覧いただけます。

データサイエンティストとデータアーキテクト: http://suo.im/4bRkRG
データサイエンティストおよびデータエンジニア: http://suo.im/3mpo6E
データサイエンティストおよび統計学者: http://suo.im/2GGtfG
データサイエンティストおよびビジネスアナリスト: http://suo.im/3h0hkX

最近、データサイエンティストの Ajit Jaokar 氏が、タイプ A のデータサイエンティスト (アナリスト) とタイプ B のデータサイエンティスト (ビルダー) の違いについて説明しました。

タイプ A のデータサイエンティストは、データを操作するコードの作成が得意ですが、必ずしも専門家ではありません。タイプ A のデータサイエンティストは、実験設計、予測、モデリング、統計的推論、または統計に関するあらゆる分野の専門家である可能性があります。ただし、一般的に、データサイエンティストの成果物は、学術的な統計が時々示唆するような「P 値と信頼区間」ではありません (従来の製薬業界やその他の業界では、これがよくあるケースです)。 Google では、タイプ A のデータサイエンティストは統計学者、定量分析者、意思決定支援エンジニアリング開発アナリストと呼ばれ、一部はデータサイエンティストと呼ばれています。

タイプ B データサイエンティスト: ここでの B は Building (建物) を表します。タイプ B のデータサイエンティストはタイプ A のデータサイエンティストと同じバックグラウンドを持ちますが、優れたプログラマーや経験豊富なソフトウェアエンジニアでもあります。タイプ B のデータサイエンティストは、主に運用環境でのデータの使用に重点を置いています。彼らは、ユーザーと対話して、通常は推奨事項（製品、知り合いの可能性のある人、広告、映画、検索結果など）を提供するモデルを構築します。

ビジネスプロセスの最適化に関しては、私も独自の見解を持っています。私はそれを ABCD の 4 つの方向に分けています。A は分析科学、B はビジネス科学、C はコンピューター科学、D はデータ科学を表しています。データサイエンスには、プログラミングや数学の実践が含まれる場合と含まれない場合があります。ハイエンドのデータサイエンスとローエンドのデータサイエンスの違いを理解するには、この記事 http://suo.im/11bR7o を参照してください。スタートアップでは、データサイエンティストは通常、さまざまな種類の作業を行います。その職務には、幹部、データマイナー、データエンジニアまたはアーキテクト、研究者、統計学者、モデラー (予測モデリングなどを行う)、開発者などが含まれます。

データサイエンティストは、統計に精通した経験豊富な R、Python、SQL、Hadoop プログラマーと見なされることが多いですが、これは氷山の一角に過ぎません。データサイエンティストに対するこのような認識は、データサイエンスのいくつかの要素を教えることに重点を置いたデータトレーニングプログラムから派生したものにすぎません。しかし、研究室の技術者が自分自身を物理学者と名乗ることができるのと同じように、本物の物理学者はそれ以上のものであり、彼らの専門分野は非常に多岐にわたります。天文学、数理物理学、原子核物理学、力学、電気工学、信号処理（これもデータサイエンスの分野です）などです。同じことは、バイオインフォマティクス、情報技術、シミュレーションと定量的制御、計算金融、疫学、産業工学、さらには数論などの分野を含むデータサイエンスにも当てはまります。

私自身、過去 10 年間、マシン間およびデバイス間の通信に注力し、大規模なデータセットを自動的に処理し、自動トランザクション (Web トラフィックの購入やコンテンツの自動生成など) を実行できるシステムを開発してきました。これは、非構造化データを処理できるアルゴリズムを開発することを意味します。これは、人工知能、モノのインターネット、およびデータサイエンス (ディープデータサイエンスとも呼ばれます) の交差点でもあります。必要な数学は比較的少なく、プログラミングもほとんど必要ありません (主に API 呼び出し) が、データ集約型 (データシステムの構築を含む) であり、このコンテキスト向けに特別に設計された新しい統計手法に基づいています。

以前は、リアルタイムのクレジットカード詐欺検出に取り組んでいました。キャリアの初期（1990 年頃）に、衛星画像内のパターン（湖などの形状や特徴）を認識し、画像セグメンテーションを実行する画像のリモートセンシング技術を開発しました。当時、私の研究は計算統計と呼ばれていましたが、母校の隣のコンピューターサイエンス学部でもほぼ同じことを行っていましたが、彼らはその研究を人工知能と呼んでいました。

現在、この研究はデータサイエンスまたは人工知能と呼ばれており、信号処理やモノのインターネット向けのコンピュータービジョンなどのサブフィールドがあります。

さらに、データサイエンティストは、データ収集フェーズやデータ探索フェーズから、統計モデリングや既存システムの保守に至るまで、さまざまなデータサイエンスプロジェクトに携わっています。

2. 機械学習とディープラーニング

データ学習と機械学習の違いを詳しく説明する前に、まず機械学習とディープラーニングの違いについて簡単に説明しましょう。機械学習は、予測を行ったり、システムを最適化するためのアクションを実行したりするためにデータセットでトレーニングされた一連のアルゴリズムです。たとえば、教師あり分類アルゴリズムは、履歴データに基づいて潜在顧客やローン候補者を分類するために使用されます。与えられたタスク（教師ありクラスタリングなど）に応じて、ナイーブベイズ、サポートベクターマシン、ニューラルネットワーク、アンサンブル、関連ルール、決定木、ロジスティック回帰、またはこれらの方法の組み合わせなど、さまざまな手法が使用されます。

これらはすべてデータサイエンスの分野です。これらのアルゴリズムが自律飛行や自動運転車などの自動化に使用される場合、それは人工知能、より具体的にはディープラーニングと呼ばれます。センサーからデータを収集し、インターネット経由で送信する場合は、IoT に適用される機械学習、データサイエンス、またはディープラーニングになります。

ディープラーニングの定義は人によって異なります。彼らは、ディープラーニングを、より多くの層を持つニューラルネットワーク (ニューラルネットワークは機械学習の技術) であると考えています。ディープラーニングと機械学習の違いについては、Quora でも質問されており、詳細な説明は次のとおりです。

人工知能は、1960 年代に創設されたコンピュータサイエンスのサブフィールドであり、人間にとっては簡単だがコンピュータにとっては難しいタスクを解決することに取り組んでいます。具体的には、いわゆる強力な人工知能システムは、人間ができることは何でもできるはずです。これは非常に一般的なもので、計画、移動、物体や音の認識、会話、翻訳、社会的またはビジネス上のタスクの完了、創造的な作業（絵画、詩の執筆）など、すべてのタスクが含まれます。
自然言語処理は、言語に関係する人工知能の一部にすぎません。
機械学習は人工知能の一側面と考えられています。離散的な用語で記述できる AI の問題 (たとえば、いくつかのアクションのうちどれが正しいか) と、世界に関する大量の情報が与えられると、プログラマーがプログラムしなくても「正しい」アクションを見つけ出します。通常、動作が正しいかどうかを判断するには、何らかの外部プロセスが必要です。数学的には、これは関数と呼ばれ、入力を受け取ると正しい出力を生成します。したがって、全体的な問題は、この数学関数を自動的にモデル化することです。両者を区別する場合: 私が書いたプログラムが人間の動作を表現できるほど賢い場合、それは人工知能です。しかし、そのパラメータがデータから自動的に学習されない場合は、それは機械学習ではありません。
ディープラーニングは、最近非常に人気のある機械学習の一種です。これには特殊なタイプの数学モデルが含まれており、これは、最終出力をより正確に予測するために調整できる特定のタイプの単純なモジュール (関数の組み合わせ) の組み合わせと考えることができます。

3. 機械学習と統計の違い

記事「機械学習と統計」では、この質問に答えようとしています。この記事の著者は、統計を、数量を予測または推定する目的で、信頼区間を使用した機械学習であると考えています。しかし、私は同意しません。私は数学や統計の知識を必要としない、エンジニアリングに適した信頼区間を構築しました。

4. データサイエンスと機械学習

機械学習と統計はどちらもデータサイエンスの一部です。機械学習における「学習」という言葉は、アルゴリズムが何らかのデータ（トレーニングセットとして使用される）に依存してモデルまたはアルゴリズムのパラメータを調整することを意味します。これには、回帰、単純ベイズ、教師ありクラスタリングなどの多くの手法が含まれます。しかし、すべての技術が機械学習に適しているわけではありません。たとえば、統計およびデータサイエンスの手法で適していないものが 1 つあります。それは、分類アルゴリズムを支援するための事前の知識やトレーニングセットなしでクラスターとクラスター構造を検出する、教師なしクラスタリングです。この場合、クラスターをマークするには人間が必要です。半教師あり分類などの一部の手法はハイブリッドです。一部のパターン検出または密度評価技術は機械学習に適しています。

データサイエンスは機械学習よりも広範囲にわたります。データサイエンスにおけるデータは、機械や機械処理から得られるものではないかもしれません（調査データは手動で収集される可能性があり、臨床試験には特殊なタイプの小さなデータが含まれます）、そして先ほど言ったように、「学習」とは何の関係もないかもしれません。しかし、主な違いは、データサイエンスはアルゴリズムや統計の分野だけでなく、データ処理全体をカバーしている点です。詳細には、データサイエンスには次のものも含まれます。

データ統合
分散アーキテクチャ
機械学習の自動化
データの視覚化
ダッシュボードとBI
データエンジニアリング
実稼働モードでの展開
自動化されたデータに基づく意思決定

もちろん、多くの企業ではデータサイエンティストはこれらのプロセスの 1 つだけに焦点を当てています。

この記事に対して、技術コンサルタントの Suresh Babu 氏がコメントを寄せており、Synced がそれを以下のようにまとめ統合しました。

この投稿では、機械/コンピューターを使用して人間の意思決定に似たタスクを処理するための統計学習の基本的な用語を理解するのが面倒な場合があることを示しています。

しかし、記事には「これらのアルゴリズムが自動飛行や無人運転車などの自動化に使用される場合、それは人工知能、より具体的にはディープラーニングと呼ばれます」と書かれています。この発言は少々無頓着で気まぐれなように思われます。

コンピュータ/マシンがコンピュータ/マシンに適しておらず、広く使用されていなかった過去では、統計学者やデータサイエンティストの仕事は、現在この分野で行われている仕事とは大きく異なっていました。たとえば、製造業がコンピューターの支援を利用し始めると、生産のスピードと量は劇的に変化しましたが、それでも製造業であることに変わりはありません。もともと人間が行っていたプログラムされた作業を機械で行うというアイデアは、19 世紀初頭にジャカード、ブションらによって初めて生まれました。ジャカード織機は、今日のコンピュータ制御の織機とほぼ同じように動作しました。

今日のデータサイエンスは、統計、計算方法などをカバーする知識体系です（そして、さまざまな分野の割合は特定の分野によって異なります）。

機械学習（ディープラーニング、コグニティブコンピューティングなどの用語）は、機械が人間のように考え、推論できるようにすることです。基本的には、人間が生まれながらに持っている自然な知能を人工的な方法（つまり人工知能）で置き換えることを意味します。関連するタスクは単純なものから複雑なものまで多岐にわたります。たとえば、自動運転車は（現時点では）人間の運転を模倣しており、運転条件も人間が自然界で遭遇するものと同じです。「現時点では」と言うのは、将来的には人間が機械を直接運転することはほとんどなくなり、「運転」という言葉自体の意味が変わる可能性があるからです。

この分野には、基本的なもの（チェスや囲碁をプレイするためのアルゴリズムなど）が人間の脳の働きを説明すると考えられているなど、ばかげたものもあります。現在の知識の状態からすると、鳥や魚の脳がどのように機能するかを説明するのはすでに困難です。これは、学習のメカニズムを私たちがまだ十分に理解していないことを示しています。なぜショウジョウバエがわずか数百のニューロンでこれほど多くのことを行えるのかは、神経科学において未だに解明されていない謎です。そして、認知とは何か、そしてそれが現実世界でどのように機能するかは、データサイエンスが解決できると傲慢にも信じている大きな謎でもあります。 (次元削減は、教師なし学習の手法です。)

人類の誕生以来、さまざまな意味で、道具とそれを使って行うことが人間の学習を導いてきました。しかし、それは本題から外れています。

オリジナル：

http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: MITが脳制御ロボットを開発：脳波を使ってロボットのエラーを修正できる

>>: 自動運転のためのニューラルネットワークとディープラーニング

清華大学の第2世代60億パラメータChatGLM2がオープンソース化されました！中国語ランキングはGPT-4を圧倒して1位となり、推論速度は42%向上しました。

機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

清華大学の第2世代60億パラメータChatGLM2がオープンソース化されました！中国語ランキングはGPT-4を圧倒して1位となり、推論速度は42%向上しました。

AIがデジタル変革に与える影響

KServe、Kubernetes環境に基づく高度にスケーラブルな機械学習デプロイメントツール

AIが顧客体験を変革する10の方法

人工知能は医療従事者の燃え尽き症候群を軽減すると期待されている

もはや魅力的ではない Google は次の IBM になるのでしょうか?深刻な高齢化、イノベーションへのサポートの喪失、従業員の信頼の喪失、人材流出

「柯潔は2つの石を与えられた」が、それでもAIに負けた。プログラマーが知っておくべきトップ10のAIライブラリとフレームワークはこちら

推薦する

人工知能産業の急速な発展の背後にある4つの大きな無駄

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

AIOps に関する 6 つの誤解とその説明

自然言語処理 (NLP) はコンピュータービジョン (CV) よりも開発が遅く、より困難です。

もし人工知能が人類をリードし、他の惑星で発展したら、その人工知能は人類を支配することになるのでしょうか？

研究者らは、業界の偽造防止技術を促進するために、ディープフェイクAIによる音声偽造攻撃と防御の綱引きを開始した。

自動化でワークライフバランスを改善

3分レビュー！ 2021年1月の自動運転分野における重要な進展の概要

AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

13歳の天才少年がAIスピーカーを開発。2010年代以降の世代は単純ではない

効率的で正確な通関手続きのニーズを満たすために、生体認証技術がセキュリティ検査シナリオに導入されています。

新浪微博廖博：WAICリアルタイムストリームコンピューティングプラットフォームの成長と発展

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。