機械学習、データサイエンス、人工知能、ディープラーニング、統計などの違い。

データサイエンスは幅広い分野であるため、まずはあらゆるビジネスで遭遇する可能性のあるデータサイエンティストのタイプから説明します。このセクションを通じて、データサイエンティストとしての隠れた可能性を発見できるかもしれません :) 他の科学分野と同様に、データサイエンティストも関連分野から学ぶことができますが、データサイエンスにはすでに独自の部分があり、特に、非常に大規模な非構造化データを自動的に処理する方法とアルゴリズム、さらには人間の介入なしでリアルタイムの処理や予測を行う方法やアルゴリズムがあります。

1. データサイエンティストのさまざまなタイプ

始めに歴史的な視点を知るには、2014 年の記事「9 種類のデータサイエンティスト」、または同じ年の記事でデータサイエンスと「16 の分析分野」を比較したこの記事をご覧ください。最近 (2016 年 8 月)、Ajit Jaokar が Analytics データサイエンティスト (タイプ A) と Builder データサイエンティスト (タイプ B) の違いについて説明しました。

タイプ A のデータサイエンティストは、仕事でデータ関連の問題に遭遇したときに適切なコードを書くことができますが、必ずしも専門家であるとは限りません。このタイプのデータサイエンティストは、実験設計、予測、モデリング、統計的推論、または統計研究のその他の一般的な部分を専門とする場合があります。しかし、一般的に、データサイエンティストの仕事の成果は、学術的な統計学で時々示唆される「p 値と信頼区間」ではありません (従来の製薬統計学者が時々使用するもの)。 Google では、タイプ A のデータサイエンティストは通常、統計学者、定量分析者、意思決定支援技術アナリスト、データサイエンティストなどを指します。

タイプ B のデータサイエンティストはデータを構築しています。カテゴリー B はカテゴリー A と同じような統計的背景を持っていますが、より優れたコーディング能力を持ち、専門的なソフトウェアエンジニアリングのトレーニングを受けている場合もあります。彼らは主に製品でデータを使用することに興味があり、ユーザーと対話して通常は推奨事項（製品、知り合いの可能性のある人、映画の広告、検索結果など）を提供するモデルを構築します。

著者は以前、ビジネスプロセス最適化の ABCD について書いています。ここで、D はデータサイエンス、C はコンピューターサイエンス、B はビジネスサイエンス、A は分析サイエンスを表します。データサイエンスには、コードの記述や数学の実行が含まれる場合と含まれない場合があります。詳細については、「低レベルのデータサイエンスと高レベルのデータサイエンス」を参照してください。スタートアップでは、データサイエンティストは、データマイナー、データエンジニアまたはデータアーキテクト、研究者、統計学者、モデラー (予測モデリング)、開発者など、複数の肩書きを持つことがよくあります。

データサイエンティストは、R、Python、SQL、Hadoop、統計に精通したプログラマーと説明されることが多いですが、これは氷山の一角に過ぎず、一部のトレーニング機関によって指導されています。しかし、研究室の技術者が自分自身を物理学者と名乗ることができるのと同じように、本物の物理学者はそれ以上のものであり、天文学、数学、物理学、原子物理学、力学、電気、信号処理（これもデータサイエンスのサブフィールド）など、多岐にわたる分野の専門知識を持っています。データサイエンティストの場合と同様に、実際に関与する分野は、バイオインフォマティクス、情報技術、シミュレーションと品質管理、金融工学、疫学、産業工学など多岐にわたります。

私は過去 10 年間、ホスト間およびデバイス間の通信に取り組んでおり、大規模なデータセットを自動的に処理し、インターネットトラフィックの購入やコンテンツの自動生成などの自動トランザクションを実行するシステムを構築してきました。これらすべては、AI（人工知能）、IoT（モノのインターネット）、およびディープデータサイエンスとして知られるデータサイエンスの交差点でもある、非構造化データ用のアルゴリズムを開発する必要性を隠すものです。この部分は、比較的数学を扱う必要がなく、多くのコーディング (主にいくつかの API) も必要ありませんが、実際にはデータ集約型 (データシステムの構築を含む) であり、この目的のために特別に設計された新しい統計手法に基づいています。

それ以前は、主にリアルタイムのクレジットカード詐欺検出を行っていました。また、キャリアの初期には、衛星画像内のさまざまなものの特定のパターン（または形状、特徴、たとえば湖の特定）を識別してグラフィックセグメンテーションを実現する画像リモートセンシング技術に取り組んでいました。当時、この研究は計算統計と呼ばれ、コンピューターサイエンスで同じことを行う人々は、その研究を人工知能と呼んでいました。今日では、同じ研究はデータサイエンスや人工知能と呼ばれ、サブフィールドは信号処理、コンピュータービジョン、モノのインターネットなどと呼ばれることがあります。

さらに、データサイエンティストは、データ収集フェーズやデータ探索フェーズから統計モデリングや既存システムの保守まで、データサイエンスプロジェクトのライフサイクルのあらゆる段階に関与します。

2. 機械学習とディープラーニング

機械学習とデータサイエンスの関係について詳しく説明する前に、機械学習とディープラーニングについて簡単に説明しましょう。機械学習は、データセットをトレーニングして予測を行ったり、システムを最適化するためのアクションを実行したりする一連のアルゴリズムです。たとえば、教師あり分類アルゴリズムは、履歴データに基づいてローン申請者を見込みが良いか悪いかに分類するために使用されます。特定のタスク (教師ありクラスタリングなど) には、ナイーブベイズ、SVM、ニューラルネット、アンサンブル、関連ルール、決定木、ロジスティック回帰、または多くの手法の組み合わせなど、さまざまな手法が必要です。アルゴリズムの詳細についてはここをクリックしてください。機械学習の問題について知るにはここをクリックしてください。

これらはすべてデータサイエンスのサブセットです。ドローンや自動運転車など、これらのアルゴリズムが自動化されている場合、これは AI、より具体的にはディープラーニングと呼ばれます。機械学習とディープラーニングを比較した別の記事を見るには、ここをクリックしてください。収集されたデータがセンサーから取得され、インターネット経由で送信される場合、これは IoT に適用された機械学習、データサイエンス、またはディープラーニングです。

ディープラーニングをより深いニューラルネットワーク（機械学習技術）として捉え、異なる定義をする人もいます。最近、誰かが Quora でこの質問をしました。具体的な説明は次のとおりです (出典は Quora)

AI (人工知能) は、1960 年代に生まれたコンピュータサイエンスのサブフィールドです。人間にとっては非常に簡単だがコンピュータにとっては難しいタスクを解決することを目的としています。いわゆる「強い AI」は、人間ができるすべてのこと（おそらく純粋な物理学の問題を除く）を実行できる可能性があることは言及する価値があります。これはかなり広範囲で、計画を立てること、世界を歩き回ること、物体や音を認識すること、話すこと、翻訳すること、社交やビジネス上の取引、創造的な仕事（詩を書いたり絵を描いたりすることなど）などが含まれます。

NLP (自然言語処理) は、AI が処理しなければならない言語部分、特に文章作成の部分です。

機械学習とは、離散形式で記述できるいくつかの AI 問題 (一連のアクションから正しいものを選択するなど) が与えられ、その後、外部から大量の情報が与えられると、プログラマーが手動でプログラムを記述する必要なく、「正しい」動作が選択される状況です。通常、アクションが正しいかどうかを判断するには、いくつかの外部プロセスが必要です。数学的には、これは関数です。何らかの入力を与え、それを処理して正しい出力を得るようにしたいので、問題全体は、何らかの自動的な方法でこの数学関数モデルを構築することに簡略化されます。 AI と区別するために、人間のように動作する特に賢いプログラムを作成した場合、それは AI になる可能性がありますが、そのパラメータがデータから自動的に学習されない限り、それは機械学習ではありません。

ディープラーニングは機械学習の非常に人気のあるタイプです。これには特別な種類の数学モデルが含まれており、これは最終結果をより正確に予測するために調整できる、特定の種類の単純なブロックの組み合わせ (またはブロック関数の組み合わせ) と考えることができます。

では、機械学習と統計の違いは何でしょうか? この記事では、この質問に答えます。著者らは、統計とは予測または推定される量の信頼区間を用いた機械学習であると書いています。私は、数学や統計の知識を必要としない、エンジニアに優しい信頼区間を構築したため、これに反対する傾向があります。

3. データサイエンスと機械学習

機械学習と統計はどちらもデータサイエンスの一部です。機械学習における「学習」という言葉は、特定のデータに依存し、いくつかのモデルやアルゴリズムのパラメータを調整するためのトレーニングパターンのセットとして使用されるアルゴリズムを意味します。これには、回帰、単純ベイズ、教師ありクラスタリングなどの多くの手法が含まれます。しかし、すべてのテクノロジーがこのカテゴリに当てはまるわけではありません。たとえば、統計およびデータサイエンスの手法である教師なしクラスタリングは、事前の知識やトレーニングセットに依存せずに、分類アルゴリズムがクラスターまたはクラスター構造を検出できるようにすることを目的としています。誰かが発見されたクラスターに注釈を付ける必要がある。半教師あり分類などの一部の手法はハイブリッドです。いくつかのパターン検出または密度推定技術がこのカテゴリに該当します。

ただし、データサイエンスは機械学習よりもはるかに広範囲にわたります。データサイエンスにおける「データ」は、機械や機械的なプロセスから得られる場合もあれば、そうでない場合もあり (調査結果は手動で収集される場合があり、臨床試験には特別な種類の小さなデータが必要になるなど)、上記の「学習」とはまったく関係がない場合もあります。しかし、主な違いは、データサイエンスは実際にはアルゴリズムや統計だけでなく、データ処理の全範囲をカバーしている点です。

もちろん、多くの組織では、データサイエンティストはこのプロセスの一部にのみ焦点を当てています。データサイエンスへの私の独自の貢献について学びたいです。

<<: アプリオリアルゴリズム原理の要約

>>: 機械学習の基礎知識がゼロでも、TensorFlow で画像認識システムを構築する方法をお教えします (パート 2)