機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

この記事では、データ サイエンティスト兼アナリストの Vincent Granville が、データ サイエンティストのさまざまな役割と、データ サイエンスが機械学習、ディープラーニング、人工知能、統計、モノ​​のインターネット、オペレーションズ リサーチ、応用数学などの関連分野とどのように比較され、重なり合うかについて説明します。グランビル氏は、データ サイエンスは非常に幅広い分野であるため、ビジネス環境で遭遇する可能性のあるデータ サイエンティストのタイプを最初に紹介し、自分自身が何らかのデータ サイエンティストになることもあるかもしれないと述べました。他の科学分野と同様に、データ サイエンスは他の関連分野から技術を借用することがあります。もちろん、データ サイエンスでは独自の技術も開発しており、特に、非常に大規模な非構造化データ セットを自動で (または人間の介入なしに) 処理して、リアルタイムでトランザクションを実行したり予測を行ったりできる技術やアルゴリズムを開発しています。

1. データ サイエンティストにはどのような種類がありますか?

データ サイエンティストの種類の詳細については、次の記事を参照してください: http://suo.im/28rlX1 および http://suo.im/3NNUpd。さらに役立つ情報は以下でご覧いただけます。

  • データ サイエンティストとデータ アーキテクト: http://suo.im/4bRkRG
  • データ サイエンティストおよびデータ エンジニア: http://suo.im/3mpo6E
  • データ サイエンティストおよび統計学者: http://suo.im/2GGtfG
  • データ サイエンティストおよびビジネス アナリスト: http://suo.im/3h0hkX

最近、データ サイエンティストの Ajit Jaokar 氏が、タイプ A のデータ サイエンティスト (アナリスト) とタイプ B のデータ サイエンティスト (ビルダー) の違いについて説明しました。

タイプ A のデータ サイエンティストは、データを操作するコードの作成が得意ですが、必ずしも専門家ではありません。タイプ A のデータ サイエンティストは、実験設計、予測、モデリング、統計的推論、または統計に関するあらゆる分野の専門家である可能性があります。ただし、一般的に、データ サイエンティストの成果物は、学術的な統計が時々示唆するような「P 値と信頼区間」ではありません (従来の製薬業界やその他の業界では、これがよくあるケースです)。 Google では、タイプ A のデータ サイエンティストは統計学者、定量分析者、意思決定支援エンジニアリング開発アナリストと呼ばれ、一部はデータ サイエンティストと呼ばれています。

タイプ B データ サイエンティスト: ここでの B は Building (建物) を表します。タイプ B のデータ サイエンティストはタイプ A のデータ サイエンティストと同じバックグラウンドを持ちますが、優れたプログラマーや経験豊富なソフトウェア エンジニアでもあります。タイプ B のデータ サイエンティストは、主に運用環境でのデータの使用に重点を置いています。彼らは、ユーザーと対話して、通常は推奨事項(製品、知り合いの可能性のある人、広告、映画、検索結果など)を提供するモデルを構築します。

ビジネスプロセスの最適化に関しては、私も独自の見解を持っています。私はそれを ABCD の 4 つの方向に分けています。A は分析科学、B はビジネス科学、C はコンピューター科学、D はデータ科学を表しています。データ サイエンスには、プログラミングや数学の実践が含まれる場合と含まれない場合があります。ハイエンドのデータ サイエンスとローエンドのデータ サイエンスの違いを理解するには、この記事 http://suo.im/11bR7o を参照してください。スタートアップでは、データ サイエンティストは通常​​、さまざまな種類の作業を行います。その職務には、幹部、データ マイナー、データ エンジニアまたはアーキテクト、研究者、統計学者、モデラー (予測モデリングなどを行う)、開発者などが含まれます。

データ サイエンティストは、統計に精通した経験豊富な R、Python、SQL、Hadoop プログラマーと見なされることが多いですが、これは氷山の一角に過ぎません。データ サイエンティストに対するこのような認識は、データ サイエンスのいくつかの要素を教えることに重点を置いたデータ トレーニング プログラムから派生したものにすぎません。しかし、研究室の技術者が自分自身を物理学者と名乗ることができるのと同じように、本物の物理学者はそれ以上のものであり、彼らの専門分野は非常に多岐にわたります。天文学、数理物理学、原子核物理学、力学、電気工学、信号処理(これもデータサイエンスの分野です)などです。同じことは、バイオインフォマティクス、情報技術、シミュレーションと定量的制御、計算金融、疫学、産業工学、さらには数論などの分野を含むデータサイエンスにも当てはまります。

私自身、過去 10 年間、マシン間およびデバイス間の通信に注力し、大規模なデータセットを自動的に処理し、自動トランザクション (Web トラフィックの購入やコンテンツの自動生成など) を実行できるシステムを開発してきました。これは、非構造化データを処理できるアルゴリズムを開発することを意味します。これは、人工知能、モノのインターネット、およびデータ サイエンス (ディープ データ サイエンスとも呼ばれます) の交差点でもあります。必要な数学は比較的少なく、プログラミングもほとんど必要ありません (主に API 呼び出し) が、データ集約型 (データ システムの構築を含む) であり、このコンテキスト向けに特別に設計された新しい統計手法に基づいています。

以前は、リアルタイムのクレジットカード詐欺検出に取り組んでいました。キャリアの初期(1990 年頃)に、衛星画像内のパターン(湖などの形状や特徴)を認識し、画像セグメンテーションを実行する画像のリモート センシング技術を開発しました。当時、私の研究は計算統計と呼ばれていましたが、母校の隣のコンピューター サイエンス学部でもほぼ同じことを行っていましたが、彼らはその研究を人工知能と呼んでいました。

現在、この研究はデータサイエンスまたは人工知能と呼ばれており、信号処理やモノのインターネット向けのコンピュータービジョンなどのサブフィールドがあります。

さらに、データ サイエンティストは、データ収集フェーズやデータ探索フェーズから、統計モデリングや既存システムの保守に至るまで、さまざまなデータ サイエンス プロジェクトに携わっています。

2. 機械学習とディープラーニング

データ学習と機械学習の違いを詳しく説明する前に、まず機械学習とディープラーニングの違いについて簡単に説明しましょう。機械学習は、予測を行ったり、システムを最適化するためのアクションを実行したりするためにデータセットでトレーニングされた一連のアルゴリズムです。たとえば、教師あり分類アルゴリズムは、履歴データに基づいて潜在顧客やローン候補者を分類するために使用されます。与えられたタスク(教師ありクラスタリングなど)に応じて、ナイーブベイズ、サポートベクターマシン、ニューラルネットワーク、アンサンブル、関連ルール、決定木、ロジスティック回帰、またはこれらの方法の組み合わせなど、さまざまな手法が使用されます。

これらはすべてデータサイエンスの分野です。これらのアルゴリズムが自律飛行や自動運転車などの自動化に使用される場合、それは人工知能、より具体的にはディープラーニングと呼ばれます。センサーからデータを収集し、インターネット経由で送信する場合は、IoT に適用される機械学習、データサイエンス、またはディープラーニングになります。

ディープラーニングの定義は人によって異なります。彼らは、ディープラーニングを、より多くの層を持つニューラル ネットワーク (ニューラル ネットワークは機械学習の技術) であると考えています。ディープラーニングと機械学習の違いについては、Quora でも質問されており、詳細な説明は次のとおりです。

  • 人工知能は、1960 年代に創設されたコンピュータ サイエンスのサブフィールドであり、人間にとっては簡単だがコンピュータにとっては難しいタスクを解決することに取り組んでいます。具体的には、いわゆる強力な人工知能システムは、人間ができることは何でもできるはずです。これは非常に一般的なもので、計画、移動、物体や音の認識、会話、翻訳、社会的またはビジネス上のタスクの完了、創造的な作業(絵画、詩の執筆)など、すべてのタスクが含まれます。
  • 自然言語処理は、言語に関係する人工知能の一部にすぎません。
  • 機械学習は人工知能の一側面と考えられています。離散的な用語で記述できる AI の問題 (たとえば、いくつかのアクションのうちどれが正しいか) と、世界に関する大量の情報が与えられると、プログラマーがプログラムしなくても「正しい」アクションを見つけ出します。通常、動作が正しいかどうかを判断するには、何らかの外部プロセスが必要です。数学的には、これは関数と呼ばれ、入力を受け取ると正しい出力を生成します。したがって、全体的な問題は、この数学関数を自動的にモデル化することです。両者を区別する場合: 私が書いたプログラムが人間の動作を表現できるほど賢い場合、それは人工知能です。しかし、そのパラメータがデータから自動的に学習されない場合は、それは機械学習ではありません。
  • ディープラーニングは、最近非常に人気のある機械学習の一種です。これには特殊なタイプの数学モデルが含まれており、これは、最終出力をより正確に予測するために調整できる特定のタイプの単純なモジュール (関数の組み合わせ) の組み合わせと考えることができます。

3. 機械学習と統計の違い

記事「機械学習と統計」では、この質問に答えようとしています。この記事の著者は、統計を、数量を予測または推定する目的で、信頼区間を使用した機械学習であると考えています。しかし、私は同意しません。私は数学や統計の知識を必要としない、エンジニアリングに適した信頼区間を構築しました。

4. データサイエンスと機械学習

機械学習と統計はどちらもデータサイエンスの一部です。機械学習における「学習」という言葉は、アルゴリズムが何らかのデータ(トレーニング セットとして使用される)に依存してモデルまたはアルゴリズムのパラメータを調整することを意味します。これには、回帰、単純ベイズ、教師ありクラスタリングなどの多くの手法が含まれます。しかし、すべての技術が機械学習に適しているわけではありません。たとえば、統計およびデータ サイエンスの手法で適していないものが 1 つあります。それは、分類アルゴリズムを支援するための事前の知識やトレーニング セットなしでクラスターとクラスター構造を検出する、教師なしクラスタリングです。この場合、クラスターをマークするには人間が必要です。半教師あり分類などの一部の手法はハイブリッドです。一部のパターン検出または密度評価技術は機械学習に適しています。

データサイエンスは機械学習よりも広範囲にわたります。データサイエンスにおけるデータは、機械や機械処理から得られるものではないかもしれません(調査データは手動で収集される可能性があり、臨床試験には特殊なタイプの小さなデータが含まれます)、そして先ほど言ったように、「学習」とは何の関係もないかもしれません。しかし、主な違いは、データ サイエンスはアルゴリズムや統計の分野だけでなく、データ処理全体をカバーしている点です。詳細には、データ サイエンスには次のものも含まれます。

  • データ統合
  • 分散アーキテクチャ
  • 機械学習の自動化
  • データの視覚化
  • ダッシュボードとBI
  • データエンジニアリング
  • 実稼働モードでの展開
  • 自動化されたデータに基づく意思決定

もちろん、多くの企業ではデータ サイエンティストはこれらのプロセスの 1 つだけに焦点を当てています。

この記事に対して、技術コンサルタントの Suresh Babu 氏がコメントを寄せており、Synced がそれを以下のようにまとめ統合しました。

この投稿では、機械/コンピューターを使用して人間の意思決定に似たタスクを処理するための統計学習の基本的な用語を理解するのが面倒な場合があることを示しています。

しかし、記事には「これらのアルゴリズムが自動飛行や無人運転車などの自動化に使用される場合、それは人工知能、より具体的にはディープラーニングと呼ばれます」と書かれています。この発言は少々無頓着で気まぐれなように思われます。

コンピュータ/マシンがコンピュータ/マシンに適しておらず、広く使用されていなかった過去では、統計学者やデータ サイエンティストの仕事は、現在この分野で行われている仕事とは大きく異なっていました。たとえば、製造業がコンピューターの支援を利用し始めると、生産のスピードと量は劇的に変化しましたが、それでも製造業であることに変わりはありません。もともと人間が行っていたプログラムされた作業を機械で行うというアイデアは、19 世紀初頭にジャカード、ブションらによって初めて生まれました。ジャカード織機は、今日のコンピュータ制御の織機とほぼ同じように動作しました。

今日のデータサイエンスは、統計、計算方法などをカバーする知識体系です(そして、さまざまな分野の割合は特定の分野によって異なります)。

機械学習(ディープラーニング、コグニティブコンピューティングなどの用語)は、機械が人間のように考え、推論できるようにすることです。基本的には、人間が生まれながらに持っている自然な知能を人工的な方法(つまり人工知能)で置き換えることを意味します。関連するタスクは単純なものから複雑なものまで多岐にわたります。たとえば、自動運転車は(現時点では)人間の運転を模倣しており、運転条件も人間が自然界で遭遇するものと同じです。「現時点では」と言うのは、将来的には人間が機械を直接運転することはほとんどなくなり、「運転」という言葉自体の意味が変わる可能性があるからです。

この分野には、基本的なもの(チェスや囲碁をプレイするためのアルゴリズムなど)が人間の脳の働きを説明すると考えられているなど、ばかげたものもあります。現在の知識の状態からすると、鳥や魚の脳がどのように機能するかを説明するのはすでに困難です。これは、学習のメカニズムを私たちがまだ十分に理解していないことを示しています。なぜショウジョウバエがわずか数百のニューロンでこれほど多くのことを行えるのかは、神経科学において未だに解明されていない謎です。そして、認知とは何か、そしてそれが現実世界でどのように機能するかは、データサイエンスが解決できると傲慢にも信じている大きな謎でもあります。 (次元削減は、教師なし学習の手法です。)

人類の誕生以来、さまざまな意味で、道具とそれを使って行うことが人間の学習を導いてきました。しかし、それは本題から外れています。

オリジナル:

http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  MITが脳制御ロボットを開発:脳波を使ってロボットのエラーを修正できる

>>:  自動運転のためのニューラルネットワークとディープラーニング

ブログ    
ブログ    
ブログ    

推薦する

人工知能が建設業界にもたらす変化

[[349273]] AI は情報を活用して、プロジェクトの初期段階で建築家にとって重要な決定を下し...

ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」...

5G + AI の統合開発は、インダストリアル インターネットにどのように役立ちますか?

2021年、デジタル経済の重要な一部である産業インターネットが再び政策の焦点となりました。中国工業...

人工知能を活用して顧客サービス体験を向上させる 5 つの方法

人々がデジタルの世界に移行するにつれて、組織と顧客の関係はここ数年で変化してきました。顧客の期待はか...

2019年の中国の人工知能産業の現状と今後の動向

[[264806]]新たな産業変革の中核的な原動力であり、将来の発展に関わる戦略的技術として、国は人...

App Store 中国、検索アルゴリズムを最適化:名前による検索を復活

約1週間の不安が去った後、国内のiOSアプリ開発者はようやく落ち着くことができた。中国におけるApp...

UCenter パスワードアルゴリズムのルールと生成方法

Discuz、UCHome、Supesite を含む Kangsheng の一連の製品は、同じユーザ...

...

テクノロジーファイナンスからスマートファイナンスまで、民生銀行の革新的な人工知能の応用をご覧ください

[51CTO.comからのオリジナル記事] 「インターネット+」から「インテリジェンス+」まで、革新...

AIは急速に発展しています。AIは人間のやりとりに取って代わることができるのでしょうか?

実際、AI と ML はほとんどの人間によるやりとりを置き換えつつあります。市場にはチャットボットや...

AI開発者のための7つの倫理ガイドライン

人工知能はここ数年で大きな進歩を遂げました。 AIテクノロジーで生み出されるソリューションは想像を絶...

企業に利益をもたらす 5 つの AI トレンド

[[358096]]市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく...

...

SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

アルゴリズム分析への正しいアプローチ

[この一連のブログ投稿では、一般的なデータ構造と対応するアルゴリズムを分析および要約し、各ブログ投稿...