スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で経験豊富で影響力のある専門家です。これは、彼が今年執筆したデータサイエンスの簡単な紹介に関する一連の記事の最初のものです。主にデータサイエンスの基本法則、よく使用されるアルゴリズム、問題の種類を紹介しており、読者はデータサイエンスの全体像を垣間見ることができます。

2016年、イギリスの数学者であり、テスコクラブの建築家でもあるクライヴ・ハンブリー氏は、「データは新たなエネルギーである」と提唱した。彼はこう言った。

「データは新しいエネルギー源です。非常に価値がありますが、使用する前に精製する必要があります。石油と同様に、実際の役割を果たす前にガス、プラスチック、または化学物質に変換する必要があります。つまり、データは分解され、分析されて初めて価値が生まれます。」

iPhone革命とモバイル経済の成長は、ビッグデータ技術の発展に絶好の機会を生み出しました。 2012 年、HBR (ハーバード ビジネス レビュー) は、データ サイエンティストを最前線に位置付ける記事を公開しました。 「データ サイエンティスト: 21 世紀で最もセクシーな職業」(https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century) という記事では、この「新しい人間」のグループを、データ ハッカー、アナリスト、コミュニケーター、信頼性コンサルタントのハイブリッドと位置付けています。

現在、あらゆる企業がより「データ駆動型」になることを目指しています。機械学習テクノロジーはこれに大いに役立ちます。こうした内容の多くは非常に技術的であり、理解するのが困難です。したがって、この一連の記事ではデータ サイエンスを簡素化します。著者は、スタンフォード大学の授業や教科書「Introduction to Statistical Learning」(http://www-bcf.usc.edu /~gareth/ISL/)を参考にして、データサイエンスをシンプルでわかりやすい形で読者に紹介しようとしています。

データ サイエンスは、主に以下の分野を含む学際的な分野です。

  • ビジネス知識
  • 統計学習、別名機械学習
  • コンピュータプログラミング

このシリーズの焦点は、データ サイエンスの機械学習の側面を簡素化することです。この記事では、まずデータサイエンスの基本法則、一般的なアルゴリズム、問題の種類について紹介します。

コア法則


(画像はMenon, 2017より転載)

データは戦略的なリソースです。この概念は組織の考え方です。問題は、「私たちは収集して保存したすべてのデータを使用しているか?そこから意味のあるリソースを抽出しているか?」ということです。これらの質問に対する答えは「いいえ」であると確信しています。クラウドベースの企業はデータ主導です。彼らは必然的にデータを戦略的リソースとして見るようになるでしょう。しかし、この概念はほとんどの組織には当てはまりません。

知識獲得のための体系的なプロセス: データのマイニングには、明確な手順と、各手順の明確かつ達成可能な目標を備えた体系的なプロセスが必要です。たとえば、データマイニングの業界標準プロセス (CRISP-DM) (https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining)。

データとともに眠る: 組織はデータに情熱を持つ専門家に投資する必要があります。データをリソースに変換するのは錬金術ではありません。この世に万能の錬金術師は存在しない。彼らが必要としているのは、データの価値を理解し、データ リソースを識別して作成できる信者です。そして、データ、テクノロジー、金融の分野を結び付けることができる専門家。

不確実性を受け入れる: データ サイエンスは万能薬ではありません。それは未来を予測するのに使える水晶玉ではありません。レポートや KPI と同様に、意思決定を可能にします。データ サイエンスはツールであり、目的を達成するための手段ではありません。それは絶対的なものではなく、確率の範疇に属します。経営陣と意思決定者はこの事実を受け入れる必要があります。定量化された不確実性を意思決定プロセスに組み込む必要があります。組織が実験の文化を取り入れ、失敗から素早く学ぶことができる場合にのみ、不確実性の中で成長することができます。

BAB 法 (ビジネス - 分析 - ビジネス): これは最も重要な法律だと思います。データ サイエンスの文献のほとんどは、モデルとアルゴリズムに焦点を当てています。この方程式自体にはビジネス上の文脈が欠けています。 BAB は商業的な部分を強調します。アルゴリズムをビジネスの文脈に配置することは非常に重要です。ビジネス上の問題を定義し、分析を使用して解決し、最終的にその答えをビジネス プロセスに統合します。これはいわゆる BAB (ビジネス分析ビジネスプロセス) です。

プロセス


(画像はMenon, 2017より転載)

このセクションでは、第 2 法則を参考にして、データ サイエンスのプロセス部分の紹介に焦点を当てます。典型的なデータ サイエンス プロジェクトの段階は次のとおりです。

1. ビジネス上の問題を定義する

アインシュタインはかつてこう言いました。「すべてのことを本質に留め、できるだけシンプルにしなさい。」この引用は、ビジネス上の問題を定義するための鍵であると言えます。問題の説明は正確に作成する必要があり、達成すべき目標は明確に定義されなければなりません。私の経験では、ビジネス チームは目の前のタスクに夢中になりすぎて、対処が必要な課題を見失ってしまいます。ブレーンストーミング セッション、ワークショップ、インタビューは、これらの課題を明らかにし、仮説を立てるのに役立ちます。たとえば、通信会社が顧客基盤の縮小により前年比で収益が減少したとします。この場合、ビジネス上の問題は次のように定義できます。

  • 同社は、顧客離れを減らしながら、新たな顧客セグメントを開拓することで顧客基盤を拡大する必要があります。

2. 機械学習タスクに分解する

定義されたビジネス上の問題は、さまざまな機械学習タスクに分割する必要があります。たとえば、企業が新しい市場を開拓し、顧客離れを減らすことで顧客基盤を拡大する必要がある場合、それを機械学習の問題に分解するにはどうすればよいでしょうか。分解計画は次のとおりです。

  • 顧客離れを x% 削減します。
  • ターゲット マーケティングのための新しい顧客セグメントを特定します。

3. データの準備

ビジネス上の問題を定式化し、それを機械学習のタスクに分解した後、適切な分析戦略を開発するために、関連データを深く理解する必要があります。データのソース、データの品質、データの偏りなどの重要な問題に注意を払うことが重要です。

4. 探索的データ分析

宇宙を探索する宇宙飛行士と同じように、データ サイエンティストはデータ パターンの未知の部分を探索し、その隠れた特徴に対する洞察を得て、新たな発見を記録する必要があります。探索的データ分析 (EDA) は魅力的なタスクです。データをより深く理解し、そのニュアンスを調査し、隠れたパターンを発見し、新しい機能を開発し、モデリング戦略を開発することができます。

5. モデリング

探索的データ分析の後、モデリングに進みます。この段階では、一般的な回帰、決定木、ランダムフォレストなどのアルゴリズムなど、特定の機械学習の問題に最も適したアルゴリズムを選択します。

6. 展開と評価

最後に、構築したモデルを展開し、継続的に監視して、実際の環境でのパフォーマンスを観察し、ターゲットを絞った調整を行います。

通常、モデリングとデプロイメントは全体の作業の 20% のみを占め、残りの 80% の作業はデータの調査と詳細な理解です。

機械学習の問題の種類


(画像はMenon, 2017より転載)

簡単に言えば、機械学習は教師あり学習と教師なし学習の 2 つのカテゴリに分けられます。

1. 教師あり学習

教師あり学習タスクには事前に定義された目標があります。モデラーは、特定の目標を達成するために、機械学習モデルの生成プロセスを意図的に観察し、影響を与えます。教師あり学習はさらに 2 つのカテゴリに分けられます。

回帰:

回帰モデルは機械学習タスクで非常に一般的であり、数値変数を推定および予測するために使用されます。ここに 2 つの例を示します。

  • 次の四半期の潜在的収益の見積もりはいくらですか?
  • 来年はどれだけの取引を成立させることができるでしょうか?

分類:

名前が示すように、分類モデルはオブジェクトをいくつかの特定のカテゴリに分類してグループ化します。あらゆるタイプのアプリケーションに適しています。以下に典型的な例をいくつか示します。

  • スパム フィルタリングでは、分類モデルを使用して、特定の機能に基づいて受信メールをスパムと許容可能なメールに分類します。
  • 解約予測は分類モデルのもう一つの重要な応用です。解約モデルは、顧客が解約する(つまり、サービスの利用を停止する)かどうかを予測するために電話会社でよく使用されます。

2. 教師なし学習

教師なし学習には特定の目標がないため、生成される結果を解釈するのが難しい場合があります。教師なし学習タスクには多くの種類があります。最も一般的なものは次のとおりです。

  • クラスタリング: 類似性に基づいてオブジェクトをグループ化します。たとえば、顧客セグメンテーションではクラスタリング アルゴリズムが使用されます。
  • 関連付け: 関連付けアルゴリズムは、互いに一致する製品を見つけるために使用されます。マーケットバスケット分析は、関連アルゴリズムを使用して製品をバンドルして販売するものです。
  • リンク予測: リンク予測は、データ項目間の接続を見つけるために使用されます。 Facebook、Amazon、Netflix などの Web サイトでは、リンク予測アルゴリズムを大規模に使用して、関連する友人、人気商品、映画をユーザーに推奨しています。
  • データ削減: データ削減方法は、データセット内の特徴の数を削減するために使用されます。より少ない属性を使用して、多くの属性を持つ大規模なデータセットを提示します。

機械学習タスクからモデル、アルゴリズムまで

ビジネス上の問題が機械学習タスクに分解されると、1 つ以上のアルゴリズムで特定の機械学習タスクを解決できるようになります。通常、モデルは複数のアルゴリズムを使用してトレーニングされます。最良の結果をもたらすアルゴリズムまたはアルゴリズムのセットを選択して展開します。

Microsoft Azure Machine Learning には、機械学習モデルのトレーニングに使用できる 30 を超える構築済みアルゴリズムが用意されています。


(画像はMenon, 2017より転載)

Azure Machine Learning チートシートは、これらのアルゴリズムを調べるのに役立ちます。

結論は

データサイエンスは非常に幅広い分野です。それは魅力的な科学であり芸術です。この記事では、氷山の一角についてのみ取り上げました。 「なぜ」という原理を理解せずに「どのように」という方法を探究しても意味がありません。今後の投稿では、機械学習の「方法」について引き続き探っていきます。

<<:  人工知能による影の検出と除去、反射に基づく影の検出と除去方法を実現

>>:  「2018年中国人工知能サミット」が9月6日に南京で開催される。

ブログ    
ブログ    
ブログ    

推薦する

人工知能は人類の生存を脅かすでしょうか?

有名なイギリスの科学者スティーブン・ホーキングはかつて、知能機械を作ろうとする人間の努力は私たち自身...

2020 年のトップ 10 テクノロジー トレンド

変化だけが唯一不変です。これは私たちの職業生活にも当てはまります。最近はテクノロジーが非常に急速に発...

将来のAIアプリケーションには、より高速でスマートな通信インフラストラクチャが必要

[[409599]]インターネット接続が4Gから5Gへと高速化していく一方で、利用可能な帯域幅が限ら...

...

世界最大の多言語音声データセットがオープンソースになりました! 23言語で40万時間以上

[[416170]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

Baidu は革命を起こしました!

10月17日午前、百度世界2023大会に、百度創業者のロビン・リー氏が白いシ​​ャツを着て落ち着い...

Google、人工知能をより有効活用できるよう複数のAIツールをリリース

Google は今週開催された Cloud Next カンファレンスで、さまざまな機械学習ツール、顧...

マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

マイクロソフトリサーチアジアは、「中国の大学における人工知能人材の国際トレーニングプログラム」に関す...

Daguan 推奨アルゴリズムの実装: 協調フィルタリングのアイテム埋め込み

レコメンデーションシステムの本質は、ユーザーのニーズが不明確な場合の情報過多の問題を解決し、ユーザー...

AIと遊ぶ4つの簡単な方法

適切なプロンプトを作成する技術を習得することが、ChatGPT のような AI ベースのプロンプト ...

...

2021 年の年収 100 万ドルの AI 職種のトレンド: データ サイエンス、Python、自動運転、AIOps に注目していますか?

今年も終わりですね! 2021年が近づいてきました。今年は流行が落ち着いてきましたが、AIの発展は止...

AIチップ業界は発展の初期段階にあり、将来的には大きな市場の可能性を秘めている

世界のPC業界が年々衰退し、スマートフォン市場が飽和状態に陥る中、ビッグデータ、クラウドコンピューテ...

第3回世界情報会議は5月16日に開催されます。主な特徴は次の5つです。

北京、天津、河北の協調的発展を積極的に推進し、世界の知能分野における科学技術交流と協力を強化し、新興...

プログラマーでなくてもわかる「機械学習」の原理

機械学習とは何ですか?一般的なシナリオから始めましょう:ある日、マンゴーを買いに行ったところ、店員が...