スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

Pradeep Menon 氏は、ビッグデータ、データサイエンス、データアーキテクチャの分野で経験豊富で影響力のある専門家です。これは、彼が今年執筆したデータサイエンスの簡単な紹介に関する一連の記事の最初のものです。主にデータサイエンスの基本法則、よく使用されるアルゴリズム、問題の種類を紹介しており、読者はデータサイエンスの全体像を垣間見ることができます。

2016年、イギリスの数学者であり、テスコクラブの建築家でもあるクライヴ・ハンブリー氏は、「データは新たなエネルギーである」と提唱した。彼はこう言った。

「データは新しいエネルギー源です。非常に価値がありますが、使用する前に精製する必要があります。石油と同様に、実際の役割を果たす前にガス、プラスチック、または化学物質に変換する必要があります。つまり、データは分解され、分析されて初めて価値が生まれます。」

iPhone革命とモバイル経済の成長は、ビッグデータ技術の発展に絶好の機会を生み出しました。 2012 年、HBR (ハーバードビジネスレビュー) は、データサイエンティストを最前線に位置付ける記事を公開しました。「データサイエンティスト: 21 世紀で最もセクシーな職業」(https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century) という記事では、この「新しい人間」のグループを、データハッカー、アナリスト、コミュニケーター、信頼性コンサルタントのハイブリッドと位置付けています。

現在、あらゆる企業がより「データ駆動型」になることを目指しています。機械学習テクノロジーはこれに大いに役立ちます。こうした内容の多くは非常に技術的であり、理解するのが困難です。したがって、この一連の記事ではデータサイエンスを簡素化します。著者は、スタンフォード大学の授業や教科書「Introduction to Statistical Learning」（http://www-bcf.usc.edu /~gareth/ISL/）を参考にして、データサイエンスをシンプルでわかりやすい形で読者に紹介しようとしています。

データサイエンスは、主に以下の分野を含む学際的な分野です。

ビジネス知識
統計学習、別名機械学習
コンピュータプログラミング

このシリーズの焦点は、データサイエンスの機械学習の側面を簡素化することです。この記事では、まずデータサイエンスの基本法則、一般的なアルゴリズム、問題の種類について紹介します。

コア法則

（画像はMenon, 2017より転載）

データは戦略的なリソースです。この概念は組織の考え方です。問題は、「私たちは収集して保存したすべてのデータを使用しているか？そこから意味のあるリソースを抽出しているか？」ということです。これらの質問に対する答えは「いいえ」であると確信しています。クラウドベースの企業はデータ主導です。彼らは必然的にデータを戦略的リソースとして見るようになるでしょう。しかし、この概念はほとんどの組織には当てはまりません。

知識獲得のための体系的なプロセス: データのマイニングには、明確な手順と、各手順の明確かつ達成可能な目標を備えた体系的なプロセスが必要です。たとえば、データマイニングの業界標準プロセス (CRISP-DM) (https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining)。

データとともに眠る: 組織はデータに情熱を持つ専門家に投資する必要があります。データをリソースに変換するのは錬金術ではありません。この世に万能の錬金術師は存在しない。彼らが必要としているのは、データの価値を理解し、データリソースを識別して作成できる信者です。そして、データ、テクノロジー、金融の分野を結び付けることができる専門家。

不確実性を受け入れる: データサイエンスは万能薬ではありません。それは未来を予測するのに使える水晶玉ではありません。レポートや KPI と同様に、意思決定を可能にします。データサイエンスはツールであり、目的を達成するための手段ではありません。それは絶対的なものではなく、確率の範疇に属します。経営陣と意思決定者はこの事実を受け入れる必要があります。定量化された不確実性を意思決定プロセスに組み込む必要があります。組織が実験の文化を取り入れ、失敗から素早く学ぶことができる場合にのみ、不確実性の中で成長することができます。

BAB 法 (ビジネス - 分析 - ビジネス): これは最も重要な法律だと思います。データサイエンスの文献のほとんどは、モデルとアルゴリズムに焦点を当てています。この方程式自体にはビジネス上の文脈が欠けています。 BAB は商業的な部分を強調します。アルゴリズムをビジネスの文脈に配置することは非常に重要です。ビジネス上の問題を定義し、分析を使用して解決し、最終的にその答えをビジネスプロセスに統合します。これはいわゆる BAB (ビジネス分析ビジネスプロセス) です。

プロセス

（画像はMenon, 2017より転載）

このセクションでは、第 2 法則を参考にして、データサイエンスのプロセス部分の紹介に焦点を当てます。典型的なデータサイエンスプロジェクトの段階は次のとおりです。

1. ビジネス上の問題を定義する

アインシュタインはかつてこう言いました。「すべてのことを本質に留め、できるだけシンプルにしなさい。」この引用は、ビジネス上の問題を定義するための鍵であると言えます。問題の説明は正確に作成する必要があり、達成すべき目標は明確に定義されなければなりません。私の経験では、ビジネスチームは目の前のタスクに夢中になりすぎて、対処が必要な課題を見失ってしまいます。ブレーンストーミングセッション、ワークショップ、インタビューは、これらの課題を明らかにし、仮説を立てるのに役立ちます。たとえば、通信会社が顧客基盤の縮小により前年比で収益が減少したとします。この場合、ビジネス上の問題は次のように定義できます。

同社は、顧客離れを減らしながら、新たな顧客セグメントを開拓することで顧客基盤を拡大する必要があります。

2. 機械学習タスクに分解する

定義されたビジネス上の問題は、さまざまな機械学習タスクに分割する必要があります。たとえば、企業が新しい市場を開拓し、顧客離れを減らすことで顧客基盤を拡大する必要がある場合、それを機械学習の問題に分解するにはどうすればよいでしょうか。分解計画は次のとおりです。

顧客離れを x% 削減します。
ターゲットマーケティングのための新しい顧客セグメントを特定します。

3. データの準備

ビジネス上の問題を定式化し、それを機械学習のタスクに分解した後、適切な分析戦略を開発するために、関連データを深く理解する必要があります。データのソース、データの品質、データの偏りなどの重要な問題に注意を払うことが重要です。

4. 探索的データ分析

宇宙を探索する宇宙飛行士と同じように、データサイエンティストはデータパターンの未知の部分を探索し、その隠れた特徴に対する洞察を得て、新たな発見を記録する必要があります。探索的データ分析 (EDA) は魅力的なタスクです。データをより深く理解し、そのニュアンスを調査し、隠れたパターンを発見し、新しい機能を開発し、モデリング戦略を開発することができます。

5. モデリング

探索的データ分析の後、モデリングに進みます。この段階では、一般的な回帰、決定木、ランダムフォレストなどのアルゴリズムなど、特定の機械学習の問題に最も適したアルゴリズムを選択します。

6. 展開と評価

最後に、構築したモデルを展開し、継続的に監視して、実際の環境でのパフォーマンスを観察し、ターゲットを絞った調整を行います。

通常、モデリングとデプロイメントは全体の作業の 20% のみを占め、残りの 80% の作業はデータの調査と詳細な理解です。

機械学習の問題の種類

（画像はMenon, 2017より転載）

簡単に言えば、機械学習は教師あり学習と教師なし学習の 2 つのカテゴリに分けられます。

1. 教師あり学習

教師あり学習タスクには事前に定義された目標があります。モデラーは、特定の目標を達成するために、機械学習モデルの生成プロセスを意図的に観察し、影響を与えます。教師あり学習はさらに 2 つのカテゴリに分けられます。

回帰:

回帰モデルは機械学習タスクで非常に一般的であり、数値変数を推定および予測するために使用されます。ここに 2 つの例を示します。

次の四半期の潜在的収益の見積もりはいくらですか?
来年はどれだけの取引を成立させることができるでしょうか?

分類：

名前が示すように、分類モデルはオブジェクトをいくつかの特定のカテゴリに分類してグループ化します。あらゆるタイプのアプリケーションに適しています。以下に典型的な例をいくつか示します。

スパムフィルタリングでは、分類モデルを使用して、特定の機能に基づいて受信メールをスパムと許容可能なメールに分類します。
解約予測は分類モデルのもう一つの重要な応用です。解約モデルは、顧客が解約する（つまり、サービスの利用を停止する）かどうかを予測するために電話会社でよく使用されます。

2. 教師なし学習

教師なし学習には特定の目標がないため、生成される結果を解釈するのが難しい場合があります。教師なし学習タスクには多くの種類があります。最も一般的なものは次のとおりです。

クラスタリング: 類似性に基づいてオブジェクトをグループ化します。たとえば、顧客セグメンテーションではクラスタリングアルゴリズムが使用されます。
関連付け: 関連付けアルゴリズムは、互いに一致する製品を見つけるために使用されます。マーケットバスケット分析は、関連アルゴリズムを使用して製品をバンドルして販売するものです。
リンク予測: リンク予測は、データ項目間の接続を見つけるために使用されます。 Facebook、Amazon、Netflix などの Web サイトでは、リンク予測アルゴリズムを大規模に使用して、関連する友人、人気商品、映画をユーザーに推奨しています。
データ削減: データ削減方法は、データセット内の特徴の数を削減するために使用されます。より少ない属性を使用して、多くの属性を持つ大規模なデータセットを提示します。

機械学習タスクからモデル、アルゴリズムまで

ビジネス上の問題が機械学習タスクに分解されると、1 つ以上のアルゴリズムで特定の機械学習タスクを解決できるようになります。通常、モデルは複数のアルゴリズムを使用してトレーニングされます。最良の結果をもたらすアルゴリズムまたはアルゴリズムのセットを選択して展開します。

Microsoft Azure Machine Learning には、機械学習モデルのトレーニングに使用できる 30 を超える構築済みアルゴリズムが用意されています。

（画像はMenon, 2017より転載）

Azure Machine Learning チートシートは、これらのアルゴリズムを調べるのに役立ちます。

結論は

データサイエンスは非常に幅広い分野です。それは魅力的な科学であり芸術です。この記事では、氷山の一角についてのみ取り上げました。「なぜ」という原理を理解せずに「どのように」という方法を探究しても意味がありません。今後の投稿では、機械学習の「方法」について引き続き探っていきます。

<<: 人工知能による影の検出と除去、反射に基づく影の検出と除去方法を実現

>>: 「2018年中国人工知能サミット」が9月6日に南京で開催される。

PaLMを超えて！北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

PaLMを超えて！北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

自動運転車の意思決定制御システム技術を分析した記事

ChatGPT vs AutoGPT: トップ言語モデルの比較

OpenAI は Google のトップエンジニアを引き抜くために年間 1,000 万ドルという高額な給与を提示している?北京大学のAI博士課程の学生が卒業前に100万ドルのオファーを受ける

技術的負債の高利クレジットカード: 最もよく知られているエンドツーエンドの機械学習プラットフォームを詳しく調べる

市場における自動運転の現在のレベルはどの程度ですか?

ボストンダイナミクスのロボット犬と一緒に散歩に行きました！「すごい」って言い続ける…（車横転シーン添付）

ドローンとLIDARは相性が良いのでしょうか?

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

推薦する

何？ニューラルネットワークは新しい知識も生み出せるのでしょうか?

開発者にとって朗報：中国初の AI 自動脆弱性マイニングシステムが公開テストを開始

人工直感は人工知能の次の発展方向となるだろう

データセキュリティの向上における人工知能の役割

オフライン手法の可能性を最大限に引き出すために、武漢大学とKuaishouは分離型ビデオインスタンスセグメンテーションフレームワークDVISを提案した。

効率的な本人認証の鍵：生体認証技術

2018年: 人工知能の世界における8つのトレンド

調査によると、ChatGPTはプログラミングの質問に答える際に50%以上のエラー率があることが判明

トマシュ・トゥングズ: AI 組織が直面する 4 つの戦略的課題