100日学習プラン | データサイエンスの詳細ガイド

100日学習プラン | データサイエンスの詳細ガイド

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

データサイエンスを学ぶことに興味はあるけれど、どこから始めればいいか分からないですか?もしそうなら、あなたは正しい場所にいます。

データサイエンスの学習に熱心であるにもかかわらず、ほんの数週間で諦めてしまう人を何人も見てきました。ある分野にこれほど情熱を傾ける人が、なぜそれを追求しないのか不思議です。何人かと話をしたところ、人々が勉強をあきらめる主な理由は次の通りだと分かりました。

  • データサイエンティストになるには学ぶべきトピックがたくさんある

  • 彼らが出会ったガイドによると、データ サイエンティストになるには、優れたプログラマー、数学の専門家、応用統計学の達人、そして pandas、NumPy、その他の Python ライブラリの使い方に非常に熟達している必要があるとのことでした。

これらは、経験豊富なデータ サイエンティストでさえも怖がらせる可能性があり、人々がデータ サイエンスを学ぼうとしないのも不思議ではありません。上記の各トピックは海のようなもので、誰かがすぐに習得しようとすると、挫折して学習を諦めてしまいます。本当のところ、成功するデータ サイエンティストになるには、あるいはデータ サイエンティストになるには、さらに多くのことを習得する必要があります。

データサイエンスを学ぶ方法

[[345480]]

データ サイエンティストになるには、次の項目を十分に学ぶ必要があります。

  • PythonまたはRプログラミングの基礎知識

  • Pythonを選択した場合は、pandasやNumpyなどのライブラリ

  • ggplot、Seaborn、Plotly などの視覚化ライブラリ。

  • 統計

  • SQLプログラミング

  • 数学、特に線形代数と微積分

以下のビデオでは、データサイエンスを学ぶためのステップバイステップのガイドについて説明しました。データ サイエンスのさまざまなレベルの専門知識に到達するために必要な知識の深さについて説明しました。

https://youtu.be/5zec-qxfMvg

勉強の計画を立てるには?最初にどのトピックを取り上げるべきでしょうか?

100日間でデータサイエンスを学ぶ計画を説明します。以下は、100 日間にわたり、1 日あたり少なくとも 1 時間を要する、Python を使用したデータ サイエンスの学習の 1 日ごとの計画です。

1日目: ツールのインストール

必要なツールがインストールされていることを確認し、今後数週間/数か月間使用するツールに慣れていることを確認してください。 Python を選択すると、Anaconda がインストールされ、IDE の Jupyter Notebook と Spyder もインストールされます。 「R」を選択すると、RStudio がインストールされます。 IDE をいろいろ試してみて、使いこなせるようになってください。たとえば、パッケージ/ライブラリのインストール、コードの一部実行、メモリのクリアなどについて理解するようにしてください。

2日目から7日目: データサイエンスのための基本プログラミング

次のステップは、基本的なプログラミングを学ぶことです。学ぶべきトピックは次のとおりです。

  • 変数の作成

  • 文字列データ型と文字列データ型でよく実行される操作

  • 数値データ型、ブール値、演算子

  • コレクション データ型のリスト、タプル、セット、および辞書 - それらの一意性と違いを理解することは非常に重要です。

  • If-Then-Else 条件、For ループ、While ループの実装

  • 関数とラムダ関数 - それぞれの利点と違い

8日目から17日目: パンダ図書館

Pandas ライブラリについて学びます。Pandas で知っておくべきトピックは次のとおりです。

  • データフレームを作成し、ファイルからデータを読み取り、データフレームをファイルに書き込む

  • データフレームからのデータのインデックス作成と選択

  • 反復とソート

  • 集約とグループ化

  • 欠損値と欠損値の取り扱い

  • Pandas の名前変更と置き換え

  • DataFrames での結合、マージ、連結

  • 要約分析、クロス集計、ピボット

  • データ、カテゴリデータとスパースデータ

上記のトピックは探索的データ分析を実行する際に非常に役立つため、10 日間かけて徹底的に学習してください。これらのトピックを紹介する際には、マージと結合、クロス集計とピボットの違いを理解するなど、細かい詳細まで踏み込んで、それぞれを理解するだけでなく、いつ、どこで使用するかも把握するようにしてください。

なぜパンダを学ぶ必要があるのでしょうか?データ サイエンス プロジェクトに取り組む場合、データへの理解を深めるために探索的なデータ分析から始めるのが常であり、Pandas で紹介したこれらのトピックが役に立ちます。また、Pandas はさまざまなソースや形式からデータを読み取るのに役立つため、高速かつ効率的であり、データセットに対してさまざまな操作を実行するための簡単な機能も提供します。

18日目から22日目: Numpy ライブラリ

Pandas を学習した後、次に学習する重要なライブラリは Numpy です。 Numpy を学ぶ理由は、List に比べて非常に高速だからです。 Numpy でカバーされるトピックは次のとおりです。

  • 配列の作成

  • インデックスとスライス

  • データ型

  • 接続と切断

  • 検索と並べ替え

  • 必要なデータ要素をフィルタリングする

Numpy を学ぶことがなぜ重要なのでしょうか? Numpy を使用すると、データに対して科学的な演算を高速かつ効率的に実行できます。機械学習アルゴリズムで一般的に使用される効率的な行列演算をサポートしており、pandas ライブラリも Numpy を広範に使用しています。

23日目から25日目: 視覚化

ここで、ggplot、Plotly、Seaborn などの主要な視覚化ライブラリを理解して使用するために時間を費やす必要があります。サンプル データセットを使用して、棒グラフ、折れ線グラフ/トレンド グラフ、ボックス プロット、散布図、ヒート マップ、円グラフ、縦棒グラフ、バブル チャート、その他の興味深いまたはインタラクティブな視覚化など、さまざまな視覚化を試してください。

データ サイエンス プロジェクトの鍵は、関係者に洞察を伝えることであり、視覚化はこの目的に最適なツールです。

26日目から35日目: 統計、実装、ユースケース

次に議論される重要なトピックは統計であり、平均、中央値、最頻値、範囲分析、標準偏差、分散などの一般的に使用される記述統計手法について説明します。

次に、データセット内の外れ値の識別や誤差の測定など、より高度な手法を紹介します。

さまざまな統計テスト (以下を参照) を調べる最後のステップとして、これらの統計テストが実際の生活でどのように使用されるかを理解します。

  • F検定

  • 分散分析

  • カイ二乗検定

  • T検定

  • Z検定

36日目から40日目: データ分析のためのSQL

今こそ SQL を学ぶときです。ほとんどの企業ユースケースでは、データはデータベースに保存されるため、SQL を知っておくと、分析のためにシステムから必要なデータを照会するのに大いに役立つため、これは重要です。

まず、MySQL のようなオープン ソース データベースをインストールします。これにはいくつかのデフォルト データベースが付属しており、データの操作と SQL の学習のみが必要になります。以下の点を重点的に学習していただければ幸いです。

  • テーブルからデータを選択する

  • キーに基づいて異なるテーブルからデータを結合する

  • データのグループ化と集計機能を実行する

  • ケース文とフィルター条件の使用

41日目 - 50日目: 探索的データ分析 (EDA)

どのデータ サイエンス プロジェクトでも、約 80% の時間がこのアクティビティに費やされるため、時間をかけてこのトピックを徹底的に学習することが最善です。探索的データ分析を学習する目的で、ここでは特定の機能やトピックについて取り上げるのではなく、データセットとユースケースに基づいて分析を進めていきます。したがって、Kaggle でホストされているコンペティションのサンプル データセットを使用して探索的分析を実行する方法を学習することをお勧めします。

探索的データ分析を学ぶもう 1 つの方法は、データセットに関する質問を記述し、データセットからその答えを見つけることです。たとえば、最も人気のあるタイタニック号のデータセットを検討し、どの性別/年齢/デッキで死亡の確率が高いかなどの質問に対する答えを見つけようとします。包括的な分析を行う能力は時間の経過とともに向上しますので、忍耐強く、ゆっくりと自信を持って学習してください。

データ サイエンティストに必要なコア スキルをすべて学習したので、次はアルゴリズムを学習します。

数学はどうなったの?

はい、線形代数と微積分を知ることは重要ですが、数学の概念を学ぶことに時間を費やすのは避けたいです。しかし、必要なときに参照してスキルを磨くことができれば、高校レベルの数学で十分です。たとえば、勾配降下法を学習しているとします。アルゴリズムを学習しながら、その背後にある数学を学ぶことに時間を費やすことができます。 なぜなら、数学の重要な概念を学び始めると、非常に時間がかかる可能性があり、必要なときに学習することで、その時間で必要なことを十分に学習できますが、数学のすべての概念を学び始めると、より多くの時間を費やし、必要な以上のことを学ぶことになります。

51日目から70日目: 教師あり学習とプロジェクトの実施

最初の 10 日間は、いくつかの重要なアルゴリズムを学習し、その背後にある数学を理解することに費やし、次の 10 日間はプロジェクトを開発しながら学習することに集中します。このクラスで取り上げるアルゴリズムの一部は次のとおりです。

  • 線形回帰とロジスティック回帰

  • 決定木/ランダムフォレスト

  • サポートベクターマシン (SVM)

最初の 10 日間は、選択したアルゴリズムの背後にある理論を理解することに重点を置く必要があります。次に、データセット内にカテゴリ属性が多数ある場合は決定木が最適であるなど、各アルゴリズムが他のアルゴリズムよりも適しているシナリオを理解するために時間を費やします。

次に、Kaggle で解決済みの例を選択します。解決済みの例が大量に見つかります。それらを再実装してみてください。ただし、各コード行を注意深く読み、その背後にある理由を理解してください。これまでに、優れた理論的知識と、解決した例からの実用的な知識を習得しました。

最後のステップでは、プロジェクトを選択し、データ収集、探索的分析、特徴エンジニアリング、モデル構築、モデル検証から始めて、教師あり学習アルゴリズムを実装します。確かに多くの疑問や問題が出てきますが、プロジェクトを完了する頃には、アルゴリズムと方法について十分に理解できるようになります。

71日目から90日目: 教師なし学習とプロジェクトの実装

次は、教師なし学習に焦点を当てます。教師あり学習で使用されるアプローチと同様に、まず数日かけて教師なし学習で選択したアルゴリズムの背後にある概念を理解し、次にプロジェクトを実装して学習します。

ここで議論するアルゴリズムは、

  • クラスタリングアルゴリズム - データセット内のクラスターを識別するために使用される

  • 関連性分析 – データのパターンを識別するために使用

  • 主成分分析 – 属性の数を減らすために使用

  • レコメンデーションシステム - 類似のユーザー/製品を識別し、推奨を行うために使用されます

最初のうちは、上記のアルゴリズムとテクニックを理解すること、またそれぞれの目的と、主成分分析などの使用できるシナリオを理解することに重点を置く必要があります。主成分分析は通常、非常に多くの列を扱っていて、情報を削減しつつも保持したい場合にデータセットの次元削減に使用され、推奨システムは、顧客の購入パターンに基づいて、売上を伸ばすために顧客が興味を持ちそうな他の製品を推奨できる電子商取引で人気があります。

理論とそれらを使用できるシナリオに慣れたら、解決済みの例を選択してリバース エンジニアリング、つまり各コード行を理解して再実行することで学習できます。

最後のステップとして、これまでに学んだ内容に基づいてユースケースを選択し、実装します。プロジェクトやユースケースを完了する過程で多くのことを学び、これらのアルゴリズムをより深く理解できるようになります。その理解は一生ものになります。

91日目から100日目: 自然言語処理の基礎

この時間を活用して、非構造化データやテキスト データの分析とユースケースに焦点を当てます。ここで時間を費やす価値のあることはあまりありません。

  • APIを使用してパブリックソースからデータを取得する方法を学ぶ

  • 基本的な感情分析を実行します。Twitter APIのデータを使用して特定のハッシュタグのツイートを抽出し、それらのツイートの背後にある感情や感情を計算できます。

  • トピックモデリング – 多数のドキュメントがあり、それらを異なるカテゴリにグループ化したい場合に便利です。

以上です。これで重要な概念をすべて理解し、あらゆるデータ サイエンスの仕事に応募できるようになりました。私の YouTube チャンネルで「100 日間データ サイエンスを学ぶ」チュートリアルを開始しました。ご興味があれば、ぜひご参加いただき、データ サイエンスを学ぶチュートリアルをここから始めてください。

https://youtu.be/VaXijSN_SJc

よくある質問

100 日でデータ サイエンティストになれるでしょうか?

はい、誰でも数日で泳ぎ方を習得できるのと同じように、誰でも 100 日かそれ以下でデータ サイエンスを習得できます。しかし、水泳と同じように、優秀な水泳選手やオリンピック選手になるには、懸命な努力と絶え間ない練習が必要です。データサイエンスでも同じことが言えます。絶え間ない練習と懸命な努力によって、専門家になれるのです。

このチュートリアルに従うと、どれくらい学べますか?

チュートリアルの最後までに、一般的なデータ サイエンス プロジェクトに取り組むのに十分な知識が得られます。この方法では、学習の障壁が取り除かれ、最小限の労力とサポートで、データ サイエンスの高度なトピックの学習に進むことができます。

終わりの前の最後のメッセージ

最初は物事が複雑すぎるように思えるかもしれませんが、圧倒されずに、一歩ずつ進んで学習の旅を続けてください。時間はかかるかもしれませんが、必ず目的地にたどり着くでしょう。

<<:  機械翻訳: Google 翻訳がほぼすべての言語を翻訳できる仕組み

>>:  ビッグニュース!ケンブリッジ大学の年次AIパノラマレポートが発表:米国のトップAI人材の27%が中国での教育歴を持つ

ブログ    
ブログ    

推薦する

ザッカーバーグの45分間の詳細なインタビュー:今後10年間のVRと脳コンピューターインターフェースへの野望を明らかにする

[[386531]]誰もそこに頭を突っ込みたくないよ!ザッカーバーグ氏は脳コンピューターインターフェ...

話題の「人工知能」について、気になるNの質問にお答えします

人工知能は、かなり長い間人気を博してきました。多くの投資家、起業家、そしてあらゆる規模の企業が、この...

第四次産業革命:人工知能

人工知能 (AI): 私たちの日常生活、生き方、他者との関わり方に根本的な変化がもたらされるのは、第...

...

人工知能の次の転換点: グラフニューラルネットワークが急速な爆発の時代を先導する

01 GNN: アーリーアダプターから急成長へ今年以来、グラフニューラルネットワーク (GNN) 技...

ディープラーニングベースの検出および認識アルゴリズムをSAR画像のインテリジェントな解釈に適用する

近年、AlphaGo が囲碁で人間のプレイヤーを圧倒したことで、人工知能技術は一般に知られるようにな...

マイクロソフトとOpenAIが訴えられた後、アップルはニュース出版社とAIモデルのトレーニング費用の支払いについて交渉している

Appleは、AIモデルのトレーニングと開発のためにニュース資料にアクセスするために、いくつかの国際...

サプライチェーン管理においてAIがすでに優れた成果を上げている分野

サプライ チェーンは、製品の設計から調達、製造、流通、配送、顧客サービスまで、さまざまなアクションを...

中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?外国人は信じられないと言う

写真は人工知能中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?多くの中国人は...

中国の建設ロボット軍団がやってくる!

[[408565]]香港のサウスチャイナ・モーニング・ポストに6月29日に掲載された記事「中国の道...

人間と機械の統合はなぜ難しいのでしょうか?

時間と空間を結びつけるのは速度であり、エネルギーと質量を結びつけるのも速度です。事実と価値を結びつけ...

機械学習が金融業界にもたらす破壊的変化

過去 10 年間で、金融業界ではこれまでにない最先端のテクノロジーが数多く導入されました。この変化は...

マッキンゼーのパートナー:中国は医療AIでリードしているが、将来的には5つの重要な課題がある

[[235958]] 「医師はAIに取って代わられるか?」という質問に対し、鼎祥源の創業者李天天氏は...

開発者の能力を最大限に引き出すAISpeech DUIオープンプラットフォームがリリースされました

[51CTO.comからのオリジナル記事] Tmall Genie X1、Xiaomi AIスピーカ...

...