データサイエンティストになりたいですか?機械学習を最初のコースとして受講しないでください

データサイエンティストになりたいですか?機械学習を最初のコースとして受講しないでください

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

多くの人が「データサイエンス」という言葉を聞くと、まず思い浮かぶのは「機械学習」です。私も同じでした。機械学習という概念に初めて出会ったとき、とても面白そうだったので、データサイエンスにとても興味を持つようになりました。そのため、データサイエンスを学ぶための入り口を探していたとき、私もそれに影響を受けました。

[[360181]]

これが私が犯した最大の間違いであり、この記事の焦点です。データ サイエンティストになりたいのであれば、機械学習から始めないでください。

当然のことながら、「真に多才な」データ サイエンティストになるには、最終的には機械学習の概念を習得する必要があります。しかし、それなしでどれだけ遠くまで行けるかに驚かれるでしょう。機械学習から始めてみませんか?

1. 機械学習はデータサイエンスのほんの一部にすぎません。

データサイエンスと機械学習は、図に示す長方形と正方形のようなものです。機械学習はデータサイエンスの一部ですが、データサイエンスは必ずしも機械学習であるとは限りません。正方形は長方形の一種ですが、長方形は必ずしも正方形ではないのと同じです。実際には、機械学習モデリングはデータ サイエンティストの作業の 5 ~ 10% を占めるに過ぎず、残りの大部分の時間は他のことに費やされています。

すぐに機械学習に取り組むと、ほとんど利益を得られないのに多くの時間と労力を費やすことになります。

2. 機械学習を完全に理解したい場合は、まず他のいくつかの科目の基礎知識を習得する必要があります。

機械学習は本質的に、統計、数学、確率に基づいています。機械学習を学習する前に、まず基本的な理論的知識を習得し、しっかりとした理論的基礎を築く必要があります。例えば:

  • 線形回帰は、ほとんどのブートキャンプで最初に教えられる「機械学習アルゴリズム」ですが、実際には統計的な手法です。
  • 主成分分析の前提条件は、行列と固有ベクトル(線形代数)の概念を学ぶことです。
  • ナイーブベイズは、ベイズの定理(確率)に完全に基づいた機械学習モデルです。

したがって、上記は 2 つのポイントにまとめることができます。1 つ目は、基礎を学ぶことで、より高度な内容を学習しやすくなること、2 つ目は、基礎を学ぶことで、複数の機械学習の概念を習得できることです。

3. 機械学習ですべてを解決できるわけではありません。

私を含め、多くのデータ サイエンティストがこれに苦労しています。私の最初の考えと一致して、ほとんどのデータ サイエンティストは、「データ サイエンス」と「機械学習」は互いに補完し合い、切り離せないものであると考えています。したがって、データ サイエンティストは、問題に直面するたびに、まず機械学習モデルを解決策として検討します。しかし、すべてのデータ サイエンスの問題に機械学習モデルが必要なわけではありません。

場合によっては、Excel や Pandas を使用した簡単な分析だけで問題を解決できることもあります。

場合によっては、問題が機械学習とはまったく関係がないこともあります。これらの問題を解決するには、スクリプトを使用したデータのクリーニングと操作、データ パイプラインの構築、インタラクティブなダッシュボードの作成のみが必要になる可能性があり、機械学習は必要ありません。

何をすべきでしょうか?

前述のように、基礎を学ぶことで、より高度なコンテンツに進み、複数の機械学習の概念を習得しやすくなります。統計、数学、プログラミングの基礎を学んでいると、「データ サイエンティスト」になるために何も進歩していないように感じるかもしれませんが、これらの基礎を学ぶことは将来の学習に間違いなく役立ちます。

今すぐ具体的な行動を開始したい場合は、次の手順を参照してください。

  • 統計から始めましょう。数学、統計、プログラミングの基礎という3つの要素の中で、個人的には統計が最も重要だと考えています。統計を学ぶのが怖いなら、データサイエンスはあなたには向いていないかもしれません。ジョージア工科大学の「統計手法」コース、またはカーン アカデミーのビデオシリーズを視聴することをお勧めします。
  • Python と SQL を学びます。私は仕事で R を使ったことがないので、それについてはあまり意見がありません。 Rタイプの才能があれば、PythonとSQLを試してみることをお勧めします。 Python と SQL に習熟すればするほど、データの収集、操作、実装が容易になります。

さらに、Pandas、NumPy、Scijit-learn などの Python ライブラリに精通していることも良い選択です。バイナリツリーは多くの高度な機械学習アルゴリズム (XGBoost など) の基礎となるため、バイナリツリーを学習することもお勧めします。

  • 線形代数の基礎を学びます。行列に関連するあらゆるものを扱う場合、線形代数は非常に重要になります。これは、レコメンデーション システムやディープラーニング アプリケーションでは非常に一般的です。
  • データ操作を学びます。データ操作はデータ サイエンティストの仕事の少なくとも 50% を占めます。具体的には、特徴エンジニアリング、探索的データ分析、データ準備について詳しく学びます。

私の全体的なアドバイスとしては、機械学習に集中することはお勧めできません。なぜなら、a) 時間の有効な使い方ではないし、b) 職場で成功するデータ サイエンティストになる助けにもならないからです。ただし、これは非常に個人的な内容の記事ですので、自分の好きなように解釈し、自分にとって有益なものだけを取り上げてください。

<<:  開発から生産まで: 機械学習に関する 7 つの実践的な提案

>>:  AIがあらゆるところに存在している世界を想像してみてください

ブログ    
ブログ    

推薦する

PaaS でフェイルオーバー アルゴリズムを作成する際に避けるべき 3 つの落とし穴

[[125412]]クラウド サービスの停止が発生すると、通常はフェイルオーバー メカニズムがアクテ...

この国産トランスフォーマーは自動変形、音声制御、プログラミングが可能。外国人は狂ったように気に入っている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能開発における5つの制約問題、数千の問題を解決する5つの解決策

[[237095]]人工知能はどこにでもあるようです。私たちはそれを自宅や携帯電話で体験します。起業...

一流大学のAIが一流弁護士に勝つ:契約書のレビューを26秒で完了

最近、アメリカの一流弁護士たちが人工知能と競争したが、弁護士たちは負けたと報じられている。法律AIプ...

ChatGPT の残念な欠点 10 選: チャットボットの限界を探る

ChatGPT は、翻訳、作詞作曲、リサーチ、コーディングなど、さまざまなスキルに優れています。しか...

企業チームのスキルは AI 導入の障壁となるのでしょうか?

人工知能は驚くべきことを実現できますが、いくつかの障害にも直面しています。 2021年に3,500人...

...

人工知能人材の需要は倍増し、アルゴリズム人材の不足は170万人に達した

デジタル経済と実体経済の融合と発展が加速する中、デジタル経済の重要な技術モジュールとしての人工知能の...

並列コンピューティングの量子化モデルとディープラーニングエンジンへの応用

この世で唯一負けない武術はスピードだ。ディープラーニング モデルをより速くトレーニングする方法は、常...

「顔認証」の隆盛を振り返る

[[391752]]昨年、ある短い動画が話題になりました。ヘルメットをかぶって家を内覧するお客さん。...

Java ソートアルゴリズムについてどれくらい知っていますか?

今日は、Java のさまざまなソート アルゴリズムについてお話します。以前、上級開発者との面接があり...

ロボティック プロセス オートメーションとスマート データ センターの未来

多くの人がロボットについて考えるとき、金属製のヒューマノイド、あるいはテレビ番組で互いに競い合うイン...

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

サンフランシスコは前例のない措置として、政府による顔認識技術の使用を禁止する規則を発布した。悪者を捕...

AIの新興企業が胡潤富豪リストに名を連ねる:「CVの4人の小さなドラゴン」の創業者3人がリスト入り

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

深い思考 | 大規模モデルの機能の限界はどこにあるのでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...