機械学習を知っていれば十分でしょうか?次世代のデータ サイエンティストは「フル スタック」へと移行しています。

機械学習を知っていれば十分でしょうか?次世代のデータ サイエンティストは「フル スタック」へと移行しています。

[[342168]]

データサイエンスは、特にコンピューターサイエンス、統計、ビジネス分析、エンジニアリング管理、物理学、数学などのバックグラウンドを持つ若者にとって、常に魅力的な分野です。しかし、霧の中で花を見るというのは、いつもはっきりしないものです。データサイエンスの背後には多くの謎があり、機械学習や統計だけではない、と人々はいつも考えています。

長年にわたり、私は多くの専門家とデータサイエンス分野に参入する方法について議論してきました。データ サイエンスはなぜいつもこれほど話題になっているのでしょうか。この分野に参入するのに役立つのは、今でも統計学と機械学習でしょうか。今後もそうなるでしょうか。

2か月前、私は大学院を卒業してすぐにメディア大手のViacomCBSにデータサイエンティストとして入社しました。研究助手およびインターンシップ以外のフルタイムの業界経験はありません。私の職務は、この記事に記載されている作業方法のほとんどを使用して、ML 製品の構想から開発、製造まで多岐にわたります。この記事が、この分野に参入することに興味を持っているすべてのデータ サイエンティストと機械学習エンジニアに役立つことを願っています。

データサイエンスについてはなぜいつもこれほど大騒ぎになっているのでしょうか?

ほぼすべての人がデータサイエンスに携わりたいと思っています。数年前、データサイエンスの分野では需要と供給の問題が発生していました。DJ Patil博士とJeff Hammerbacherがデータサイエンスという用語を作り出して以来、データサイエンティストの需要が大幅に増加し、関連する人材が不足しているようです。

2020年までに状況は改善しました。正式な教育や MOOC 教育を受けたデータサイエンス愛好家の数が増え、人材の需要も高まっていますが、前者ほどではありません。この用語はますます広範囲に及ぶようになり、データ サイエンスの作業に必要な機能のほとんどを網羅するようになりました。誰もがデータサイエンスについて話しますが、ほとんどの人は実際にそれをどのように行うのか知りません。

データ サイエンスが常に話題になっているのには、いくつかの理由があると思います。

  • 最先端の開発
  • 仕事への満足度が高い
  • ビジネスに大きなインパクト
  • データ生成の増加
  • データ サイエンティストという肩書きの背後にある神秘性
  • データは素晴らしいですね!(文字通りではありませんが~)
  • 多くの学校やブートキャンプがデータサイエンスの学位を提供しています
  • 多くの求人サイトでは、この職業を最もホットな職業として評価しています(過去 3 年間、Glassdoor によって米国で最もホットな職業として評価されています)。

自分をデータサイエンティストと呼ぶ人ですか?

人々はいつもこのように自己紹介をするので、業界の現状について真実をお話ししましょう。

求人需要の増加とデータサイエンティストの魅力的な肩書により、多くの企業が製品アナリスト、ビジネスインテリジェンスアナリスト、ビジネスアナリスト、サプライチェーンアナリスト、データアナリスト、統計学者の職をデータサイエンティストに変更し始めています。これは、多くの人が仕事を辞めてデータサイエンティストの職に応募する一方で、実際にはこれらの企業が提供する仕事は同じであることが多いためです。

多くの人は、自分の役職名の言葉が少し変わるだけで、尊重されていると感じます。そのため、企業は、データ サイエンティスト - アナリティクス、製品データ サイエンティスト、データ サイエンティスト - 成長、データ サイエンティスト - サプライ チェーン、データ サイエンティスト - 視覚化、データ サイエンティストなど、自社のポジションをより目立たせ、魅力的にするために、同じように職種名​​を変更しています。他に何を追加できないでしょうか?

教育やオンライントレーニングを受ける人のほとんどは、すべてのデータサイエンティストが高度な機械学習モデルを構築できると誤解していますが、この認識は完全に正しいわけではありません。これは私が応用データサイエンスの修士課程を始めたときに考えたことで、ほとんどのデータサイエンティストは機械学習を行っていると思っていました。

しかし、アメリカでインターンシップや仕事を始めると、徐々に真実がわかってきました。データ サイエンスへの移行の原動力となっているのは、人工知能とそのビジネスへの影響に関する誇大宣伝です。

次世代のデータサイエンティスト — 機械学習

2020 年現在、博士号を取得せずにデータ サイエンティスト ML トラック (データ サイエンティスト アナリティクス トラックではないためこのように呼ばれています) として応用機械学習を行おうとする人にとっては、データセットに機械学習を適用すること (これは誰でも実行できることです) 以外にも多くの選択肢があります。面接で役立つかもしれない、私の経験からいくつかの重要なポイントをお伝えします。

  • 分散データ処理/機械学習: 大規模なデータ/ML パイプラインを作成できることを示す、Apache Spark、Apache Hadoop、Dask などのテクノロジーの実践的な経験。これらのテクノロジーのいずれかの経験があれば有利ですが、Apache Spark (Python または Scala を使用) をお勧めします。
  • 実稼働機械学習/データ パイプライン: Apache Airflow を実際に体験してみるのは素晴らしいことです。 Apache Airflow は、データと機械学習のパイプラインを作成するための標準的なオープンソースのジョブ オーケストレーション ツールです。業界ではすでに使用されているので、これを学習して、それを中心にいくつかのプロジェクトを構築することをお勧めします。
  • DevOps/クラウド: データ サイエンスの分野では、多くの人が DevOps を過度に無視しています。インフラストラクチャがない場合、どのように ML パイプラインを構築しますか? コースで行ったように、ローカル マシンで実行されるノートブックやコードを構築するのは簡単ではありません。記述するコードは、自分またはチーム内の他のユーザーが作成するインフラストラクチャ全体で拡張可能である必要があります。

多くの企業はまだ ML インフラストラクチャを構築しておらず、開始するための人材を探している可能性があります。コース内でも、Docker、Kubernetes に慣れ、Flask などのフレームワークを使用して ML アプリケーションを構築することが標準的な実践になるはずです。 Docker が好きな理由は、そのスケーラビリティと、インフラストラクチャ イメージを構築して Kubernetes クラスター上のサーバー/クラウドにそれを複製する機能があるからです。

  • データベース: データベースとクエリ言語に関する知識は必須です。 SQL は見過ごされがちですが、クラウド プラットフォームやデータベースに関係なく、業界標準であり続けます。 leetcode で複雑な SQL の練習を始めると、前処理が完了したときにウェアハウスからデータをインポートする責任があるため、DS プロファイルのコーディング面接のセクションで役立ちます。これにより、ML モデルを実行する前の前処理が簡素化されます。ほとんどの特徴エンジニアリングは、SQL を使用してデータをモデルに転送するときに実行できますが、多くの人がこれを見落としています。
  • プログラミング言語: データサイエンスに推奨されるプログラミング言語は、Python、R、Scala、Java です。これらのいずれかを知っていれば、問題を解決するのに役立ちます。 ML タイプの求人の場合、面接プロセス中にライブ コーディングが行われるため、Leetcode や Hackerrank など、自分が効率的だと感じる場所で練習する必要があります。

現在、業界内で重要なコネクションを持っている(ネットワークは非常に重要です!)か、優れた研究実績を持っているという幸運に恵まれない限り、機械学習や統計を知っているだけでは、データサイエンスの分野に進み、ML を学ぶことはできません。ビジネスアプリケーションやドメイン知識には多くの場合、実務経験が必要ですが、関連業界でのインターンシップ以外では事前に取得することはできません。

私もデータサイエンスの岐路に立っており、現在、次世代のデータサイエンティストがこの分野に参入することへの需要が形になりつつあるのを目の当たりにしています。この業界は日々変化しており、それに追いつくためには常に自分自身を調整する必要があります。

この記事はWeChatの公開アカウント「Reading the Core」から転載したもので、以下のQRコードからフォローできます。この記事を転載する場合は、Duxinshu の公開アカウントにご連絡ください。

<<:  スマートシティ: 統合管理プラットフォーム

>>:  モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

ブログ    

推薦する

言葉はもっと欺瞞的だ! MITの最新研究:DeepFakeによる顔の加工はペンを使った編集ほど良くない

​DeepFake は発売以来、潜在的な「悪質な AI」としてリストアップされてきました。 有名な「...

世界トップジャーナルPNASに掲載されました!科学者たちは理論上のコンピューターに基づく意識モデル「意識のあるチューリングマシン」を提案した。

5月下旬、トップの国際学術誌である米国科学アカデミー紀要(PNAS)は、昨年10月に査読が受理され...

スーパーマーケットチェーンのシュナックスは、米国の111店舗にシムベのロボット技術を導入すると発表

海外メディアのTechCrunchによると、セントルイスに本拠を置くスーパーマーケットチェーン「シュ...

次世代人工知能の開発方向(第1部)

[[349500]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...

GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。最近、アメリカの有名なハッカーで...

IEEE | わずか1秒でドローンは地上で宙返りできる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Huawei の徐文偉氏: インテリジェントな未来を構想する (HC カンファレンス PPT + スピーチ全文)

第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...

限られたデータでモデルのパフォーマンスを最大化するにはどうすればよいですか? Baidu のエンジニアがデータ拡張サービスを構築

AI モデルの開発プロセスでは、トレーニング データが不十分なためにモデルのパフォーマンス向上が妨げ...

囲碁をプレイするのはとても簡単です。AlphaZero は量子コンピューティングをプレイし始めます!

過去数十年にわたる量子物理学技術の探求において、最も注目を集めているのは量子コンピュータです。 [[...

政府における人工知能の積極的な役割

近年、政府の間ではAIへの関心が高まっており、さまざまなAIベースのアプリケーションのパイロットプロ...

最先端の洞察 | ドローン配達が紛失しない理由はここにあります!

Frontier Insights の今号では、ドローンが商品を配送する際に進路を見つけやすくする...

...

エッジAIを活用してオフィスビルの適応性と効率性を向上させる方法

[[422558]]パンデミック後の世界では、企業幹部の 79% がハイブリッド ワーク モデルの採...