2017年データサイエンスおよび機械学習業界現状調査:Pythonが最も人気のある言語

2017年データサイエンスおよび機械学習業界現状調査:Pythonが最も人気のある言語

[[209261]]

今年、Kaggle はデータ サイエンスと機械学習の状況を包括的に理解することを目的として、人工知能分野に関する初の詳細な調査を実施しました。この調査には 16,000 件を超える回答が寄せられました。膨大な調査データにより、実務者、業界の動向、業界への参入方法に関するデータサポートが得られます。以下のレポートには、この調査から得られたいくつかの重要な結果が含まれています。

  1. Python はおそらく機械学習で最もよく使われるプログラミング言語ですが、統計学者の間で最もよく使われる言語は R です。
  2. データサイエンティストの平均年齢は約 30 歳ですが、この数字は国によって異なります。たとえば、インドの回答者の平均年齢はオーストラリアの回答者の平均年齢よりも 9 歳若いです。
  3. 回答者の中で最も一般的な教育レベルは修士号ですが、最高給与(15万ドル以上)を得ている人の中では、博士号を取得している人の方が多くなっています。

Kaggle は調査の匿名化されたデータセットを研究用に公開しており、こちらからダウンロードできます: https://www.kaggle.com/kaggle/kaggle-survey-2017。

職場でデータを扱うのは誰ですか?

データ実践者を分析する方法は数多くありますが、この記事では、データ サイエンス実践者の業務、経歴などに関する人口統計情報から始めます。

何歳ですか?

下の図からわかるように、この調査の回答者の平均年齢は約 30 歳ですが、この値は国によって異なります。たとえば、インドの回答者の平均年齢はオーストラリアの回答者の平均年齢よりも 9 歳若かった。

現在の雇用状況はどうなっていますか?

回答者のうち65.7%がフルタイムの仕事に就いていると答えた。

ポジションは何ですか?

データ サイエンティストはコードを使用してデータを分析する人として定義されていますが、データ サイエンスの分野は幅広い職種をカバーできることがわかります。たとえば、イランやマレーシアでは、データサイエンス従事者の最も一般的な職名は「科学者または研究者」です。

フルタイム勤務の場合の年間給与はいくらですか?

中央値は 55,441 ドルですが、多くの人がフルタイムの仕事に就いていない (収入が 0) ため、この数字は正確ではありません。当社の調査では、「報酬と福利厚生」は「キャリア開発の機会」よりもわずかに低い順位にランクされましたが、それでも妥当な報酬がいくらであるかを知っておくことは良いことです。米国では、機械学習エンジニアが家に持ち帰る最も一般的なものはベーコンです。

最大値を超えているため表示されていない回答が 131 件ありますが、中央値には含まれています。

***あなたの学歴は何ですか?

別の学位が必要ですか? 一般的に、データ サイエンスの専門家の間で最も一般的な学位は修士号ですが、最も高い給与 (15 万ドルから 20 万ドル以上) を得ている人のほとんどは博士号を取得しています。

回答者のほとんどは30歳前後で、修士号を持ち、年収は約55,000ドルで、データサイエンティストの職に就いていました。しかし、現実はそれほど均等に分配されていません。これらの最初のいくつかの人口統計に関する質問は、複雑な Kaggle データ サイエンス コミュニティにおける年齢、性別、国籍、役職、給与、経験、教育の多様性の表面に触れたにすぎません。

データサイエンティストは何をしますか?

私たちはデータ サイエンティストを、データを分析するためのコードを書く人として定義しています。彼らの日々の業務には何が含まれているのでしょうか? 以下に調査結果を示します。

仕事ではどのようなデータサイエンス手法を使っていますか?

ロジスティック回帰は、ニューラル ネットワークがより頻繁に使用される国家安全保障の分野を除き、職場で最も一般的に使用されるデータ サイエンス手法です。一般的に、データ サイエンスでは、古典的な機械学習アルゴリズムがより一般的に使用されています。単純な線形分類器と非線形分類器は、データ サイエンスで最も一般的なアルゴリズムですが、強力な統合方法も非常に人気があります。

職場で最もよく使われるプログラミング言語は何ですか?

Python は、データ サイエンティストの間で最も一般的に使用されている言語であり、最も一般的に使用されているデータ分析ツールです。しかし、多くのデータ サイエンティストは依然として R 言語に忠実です。

仕事でよく使われるデータ型は何ですか?

リレーショナル データは、開発者が仕事で最もよく使用するデータ タイプです。これは、ほとんどの産業エンジニアがこの種のリレーショナル データに非常に関心を持っているためです。学術研究者や防衛・安全保障業界は、テキストと画像に重点を置いています。

職場でコードを共有するにはどうすればよいですか?

多くの回答者 (58.4%) が職場でコードを共有するために Git を使用していますが、大企業の開発者はコードをローカルに保存し、電子メールなどのファイル共有ソフトウェアを介して共有する傾向が強いです。スタートアップ企業は、より迅速な対応を維持するためにクラウドで共有する必要があるかもしれません。

仕事で遭遇する主な障害は何ですか?

明らかに、ダーティ データが第 1 位にランクされています。つまり、データ サイエンティストが直面する最も一般的な問題は、データに対して大量の前処理を実行する必要があることです。データの前処理に加えて、データ サイエンティストを悩ませる問題は他にもたくさんあります。たとえば、多くの機械学習アルゴリズムには独自の専門分野があるため、そのパフォーマンスを理解するのは難しい場合があります。

初心者のデータサイエンティストはどのようにしてこの分野に参入できるのでしょうか?

新しいキャリアを始めるときは、他の人の成功事例を参考にすると役に立つことがあります。私たちはデータサイエンス業界で働く人々にアンケート調査を行い、彼らがどのようにしてこの業界に参入したかを尋ねました。私たちのお気に入りの提案をいくつかご紹介します。

初心者のデータサイエンティストに学ぶことを勧める言語は何ですか?

データ サイエンティストはそれぞれ、言語の選択に関して独自の考えを持っています。 Python または R のみを使用した人が正しい選択をしたことが判明しました。しかし、R と Python を使用したことがある人に尋ねると、Python を推奨する可能性が 2 倍になります。

どのようなデータサイエンス学習リソースを使用していますか?

データ サイエンスは急速に進化している分野であり、学習して最先端の知識を身に付けるのに役立つ貴重なリソースが数多くあります。すでにデータサイエンスの分野で働いている人は、Stack Overflow の Q&A、カンファレンス、ポッドキャストをより多く利用する傾向があります。コンテンツやオープンソース ソフトウェアを公開する場合は、その分野の初心者は通常、公式ドキュメントを使用したり、YouTube 動画を視聴したりする傾向があることを常に覚えておいてください。

オープンソースのデータはどこから入手していますか?

データがなければ、データサイエンスは存在しません。データ サイエンスのスキルを習得する場合、プロジェクトの練習や開発に使用するクリーンなオープン ソース データセットを見つける方法を知ることが重要です。当社のデータセット アグリゲータがデータ サイエンス コミュニティのメンバーの間で最も使用されるツールになりつつあることを嬉しく思います。

仕事を見つける方法と見つける方法は?

仕事を探すとき、企業の Web サイトにアクセスしたり、特定の技術分野の求人情報で機会を探したりする人もいるかもしれませんが、データ サイエンスの分野で働く人々の経験によると、これらの方法は間違いなく最悪の選択肢です。彼らにとって最善の選択肢は、採用担当者に直接連絡するか、独自のネットワークを構築してその分野に参入することです。

注: 回答者が 50 人未満のグループは「その他」のカテゴリにまとめられました。一部の棒グラフは、美観上の目的で拡大縮小されています。

<<:  ビッグデータの時代では、ソフトウェアエンジニアは徐々に減少し、アルゴリズムエンジニアが増加しています。

>>:  プログラマーは30歳で転職すべきでしょうか?曲がるならどちらの方向がいいでしょうか?

ブログ    

推薦する

AIと新技術が商業用不動産投資に革命を起こす

商業用不動産業界は進化を遂げており、人工知能 (AI) などのテクノロジーが、このダイナミックな市場...

人工知能は諜報機関の「大物」になると期待されている

諜報活動は私たちが想像するよりもはるかに退屈で複雑です。現在、米国の諜報機関は、手作業に代わる人工知...

Meituと中国科学技術大学が共同で顔面修復法DiffBFRを提案

ブラインド フェイス リストレーション (BFR) は、低品質の顔画像から高品質の顔画像を復元するこ...

この記事では、さまざまな教師なしクラスタリングアルゴリズムのPython実装について簡単に説明します。

教師なし学習は、データ内のパターンを見つけるために使用される機械学習技術の一種です。教師なし学習アル...

速報です! OpenAIがByteDanceアカウントを禁止!コンテンツ生成のための GPT の不正使用に関する内部告発

ノアが編集海外メディアのザ・ヴァージは北京時間今朝未明、生成AIをめぐる熾烈な競争の中で、バイトダン...

人工知能時代の機械の未来

この記事では、人間が持っているが機械がまだ獲得していないいくつかの必要な能力を列挙し、現在の開発動向...

...

Python の高度なアルゴリズムとデータ構造: コレクションの高速クエリとマージ

コード設計では、このようなシナリオによく直面します。2 つの要素が与えられた場合、それらが同じセット...

未来を決定づけるトップ10の人工知能技術

人工知能 (AI) は単なるテクノロジーの流行語ではありません。私たちの生活や仕事のやり方を急速に変...

...

コロナウイルス流行中のIoTの真実と虚構を区別する

モノのインターネットは長い間、インターネットの第2フェーズとして宣伝されてきましたが、現在、コロナウ...

最初のソフトウェア特許取得者は93歳で亡くなった。彼はソフトウェアの知的財産権保護を獲得した。

世界初のソフトウェア特許を保有していた人物が亡くなった。彼の名前はマーティン・アルビン・ゲッツで、「...

ロボットの開発について冷静に考える:ロボットは本当にあなたの仕事を奪うのでしょうか?倫理的価値観の再構築のきっかけとなるか?

2017年世界ロボット会議の開催を機に、ロボットに関する話題が一気に盛り上がってきました。では、ロ...