データサイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう…

[[317899]]

生産機械学習には組織的な問題があります。

この問題は、生産機械学習の比較的新しい性質による副産物です。

Web 開発などのより成熟した分野は、数十年にわたる調査を経て非常に高度なレベルまで研究されてきましたが、実稼働の機械学習はまだこの段階に達していません。

たとえば、スタートアップ企業で Web アプリケーションを開発するための製品エンジニアリングチームを構築する任務を負っているとします。チーム構築の経験がない場合でも、エンジニアリングチームの構築方法と成長方法に関する記事や書籍は数多く見つかります。

さて、あなたの会社が機械学習に取り組んでいるスタートアップだとしましょう。初期作業をリードするデータサイエンティストを雇い、非常にうまく機能しています。機械学習が企業製品にますます不可欠なものとなり、データサイエンティストがより多くの責任を負うようになるにつれて、機械学習チームを進化させる必要があることが明らかになりました。

この場合、実稼働の機械学習チームの構築方法に関する記事や書籍はそれほど多くありません。

これはよくあることであり、機械学習企業における新しい責任（特にインフラストラクチャ）がデータサイエンティストによって担われることは珍しくありません。

これは正しくありません。

機械学習と機械学習インフラストラクチャの違い

これで、プラットフォームエンジニアと製品エンジニアの違いは明らかです。同様に、データアナリストとデータエンジニアの間にも明確な違いがあります。

多くの企業では、機械学習に関する専門知識がまだ不足しています。

機械学習と機械学習インフラストラクチャを区別することがなぜ重要なのかを理解するには、それぞれの機能とそれぞれに必要なツールを確認すると役立ちます。

新しいモデルを設計してトレーニングするには、データサイエンティストは次のことを行う必要があります。

ノートブックでデータを分析し、実験を実行することに時間を費やします。
データ構造やデータセットに適したモデルシステムの選択などの問題を考慮してください。
Python、R、Swift、Julia などのプログラミング言語を使用します。
PyTorch や TensorFlow などの機械学習フレームワークの経験があること。

言い換えれば、データサイエンティストの責任、スキル、ツールは、データを操作してモデルを開発することを中心に展開され、最終的な出力は最も正確な予測を提供できるモデルになります。

機械学習のインフラストラクチャは非常に異なります。

モデルを本番環境に導入する一般的なアプローチは、クラウドにマイクロサービスとしてデプロイすることです。モデルを本番環境 API としてデプロイするには、エンジニアは次のことを行う必要があります。

また、安定性、レイテンシ、コストを最適化するために、ファイル、エンドポイント、クラウドプロバイダーコンソールの割り当てにも重点を置きます。
インスタンスの自動スケーリング、モデルの更新（API がクラッシュしない場合）、GPU での推論の実行などの問題を考慮してください。
Docker、Kubernetes、Istio、Flask などのツールや、クラウドプロバイダーが提供するサービスやアプリケーションプログラミングインターフェースを使用します。

次の図は、機械学習と機械学習インフラストラクチャの違いを非常に鮮明かつわかりやすく示しています。

機械学習と機械学習インフラストラクチャ

直感的に言えば、データサイエンティストは右側の円ではなく、左側の円を使って作業する必要があります。

専門家以外の人がインフラストラクチャを管理する場合の問題は何ですか?

機械学習インフラストラクチャを管理する担当者を任命する必要があるが、その人物をフルタイムでそのタスクに割り当てたくない場合は、次の 2 つのオプションがあります。

データサイエンティスト。機械学習に精通しているからです。
DevOps エンジニア。一般的なインフラストラクチャに精通しているためです。

どちらの選択肢にも問題があります。

まず、データサイエンティストは、自分が得意とするデータサイエンスにできるだけ多くの時間を費やす必要があります。インフラストラクチャの学習は難しくありませんが、インフラストラクチャとデータサイエンスはどちらもフルタイムの仕事であり、データサイエンティストの時間をこの 2 つに分割すると、仕事の質が低下します。

第二に、企業には機械学習インフラストラクチャを担当する専任の人員が必要です。本番環境でモデルを提供することは、Web アプリケーションをホストすることとは異なり、組織内で機械学習インフラストラクチャを宣伝できる、そのタスクに専念する人物が必要です。

こうした宣伝は極めて重要であることが証明されました。私はこれまで多くの機械学習企業と連絡を取ってきましたが、驚くべきことに、企業の内部メンバーが直面しているボトルネックは、技術的な課題ではなく、企業自体の内部の課題から生じていることがほとんどです。

たとえば、推論にグラフィックスプロセッシングユニット (GPU) が必要な機械学習チームをいくつか見てきました。GPT-2 のような大規模なモデルでは、基本的に妥当なレイテンシを実現するために GPU が必要ですが、そのチームのインフラストラクチャは、費用を自ら負担したくない大規模な DevOps チームによって管理されていたため、GPU を入手できませんでした。

機械学習インフラストラクチャに専念する人がいるということは、インフラストラクチャを継続的に改善できるチームメンバーがいるだけでなく、チームのニーズを満たすことができるエバンジェリストもいることを意味します。

では、インフラを管理するのは誰でしょうか?

機械学習インフラストラクチャエンジニア。

このようなタイトルは、あまり共感できないかもしれません。タイトルはさておき、タイトルは言うまでもなく、実稼働機械学習はまだ開発の初期段階にあることを認めなければなりません。企業によって名前が異なる場合があります。

機械学習インフラエンジニア
データサイエンスプラットフォームエンジニア
機械学習プロダクションエンジニア

確立された機械学習企業（Spotify など）は、次のような役職を募集しています。

Netflix でも同様です。

Gmail のスマート作成、Uber の到着予定時刻予測、Netflix のコンテンツ推奨など、機械学習対応機能がソフトウェアで一般的になるにつれて、機械学習インフラストラクチャの重要性がますます高まります。

機械学習をサポートするソフトウェアが多数存在する未来を望むなら、インフラストラクチャのボトルネックを解消することが重要です。そのためには、これを真の専門知識として扱い、データサイエンティストがデータサイエンスに集中できるようにする必要があります。

データサイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう…

<<: AI がモノのインターネットをよりスマートにする 5 つの方法

>>: 私の国における AI チップ開発の現状と見通しはどうですか?

Googleなどのテクノロジー大手が新技術を発表：人工知能が自ら進化できるようにする

ブログ

機械学習とデータサイエンスに関するこれらの 10 冊の無料書籍を読みたくないですか?

ブログ

データサイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう…

Googleなどのテクノロジー大手が新技術を発表：人工知能が自ら進化できるようにする

AIが再び人間に勝つ：たった1枚の自撮り写真から人の性格を判別

SQLデータベースに基づくアルゴリズムを学ぶ

人工知能と機械学習に対するあなたの理解を完全に覆す10の成功ビジネスストーリー

マスク氏がxAI設立を正式発表！清華大学の卒業生がGoogle + OpenAIチームに参加し、宇宙の究極の答えを解読

機械学習とデータサイエンスに関するこれらの 10 冊の無料書籍を読みたくないですか?

推薦する

顔認識の未来：スマートシティにとって何を意味するのか

2022年の政府活動報告を聞いた後、人工知能業界が注目するべき点は以下のとおりです。

AIとIoTテクノロジーがメンタルヘルス問題の解決に役立つ4つの方法

強化学習でデータ分析を行うにはどうすればいいでしょうか?シンガポール国立大学等によるTKDE 2022レビュー論文

3分レビュー：2021年11月の自動運転業界の完全な概要

大規模言語モデルに基づくインテリジェントエージェントのモデリングとシミュレーション：レビューと展望

GenAIがより良い回答を提供するためのヒント

人工知能は宇宙人を発見するのに役立つかもしれない

GPT-3オープンソースのPutianバージョン：事前学習済みモデルGPT Neoと同等の再現

人工知能と機械学習の違いと機能は何ですか?

AV-TESTに再び認定されました！ Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる

Pythonの機械学習ツールとライブラリはカテゴリ別に整理されているので、ツールを探すのに悩む必要はありません。