データ サイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう…

データ サイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう…

  [[317899]]

生産機械学習には組織的な問題があります。

この問題は、生産機械学習の比較的新しい性質による副産物です。

Web 開発などのより成熟した分野は、数十年にわたる調査を経て非常に高度なレベルまで研究されてきましたが、実稼働の機械学習はまだこの段階に達していません。

たとえば、スタートアップ企業で Web アプリケーションを開発するための製品エンジニアリング チームを構築する任務を負っているとします。チーム構築の経験がない場合でも、エンジニアリング チームの構築方法と成長方法に関する記事や書籍は数多く見つかります。

さて、あなたの会社が機械学習に取り組んでいるスタートアップだとしましょう。初期作業をリードするデータ サイエンティストを雇い、非常にうまく機能しています。機械学習が企業製品にますます不可欠なものとなり、データ サイエンティストがより多くの責任を負うようになるにつれて、機械学習チームを進化させる必要があることが明らかになりました。

この場合、実稼働の機械学習チームの構築方法に関する記事や書籍はそれほど多くありません。

これはよくあることであり、機械学習企業における新しい責任(特にインフラストラクチャ)がデータ サイエンティストによって担われることは珍しくありません。

これは正しくありません。

機械学習と機械学習インフラストラクチャの違い

これで、プラットフォーム エンジニアと製品エンジニアの違いは明らかです。同様に、データアナリストとデータエンジニアの間にも明確な違いがあります。

多くの企業では、機械学習に関する専門知識がまだ不足しています。

機械学習と機械学習インフラストラクチャを区別することがなぜ重要なのかを理解するには、それぞれの機能とそれぞれに必要なツールを確認すると役立ちます。

新しいモデルを設計してトレーニングするには、データ サイエンティストは次のことを行う必要があります。

  • ノートブックでデータを分析し、実験を実行することに時間を費やします。
  • データ構造やデータセットに適したモデル システムの選択などの問題を考慮してください。
  • Python、R、Swift、Julia などのプログラミング言語を使用します。
  • PyTorch や TensorFlow などの機械学習フレームワークの経験があること。

言い換えれば、データ サイエンティストの責任、スキル、ツールは、データを操作してモデルを開発することを中心に展開され、最終的な出力は最も正確な予測を提供できるモデルになります。

機械学習のインフラストラクチャは非常に異なります。

モデルを本番環境に導入する一般的なアプローチは、クラウドにマイクロサービスとしてデプロイすることです。モデルを本番環境 API としてデプロイするには、エンジニアは次のことを行う必要があります。

  • また、安定性、レイテンシ、コストを最適化するために、ファイル、エンドポイント、クラウド プロバイダー コンソールの割り当てにも重点を置きます。
  • インスタンスの自動スケーリング、モデルの更新(API がクラッシュしない場合)、GPU での推論の実行などの問題を考慮してください。
  • Docker、Kubernetes、Istio、Flask などのツールや、クラウド プロバイダーが提供するサービスやアプリケーション プログラミング インターフェースを使用します。

次の図は、機械学習と機械学習インフラストラクチャの違いを非常に鮮明かつわかりやすく示しています。

機械学習と機械学習インフラストラクチャ

直感的に言えば、データ サイエンティストは右側の円ではなく、左側の円を使って作業する必要があります。

専門家以外の人がインフラストラクチャを管理する場合の問題は何ですか?

機械学習インフラストラクチャを管理する担当者を任命する必要があるが、その人物をフルタイムでそのタスクに割り当てたくない場合は、次の 2 つのオプションがあります。

  • データサイエンティスト。機械学習に精通しているからです。
  • DevOps エンジニア。一般的なインフラストラクチャに精通しているためです。

どちらの選択肢にも問題があります。

まず、データ サイエンティストは、自分が得意とするデータ サイエンスにできるだけ多くの時間を費やす必要があります。インフラストラクチャの学習は難しくありませんが、インフラストラクチャとデータサイエンスはどちらもフルタイムの仕事であり、データサイエンティストの時間をこの 2 つに分割すると、仕事の質が低下します。

第二に、企業には機械学習インフラストラクチャを担当する専任の人員が必要です。本番環境でモデルを提供することは、Web アプリケーションをホストすることとは異なり、組織内で機械学習インフラストラクチャを宣伝できる、そのタスクに専念する人物が必要です。

こうした宣伝は極めて重要であることが証明されました。私はこれまで多くの機械学習企業と連絡を取ってきましたが、驚くべきことに、企業の内部メンバーが直面しているボトルネックは、技術的な課題ではなく、企業自体の内部の課題から生じていることがほとんどです。

たとえば、推論にグラフィックス プロセッシング ユニット (GPU) が必要な機械学習チームをいくつか見てきました。GPT-2 のような大規模なモデルでは、基本的に妥当なレイテンシを実現するために GPU が必要ですが、そのチームのインフラストラクチャは、費用を自ら負担したくない大規模な DevOps チームによって管理されていたため、GPU を入手できませんでした。

機械学習インフラストラクチャに専念する人がいるということは、インフラストラクチャを継続的に改善できるチームメンバーがいるだけでなく、チームのニーズを満たすことができるエバンジェリストもいることを意味します。

では、インフラを管理するのは誰でしょうか?

機械学習インフラストラクチャエンジニア。

このようなタイトルは、あまり共感できないかもしれません。タイトルはさておき、タイトルは言うまでもなく、実稼働機械学習はまだ開発の初期段階にあることを認めなければなりません。企業によって名前が異なる場合があります。

  • 機械学習インフラエンジニア
  • データサイエンスプラットフォームエンジニア
  • 機械学習プロダクションエンジニア

確立された機械学習企業(Spotify など)は、次のような役職を募集しています。


Netflix でも同様です。

Gmail のスマート作成、Uber の到着予定時刻予測、Netflix のコンテンツ推奨など、機械学習対応機能がソフトウェアで一般的になるにつれて、機械学習インフラストラクチャの重要性がますます高まります。

機械学習をサポートするソフトウェアが多数存在する未来を望むなら、インフラストラクチャのボトルネックを解消することが重要です。そのためには、これを真の専門知識として扱い、データ サイエンティストがデータ サイエンスに集中できるようにする必要があります。

データ サイエンティストに Kubernetes クラスターの管理を任せるのはやめましょう…

<<:  AI がモノのインターネットをよりスマートにする 5 つの方法

>>:  私の国における AI チップ開発の現状と見通しはどうですか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

顔認識の未来:スマートシティにとって何を意味するのか

顔認識技術は、スマートシティの安全を維持できる多数のアプリケーションをサポートする能力を備えています...

...

2022年の政府活動報告を聞いた後、人工知能業界が注目するべき点は以下のとおりです。

2022年全国人民代表大会と中国人民政治協商会議が開幕した。3月5日には2022年政府活動報告が発...

...

AIとIoTテクノロジーがメンタルヘルス問題の解決に役立つ4つの方法

IoT テクノロジーは、精神疾患に苦しむ患者の健康状態を改善する専門家の支援を補完することができます...

強化学習でデータ分析を行うにはどうすればいいでしょうか?シンガポール国立大学等によるTKDE 2022レビュー論文

データの処理と分析は基本的かつ広範囲にわたります。アルゴリズムはデータの処理と分析において重要な役割...

3分レビュー:2021年11月の自動運転業界の完全な概要

チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされたが、数か月の回復を...

大規模言語モデルに基づくインテリジェントエージェントのモデリングとシミュレーション:レビューと展望

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

GenAIがより良い回答を提供するためのヒント

GenAI は、ユーザーが独自の方法でデータをクエリし、ニーズに合わせた回答を受け取ることができるイ...

人工知能は宇宙人を発見するのに役立つかもしれない

米国の宇宙ウェブサイトによると、多くの科学者が人工知能(AI)を使ってエイリアン(学名は「地球外知的...

GPT-3オープンソースのPutianバージョン:事前学習済みモデルGPT Neoと同等の再現

[[389187]] GPT-3 はオープンソースですか? Eleuther AI のオープンソース...

...

人工知能と機械学習の違いと機能は何ですか?

人工知能と機械学習。これらの言葉だけでも、意思決定を行うコンピューターが部署や課全体に取って代わる世...

AV-TESTに再び認定されました! Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる

検出能力6点!パフォーマンス消費6ポイント!使いやすさ6点!先日、国際的に権威のある評価機関 AV-...