最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、エンジニアリングや分析指向の役割へと移行しています。この変化を推進している要因は次のとおりです。

  • 機械学習モデルは実稼働システムでますます使用されるようになっており、データ サイエンティストにはこれまで以上に高度な技術スキルが求められています。
  • ビジネス製品とユーザー行動の変化のペースが加速し、自動化の必要性が高まっています。
  • さらに、データのコンプライアンスと規制要件により、予測と意思決定のためのデータの追跡可能性と説明可能性の必要性が高まっています。

[[332279]]

これらの変化する要因により、データ サイエンティストが使用するツールも変化しました。これにより、クラウド、自動化、説明可能性、反復可能なプロセスの活用を促進する方向に発展することができます。

クラウドベースの機械学習。クラウド インフラストラクチャと Kubernetes により、データ サイエンティストの機械学習へのアプローチ方法が変わりました。事前に構築されたソリューションを Saas アプリケーションとして使用できるようになることから、Kubernetes 上で完全な機械学習スタックを実行できるようになることまで。

AutoML とオーケストレーション。 AutoML はトレーニング モデルを簡素化し、データ準備、機能エンジニアリング、ハイパーパラメータの最適化、モデル選択への自動化されたアプローチを提供します。

説明可能かつ再現可能な ML。過去数年間で、モデルの予測とその背後にある重みを理解し、意味づけするのに役立つライブラリやツールがいくつか登場しました。 whatiftools、Lime、Shap、Manifold などのツールは、データ サイエンティストがこれを実現するのに役立ちます。

クラウドベースの機械学習

クラウドとKubernetesへの移行は昨今の大きなトレンドであり、機械学習エンジニアのDevOpsやデータ操作機能に対するニーズが高まっています。

ディープラーニングの急速な発展は機械学習の進歩を促進してきましたが、ディープラーニングにはより多くのコンピューティング リソースが必要であり、その使用率はワークロードによって大きく異なるため、より弾力性とスケーラビリティに優れたインフラストラクチャをサポートするには、Tensorflow エグゼキューターを Kubernetes 上で実行する必要があります。

もう 1 つの要因は、実稼働環境における機械学習の重要性が高まっていることです。この変化により、AWS SageMaker や Google Cloud ML Engine などのさまざまなクラウド プラットフォームの助けを借りて、プロトタイピング スタックと本番環境を緊密に統合する必要性が高まっています。これらのツールは、モデルのデプロイメントや API 構成などの機能を提供し、モデルを本番環境にプッシュするプロセスを簡素化します。

AutoML と機械学習ワークフロー

実稼働機械学習システムの重要性が増すにつれ、トレーニングから展開まで、機械学習バリューチェーン全体にわたる自動化の必要性が加速しています。自動化により、モデルの反復と改善が高速化されます。

AutoML は、モデルのトレーニング プロセスの周りに自動化レイヤーを提供し、反復的なタスクの一部を処理できます。ハイパーパラメータの最適化、機能およびモデルの選択などのタスクを処理できます。 Tpot や AutoKeras などのライブラリ、およびほとんどのクラウド プロバイダーが提供するサービスとしての機械学習には、現在、AutoML がソリューションの一部として含まれています。

自動化の必要性が高まるにつれて、さまざまな部分を調整するためのツールの必要性も高まります。 Airflow、Kubeflow、MLFlow、MetaFlow などのワークフロー ツールは、これを実現するために使用される主要なツールの一部です。機械学習プロセス全体をパイプラインとして処理し、データ取得からモデル提供までのエンドツーエンドのプロセスを調整する役割を担います。

説明可能かつ再現可能なML

コンプライアンスと規制は、機械学習モデルの構築方法に影響を与えます。解釈可能かつ再現可能なモデルを推進します。

説明可能性の面では、データ サイエンティストがモデルから意味を引き出すのに役立つさまざまなツールが登場しています。これらのツールは、さまざまなシナリオを評価し、変数の相互作用を分析し、モデル予測の解釈に役立つダッシュボードを提供します。 whatiftools、Lime、Shap、または Manifold は、このチャレンジのためのツールです。

モデルをデバッグするための信頼性の高い方法を提供するという利点に加えて、複製可能性は規制によって影響を受けるもう 1 つの側面です。ワークフロー ツールを使用して再現可能な機械学習パイプラインを作成することは常に可能でしたが、プロセスを簡素化するための特定のツールもいくつか登場しました。

DVC、Dolt、Weight and Biases (WANDB)、Dags Hub は、繰り返し可能な方法でモデルを簡単に構築できる特殊なツールの一部です。 DVC はモデルとデータセットの両方のバージョン管理を担当しますが、Dolt はデータセット自体に厳密に制限されています。 WANDB と Dags Hub は、モデルの構築/トレーニングの重みと結果を追跡することに重点を置いています。

要約する

機械学習ツールは、いくつかの予測ライブラリと Jupyter ノートブックを活用することに制限されなくなりました。現在、データ サイエンスを実行するには、クラウド、ワークフロー ツール、解釈、バージョン管理ツールを含む、より広範なツールセットを習得する必要があります。これらの追加された最新ツールは、データ サイエンスがより多くのエンジニアリング機能やビジネス機能を担うのに役立つはずです。

<<:  フロスト&サリバンは、倉庫管理用の自律配送ロボットの市場が2025年までに272億ドルに達すると予測している。

>>:  垂直型AIスタートアップと水平型AIスタートアップ: 異なる製品ルートの選択

ブログ    
ブログ    
ブログ    

推薦する

...

機械学習をマスターするのに役立つ13のフレームワーク

人工知能の重要な分野として、機械学習はますます利用されています。この技術をより早く習得するにはどうす...

Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

新しいプロジェクトは、Python で記述された機械学習アプリケーションをサポートするために使用でき...

人工知能の応用は何ですか?

近年の人工知能の波の台頭により、無人運転車が再び話題となり、国内外の多くの企業が自動運転や無人運転車...

公開鍵暗号を解読することは可能ですか?

Q: 正しくインストールされ、操作されていれば、公開鍵インフラストラクチャ (PKI) は破られな...

「ソースコード解析」仮想DOMアルゴリズムの実装方法

[[378869]]前回の記事「仮想 DOM が実際の DOM に進化する方法」では、仮想 DOM ...

マイクロサービスにおける電流制限ロジックとアルゴリズム

[[341117]]この記事はWeChatの公開アカウント「Invincible Coder」から転...

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に...

人工知能による画像認識では、データのラベル付けはどのように機能するのでしょうか?

画像処理技術の急速な発展に伴い、画像認識技術が生まれ、発展し、徐々に人工知能分野の重要な部分となり、...

家主は、あなたに賃貸するかどうかを決める前に、AIを使ってあなたの犯罪歴を審査しているかもしれない。

[[351784]]ビッグデータダイジェスト制作著者: miggyようやく気に入った家が見つかり、...

2024年に注目すべき5つの持続可能な技術

今年が進むにつれて、持続可能な開発をめぐる話題はますます高まるばかりであり、気候変動が近づいていると...

...

自動化はウエスタン証券のデジタル従業員にとっての出発点

金融テクノロジーと伝統テクノロジーの相互支援は、徐々に証券業界の発展の中核的な原動力となってきました...

顔認識に関する初の訴訟が法廷に。顔スキャンを拒否する権利は失われたのか?

今日では、顔認識技術は私たちの生活や消費の場面でますます利用されるようになっています。最近、「中国初...

スマートメーター: スマートなエネルギー管理への道

新型コロナウイルス感染症のパンデミックにより、配電事業者はメーターの読み取りとその後の請求という基本...