[51CTO.com 速訳] re:Invent 2017 カンファレンスで Amazon SageMaker が発表されました。AWS のマネージド機械学習サービスです。クラウドでの機械学習モデルのトレーニングとホスティングをサポートします。お客様は、NVIDIA Tesla K80 および P100 GPU を搭載したクラスターでトレーニング ジョブを実行できます。トレーニング ジョブの結果 (推論の準備が整ったモデル) は、スケーラブルな予測を可能にする REST API として公開されます。 このサービスはハイパーパラメータの調整もサポートしており、データ サイエンティストや開発者はアルゴリズムやビジネスの問題に最適なパラメータを見つけることができます。たとえば、一般的な回帰問題を解決するために、ハイパーパラメータ調整は、どのハイパーパラメータの組み合わせが最良の結果を達成する可能性が高いかを推測し、これらの推測をテストするためのトレーニング ジョブを実行します。最初のハイパーパラメータ値のセットをテストした後、ハイパーパラメータ チューニングでは回帰を使用して、テストする次のハイパーパラメータ値のセットを選択します。 Amazon SageMaker の重要な設計上の決定の 1 つは、開発ツールとして Jupyter Notebook を使用することです。データ サイエンティストの間でノートブックが広く知られ、人気があることを考えると、参入障壁は低いと言えます。 AWS は、NumPy、Pandas、Matplotlib などの標準モジュールと組み合わせて使用できるネイティブ Python SDK を開発しました。 Amazon SageMaker は関連する AWS サービスと緊密に統合されているため、モデルのライフサイクルを簡単に処理できます。 AWS 用の Python SDK である Boto3 を使用すると、ユーザーは Amazon S3 バケットからデータセットを保存および取得できます。クラウド データ ウェアハウスである Amazon Redshift からデータをインポートすることもできます。このサービスは、認証と承認のために IAM と統合されます。 Amazon EMR を使用して実行されている Spark クラスターは、SageMaker と統合できます。 AWS Glue は、データの変換と準備のための主要なサービスです。 Docker コンテナは SageMaker のアーキテクチャにおいて重要な役割を果たします。 AWS は、線形回帰、ロジスティック回帰、主成分分析、テキスト分類、オブジェクト検出などの一般的なアルゴリズムのコンテナイメージを提供します。トレーニング ジョブを開始する前に、開発者はデータセットの場所と一連のパラメーターをコンテナーに渡す必要があります。ただし、高レベルの Python API は、コンテナーの操作に必要な手順を抽象化します。 ***、トレーニング済みのモデルは、予測 API を表示するためのコンテナ イメージにもパッケージ化されます。 SageMaker は、イメージの保存に Amazon EC2 Container Registry を使用し、モデルのホスティングに Amazon EC2 を使用します。 Amazon SageMaker には、ホストされた Jupyter Notebook、分散トレーニングジョブ、予測エンドポイントをレンダリングするモデルデプロイメントという 3 つの基本コンポーネントがあります。 Amazon SageMaker にデプロイされた機械学習モデルのトレーニングと予測に必要な手順を詳しく見てみましょう。 データの準備と探索 Amazon SageMaker では、データセットが S3 バケットで利用可能である必要があります。データをアップロードする前に、お客様は AWS Glue、AWS Data Pipeline、Amazon Redshift などの外部サービスで ETL 操作を実行することを選択できます。 データ サイエンティストは、Pandas や Matplotlib などの使い慣れたツールを使用してデータを探索および視覚化できます。 データを準備して調査した後、データセットは SageMaker モデルに必要な形式に変換されます。このプラットフォームは Apache MXNet を基盤としているため、フレームワークで定義された Tensor データ型を使用します。データセットを S3 バケットにアップロードする前に、NumPy 配列と Pandas データフレームを MXNet Tensor にシリアル化する必要があります。 モデルの選択とトレーニング Amazon SageMaker には、トレーニング モデルの低レベルの詳細を抽象化するアルゴリズムが組み込まれています。各アルゴリズムは、データセットとメトリックをパラメータとして受け取る API として利用できます。これにより、トレーニングに適したフレームワークを選択する手間が省けます。開発者が使用するアルゴリズムを決定したら、あとはその特定のアルゴリズムにマップされた API を呼び出すだけです。 舞台裏では、SageMaker は Apache MXNet と Gluon フレームワークを使用して、API をジョブの作成に必要な複数のステップに変換します。これらのアルゴリズムは、Amazon ECR に保存されるコンテナイメージにパッケージ化されます。 SageMaker は、Apache MXNet に加えて、TensorFlow もネイティブ フレームワークとして公開します。開発者はカスタム TensorFlow モデルを作成するためのコードを記述できます。 PyTorch や Scikit-learn などのカスタム フレームワークを使用することもできます。 SageMaker では、これらのフレームワークをコンテナ イメージにパッケージ化する必要があります。 Amazon は、カスタムイメージを作成するための Dockerfile とヘルパー スクリプトを含む規範的なガイドを公開しています。低レベルの Python API を使用すると、トレーニングジョブを開始する直前に、Amazon SageMaker を組み込みイメージではなくカスタムイメージにポイントできます。 モデルトレーニング Amazon SageMaker トレーニングジョブは、Amazon EC2 インスタンスに基づく分散環境で実行されます。 API では、トレーニング ジョブを実行するために、インスタンスの数とインスタンス タイプが必要です。複雑な人工ニューラル ネットワークをトレーニングする場合、SageMaker では K80 または P100 GPU に基づく ml.p3.2xlarge 以上のインスタンスが必要です。 Jupyter Notebook から開始すると、トレーニング ジョブは同期的に実行され、基本的な進行状況ログが表示され、トレーニングが完了するまで待機してから戻ります。 モデルの展開 Amazon SageMaker でモデルをデプロイするには、2 つの手順が必要です。最初のステップは、モデルをデプロイする機械学習コンピューティングインスタンスを指定するエンドポイント構成を作成することです。 2 番目のステップは、機械学習コンピューティングインスタンスを起動し、モデルをデプロイし、予測用の URI をレンダリングすることです。 エンドポイント構成 API は、機械学習インスタンス タイプとインスタンスの初期数を受け入れます。ニューラル ネットワーク推論の場合、構成には GPU でサポートされるインスタンス タイプが含まれる場合があります。エンドポイント API は、前の手順で定義されたとおりにインフラストラクチャを構成します。 Amazon SageMaker は、オンライン予測とバッチ予測の両方をサポートしています。バッチ予測では、トレーニング済みのモデルを使用して Amazon S3 に保存されているデータセットを推論し、推論結果をバッチ変換ジョブの作成時に指定された S3 バケットに保存します。 Google Cloud Machine Learning Engine や Azure Machine Learning サービスと比較すると、Amazon SageMaker には、ローカル コンピューティング リソースを使用してモデルをトレーニングおよびテストする機能がありません。単純な機械学習プロジェクトでも、開発者はトレーニングと予測のためにホストされたノートブックとインスタンスを作成する必要があり、このサービスは高価になります。 Amazon は今年の re:Invent カンファレンスで SageMaker のいくつかの改善を発表する予定です。 元のタイトル: Amazon SageMaker を使用した機械学習モデルのトレーニングとデプロイ、著者: Janakiram MSV [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: 自然言語処理 (NLP) はコンピューター ビジョン (CV) よりも開発が遅く、より困難です。
>>: Pythonで簡単な顔認識を実装すると、私はこの星にとても似ていることが判明しました
[51CTO.com オリジナル記事] 古代の皇帝はハーレムに3000人の美女を抱えていたことは誰...
最近、世界中で地震が頻繁に発生しています。 1月1日、突然、マグニチュード7.6の地震が日本を襲い、...
ロビン・リーは標高3,500メートルで牛糞を拾い、泥を塗り、牛の皮を剥ぐという極めて型破りなことをし...
SVM は機械学習の分野における古典的なアルゴリズムの 1 つです。 SVM をニューラル ネットワ...
[[430680]]科学技術の継続的な発展により、人工知能は人間の生活のあらゆる側面に関わるだけでな...
多くの人が驚くことに、Web 開発の分野で常に人気がある JavaScript は、大規模言語モデル...
ディープラーニングの活発な分野として、グラフニューラルネットワークは人工知能科学者から幅広い注目を集...
この論文では、ビデオゲームをプレイするためのディープラーニングアルゴリズムをレビューし、さまざまな種...
生成型AI作成ロボットの登場以来、各界はロボットを使って記事や学術論文を書くようになりました。この状...
社会の発展に伴い、わが国の工場は徐々に手作業中心から設備中心へと変化し、人類の創造性が十分に反映され...
[[270043]]ビッグデータダイジェスト制作出典: floydhub編纂者:Luan Hongy...