[51CTO.com クイック翻訳] データから学習し、パターンを識別し、人間の介入を最小限に抑えて意思決定を行うことができるシステムは魅力的です。ニューラル ネットワークを使用する機械学習の一種であるディープラーニングは、オブジェクト分類からレコメンデーション システムまで、さまざまなコンピューティング問題を解決するための効果的なツールとして急速に普及しつつあります。ただし、トレーニング済みのニューラル ネットワークをアプリケーションやサービスに導入することは、インフラストラクチャ管理者にとって課題となる可能性があります。複数のフレームワーク、十分に活用されていないインフラストラクチャ、標準的な実装の欠如などの課題は、AI プロジェクトの失敗につながる可能性もあります。この記事では、これらの課題に対処し、データセンターまたはクラウドの運用環境にディープラーニング モデルを展開する方法について説明します。 一般的に、私たちアプリケーション開発者は、データ サイエンティストや IT 部門と協力して、AI モデルを本番環境に展開します。データ サイエンティストは、特定のフレームワークを使用して、さまざまなユース ケース向けに機械学習/ディープラーニング モデルをトレーニングします。トレーニング済みのモデルを、ビジネス上の問題を解決するために開発されたアプリケーションに統合します。 IT 運用チームは、データ センターまたはクラウドで展開されたアプリケーションを実行および管理します。 図1. ディープラーニング モデルを本番環境に導入する場合、大きな課題が 2 つあります。
では、何ができるでしょうか? NVIDIA の TensorRT 推論サーバーなどのアプリケーションを使用して、これらの課題に対処する方法を見てみましょう。 TensorRT Inference Server は、NVIDIA NGC リポジトリ (https://ngc.nvidia.com/catalog/containers/nvidia:tensorrtserver) からコンテナーとしてダウンロードすることも、GitHub (https://github.com/NVIDIA/tensorrt-inference-server) からオープン ソース コードとしてダウンロードすることもできます。 TensorRT 推論サーバー: 導入が簡単になります TensorRT 推論サーバーは、次の機能の組み合わせにより、トレーニング済みのニューラル ネットワークの展開を簡素化します。
図2
アプリケーションを開発する際には、リアルタイムの要件を理解する必要があります。 TensorRT 推論サーバーには、リアルタイム アプリケーションのレイテンシしきい値を設定するためのパラメーターがあり、バッチ処理を実装するためにゼロ以外の数値に設定できる動的バッチ処理もサポートしています。当社は、IT 運用チームと緊密に連携して、これらのパラメータが正しく設定されていることを確認します。
CPU 推論から GPU 推論に移行する方法を見てみましょう。
モデル構成ファイルを設定し、クライアント ライブラリを統合すると、TensorRT 推論サーバーをアプリケーション コードに簡単に統合できます。 トレーニング済みのニューラル ネットワークを展開するのは難しい場合がありますが、この記事ではそれを簡単にするいくつかの手法について説明します。コミュニケーションのためにメッセージを残していただければ幸いです。 原題: ディープラーニング モデルを本番環境に簡単に導入、著者: Shankar Chandrasekaran [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: MIT の新しい研究: ゼロから設計? AIにより誰もが服をデザインできるようになる
>>: サービスロボットは驚異的なユニコーンを生み出すことができるか?
著者についてCtrip のシニア モバイル開発エンジニアである Leo は、クロスエンド テクノロジ...
Pew Researchの分析によると、AI、特にAIGCの台頭は管理職や専門職に大きな影響を与える...
[[120924]] Weibo 環境において、Weibo ユーザーのソーシャル サークルや興味サー...
論文(継続的に更新):arxiv.org/abs/2310.19852 AI アライメント概要ウェブ...
「人間のニューラルネットワークはどのように機能するのか?」この質問は多くのデータ サイエンティスト...
人類は物質とエネルギーの新しい時代を迎えようとしているのでしょうか?未来のテクノロジーへの扉が開かれ...
2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...
[[407036]] [51CTO.com からのオリジナル記事]アルゴリズムの公平性は、近年、推奨...
LEACH プロトコルについてはあまり知られていないかもしれません。このプロトコルの説明は、低電力適...
英国の著名な分析機関オックスフォード・エコノミクスが発表したデータによると、今から10年後の2030...
[51CTO.com からのオリジナル記事] 先進的なクラウドサービスプロバイダーとして、AWS は...