EasyDLコンピューティング機能:10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

EasyDLコンピューティング機能:10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

科学研究、金融、小売から工業、農業まで、ますます多くの業界やビジネス シナリオで、効率の向上とコストの削減のために人工知能が適用されています。人工知能は、産業の高度化と人間の生活の向上においてますます重要な役割を果たしています。開発者が AI モデルを展開する場合、使用シナリオの問題に直面します。つまり、使用シナリオやビジネス上の問題によって、モデルの展開方法が異なります。

AI モデルにはさまざまな展開方法があります。一般的なモデルの展開形式は、サーバー展開と組み込み展開の 2 種類に分けられます。サーバー展開とは、CPU/GPU 上にモデルを展開して、呼び出し可能な API インターフェイスを形成することを指します。クラウド サーバー展開とローカル サーバー展開は、必要に応じて選択できます。組み込み展開とは、スタンドアロンのオフライン操作のためにエッジ側またはエンド側の組み込みデバイスに展開することを指します。次の表は、これら 2 つの展開方法の特性を比較したものです。ユーザーのモデル適用シナリオにネットワーク カバレッジがない場合、ビジネス データが比較的機密性が高い場合、または予測遅延の要件が高い場合は組み込み展開が選択されることが多いです。

組み込み展開方式には、リアルタイム応答、ネットワークオーバーヘッドの低さ、プライバシー保護、高いエネルギー効率比などの利点がありますが、同時に、エッジデバイスの種類が多岐にわたるため、適応と展開が困難です。

Baidu と Boston Consulting Group の共同調査では、カスタマイズされたビジネス モデル要件を持つ顧客のうち、35% 以上のシナリオでオフライン エッジ コンピューティングの要件があることがわかりました。前述のように、デバイスの多様性により、エッジ コンピューティングの研究開発および展開コストはクラウド展開よりも高く、実際のビジネス シナリオでは、エッジで実行されるモデルのレイテンシと安定性に対する要件が非常に高いことがよくあります。そのため、カスタマイズされたモデルをさまざまな端末デバイスに展開する方法が技術的な課題となっています。

多様な展開形態に対する開発者のニーズを満たすために、Baidu Brain のワンストップ AI 開発プラットフォーム EasyDL は、パブリック クラウド展開、ローカル サーバー展開、デバイス側 SDK、ハードウェアとソフトウェアの統合ソリューションなど、複数の展開方法をサポートしています。 EasyDL は、PaddlePaddle をベースにした企業向けのワンストップ開発プラットフォームです。インテリジェントなラベリング、モデル トレーニング、サービス展開などのフルプロセス機能を提供します。豊富な事前トレーニング済みモデルが組み込まれており、PaddlePaddle マスター モードを完全にサポートしています。さまざまなグループの人々やニーズに合わせて、クラシック エディション、プロフェッショナル エディション、リテール エディションの 3 つのバージョンを提供しています。

EasyDL は、さまざまなビジネス シナリオや動作環境に適したさまざまな展開方法をサポートしており、開発者はニーズに応じて柔軟に選択できます。また、最も一般的な x86、ARM、Nvidia-GPU から NPU や FPGA まで、幅広いデバイスをサポートしており、10 種類以上のハードウェアをサポートしています。 Baidu PaddlePaddle ディープラーニング プラットフォームの関連機能のサポートにより、EasyDL は強力なエンド コンピューティング展開機能を備えています。エンド コンピューティング モデルを生成する際には、一連の最適化、加速、圧縮機能が実行されます。

この一連の機能の説明は、ネットワーク構造とチップ機能という 2 つの側面から始めることができます。

ネットワーク構造レベルでは、op fusion (conv-add-relu、conv-bn など)、fp16/int8 量子化、モデル プルーニングなどの最適化が実行されます。

最近リリースされたARM 固定小数点量子化を例にとると、その利点としては、メモリ帯域幅の低さ、消費電力の低さ、コンピューティング リソースの使用量が少ないことが挙げられます。一部のネットワークでは、モデル圧縮が 4 倍、メモリ帯域幅が 4 倍向上しキャッシュ利用効率が向上します。多くのシナリオでは、固定小数点量子化によってネットワークの精度がさらに低下することはありません。量子化は主に、トレーニング後の量子化と量子化を考慮したトレーニングの 2 つのカテゴリに分けられます。前者は、KL ダイバージェンスなどの方法を使用して量子化パラメータを決定し、再トレーニングを必要としない固定小数点量子化方法です。後者は、トレーニング済みのモデルを再トレーニングし、量子化パラメータをモデル化します。量子化トレーニング プロセス中、順方向伝播ワークフローは次のように表現できます。

シミュレートされた量子化トレーニングフォワードプロセスに基づく同等のワークフロー

トレーニング量子化プロセスでは、元のネットワーク演算子の前後に連続量子化演算子と逆量子化演算子が挿入され、対応する逆演算子の入力が変更されます。評価フェーズでは、量子化演算子のパラメータが量子化された値に変更されます。最後に、モデルファイル内のパラメータのデータ型が、PaddleLite ツールを使用して、int8 のナイーブ バッファ形式に変更されます。

今後のバージョンアップグレードでは、EasyDL は引き続きモデルプルーニングの最適化を開始します。感度に応じて最適なクロッピング率の組み合わせを選択し、部分畳み込みとクロッピングを行うことで、モデル体積を半分以下に削減し、精度損失を1%未満に抑える最適化効果が得られます。固定小数点量子化とそれに続く蒸留戦略と組み合わせることで、モデルのサイズと推論速度がさらに包括的に最適化されます。

チップ レベルでは、EasyDL は特定のハードウェア タイプに基づいて特別な最適化を実行します。たとえば、ARM64 では、チップが NEON をサポートしている場合、16 個の 128 ビット レジスタを最大限に活用して浮動小数点計算を最適化します。NVIDIA GPU デバイスでは、EasyDL は TensorRT ライブラリを使用してサブグラフを計算し、加速します。Apple の電話では、推論の加速に CoreML エンジンを使用します。Huawei の電話では、DDK がサポートされている場合、推論に Huawei HiAI エンジンを呼び出します。さらに、EasyDL は、Intel の MKL OpenVino や Qualcomm の SNPE などの推論エンジンもサポートしています。一部のプラットフォームでは、特定のディープラーニング ネットワークとチップの種類に基づいて合理的な自動選択を行うことが可能であり、精度を確保しながらチップの機能を最大限に活用し、推論速度を大幅に向上させることができます。ネットワークやハードウェアなどのさまざまなレベルで最適化すると、モデルのサイズ、メモリ使用量、推論速度のパフォーマンスが向上します。一部のモデルの推論速度は数倍以上向上する可能性があります。

最近、EasyDL は、開発ボードとサーバーのシナリオを考慮しながら、最新の DaVinci アーキテクチャ Ascend 310 AI プロセッサをサポートできる Huawei Atlas 200 および Atlas 300 アクセラレータ カードのサポートを開始しました。 EasyDL の既存の最適化テクノロジーと組み合わせることで、EasyDL の高性能モデルで 6 ミリ秒のパフォーマンスを実現できます。マルチバッチ最適化を有効にすると、1 枚の 300 アクセラレータ カードで 1 秒あたり最大 1,000 枚の画像を処理できます。

EasyDL プラットフォームでは、モデルの高速化と最適化の全プロセスがシステム内で自動的に完了します。ユーザーはシナリオのニーズに応じて特定のハードウェアを選択するだけで、対応するハードウェアに適合したエンド コンピューティング展開パッケージが自動的に生成されます。現在、モデルを公開する際に、ユーザーは「同時に高速バージョンを取得する」にチェックを入れるだけで、EasyDL バックエンドがユーザーのために量子化や圧縮などの最適化機能を備えた高速バージョン SDK とモデルを自動的に生成します。ユーザーはそれを直接ダウンロードして使用することができ、使用プロセスは基本的に同じです。さらに、展開パッケージは非常に迅速かつ簡単に使用できます。ユーザーは、ディープラーニングや特定のハードウェアなどの基盤となるロジックに注意を払う必要はなく、入力画像と出力認識結果のみに集中する必要があります。

現在、多くの企業がEasyDLプラットフォームを活用し、特定の業務シナリオに基づき、少量の業務データのみで高精度なAIモデルをトレーニングし、利用シナリオや運用環境に応じて適切な導入方法を選択しています。利用の敷居が低く、便利で高速な高速SDKは、定量的な圧縮などの機能を備えており、ますます多くのビジネスシナリオで役割を果たし、ビジネスニーズを迅速に解決しています。

今すぐ EasyDL をお試しください: https://ai.baidu.com/easydl/

<<:  2020年の人工知能開発動向予測

>>:  権威あるレポート:テンセントクラウドAIパブリッククラウドの市場シェアが初めて中国でトップ3にランクイン

ブログ    
ブログ    

推薦する

あなたを飛び立たせる5つの迅速なフレームワークモデル

今日のデジタル化が進む世界では、人工知能は私たちの日常生活に欠かせないものとなっています。特に、プロ...

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。 「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

AIエージェントがまた衝撃的なニュースをもたらしました。AIエージェントが直接監督に昇進し、「サウス...

...

人工知能とモノのインターネットはどこへ向かうのでしょうか?

モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...

2020年から2024年までの中国のインテリジェント交通産業の予測分析

[[374436]] 1.1 中国の数千万規模のインテリジェント交通プロジェクトの競争環境中国投資産...

...

人工知能を無料で学べるトップ 10 ウェブサイト

多くの人が人工知能に非常に興味を持っていますが、どこから始めればよいか分かりません。次に紹介する 1...

...

リカレントニューラルネットワークの簡単な紹介

リカレント ニューラル ネットワーク (RNN) とは何ですか? どのように機能しますか? どこで使...

Python とディープニューラルネットワークを使用して画像を認識する方法は?

[[219378]]見れば分かります。わずか 12 行の Python コードで、独自のマシン ビ...

AIと人間: 人工知能は常に進歩し、人間は常に進化している

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

AI 実践者が習得する必要がある 10 種類のディープラーニング手法: バックプロパゲーション、転移学習、勾配降下法...

機械学習への関心は過去 10 年間で爆発的に高まりました。ほぼ毎日、さまざまなコンピューターサイエン...

...

...

AI開発者の皆さん、こちらをお読みください: 主流のモバイルディープラーニングフレームワークの包括的なレビュー

PCと比較すると、モバイルデバイスは携帯性に優れており、普及率も高くなっています。近年、モバイルデバ...