KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

1日あたり2億人以上のアクティブユーザーを抱える快手には、130億本以上の短編動画が蓄積されており、現在も毎日1,500万本以上の短編動画がアップロードされており、超大容量データの応用シーンは多岐にわたります。快手社のインフラの規模は、すでに国内トップクラスのインターネット企業に数えられる。現在、Kuaishouのサーバーの規模は10万台を超え、データ総量はEBレベルに達し、毎日追加される新規データ数は5PBを超えています。

快手サーバ選定・業務最適化チーム(以下、「快手SATチーム」)は、数千億のデータ量の処理とインフラの安定的かつ効率的な運用を確保するため、パートナーであるNVIDIAの新世代Turingアーキテクチャに基づくTESLA T4/V100を選択し、業界で初めてコンピューティングアーキテクチャの新たなアップグレードを完了しました。

快手SATチームのメンバーは経験豊富で、一人当たり平均約10年の職務経験があるという。ハードウェアを中心とするメンバーは、主に国内外の大手サーバーやハードウェアメーカー出身で、ソフトウェアを中心とするメンバーは、主に国内の大手インターネット企業出身である。 2億人を超えるKuaishouの毎日のアクティブユーザーに強力なサポートを提供するのは、ソフトウェアとハ​​ードウェアを組み合わせたこのようなチームです。

快手SATチームの研究開発担当者によると、動画推奨プラットフォーム、音声・動画理解、リスク管理、商業広告、強化学習など、快手のビッグデータ応用シナリオはすべて同社の中核事業であり、多くの業務シナリオで大規模なデータ処理需要がある。NVIDIAが新しいTeslaアーキテクチャ製品を発売した後、SATチームはTESLA T4/V100 GPUの導入を最優先事項に挙げ、新世代のGPUと既存のコンピューティングプラットフォーム(CPU、FPGAなど)を組み合わせて、TESLA T4を新しいパッケージに導入すると同時に、社内のコアビジネスにできるだけ早く適応させ、ハードウェアインフラストラクチャが業界の最先端にあることを確保した。

GPU アーキテクチャの最適化によりパフォーマンスが 2 倍向上し、コストが 30% 削減されます。

快手は急速に拡大するビジネスニーズに対応するために、パッケージ数が分散しすぎないようにしながら、柔軟で変化するビジネスニーズに可能な限り対応し、同時にコスト最適化の目標を考慮する必要があり、直面する問題は非常に複雑です。需要と複雑さのバランスをとるために、Kuaishou SAT チームは最終的に、さまざまなビジネス シナリオのさまざまなニーズを満たすために、仮想化コンテナーと組み合わせた 2 つの GPU パッケージを導入することを決定しました。

実際のコンピューティングでは、GPU サーバー、特にマルチカード GPU サーバーでは、CPU パフォーマンスがボトルネックになるという問題が一般的に発生します。 CPU パフォーマンスのボトルネックと GPU 使用率の低さという問題を解決するために、Kuaishou SAT チームとアルゴリズム チームは、Resnet50/SSD 上で Resize、Augment などを CPU から GPU に移行することで、CPU の負荷を徐々に GPU に移行し、GPU の強力な計算能力をさらに活用して CPU を解放し、CPU と GPU 間のバランスの取れた計算効果を実現しました。

GPU 間のパフォーマンスのバランスをとることも別の問題です。一部のビジネス シナリオのモデルは非常に大きく、単一の GPU メモリではモデル全体を保存できないことがよくあります。この場合、モデルは通常メモリに保存され、CPU が対応する計算を実行します。Kuaishou SAT チームは、CPU アフィニティを最適化することで、負荷の不均一性と検索パスが長くなる問題を回避します。

Kuaishouのトレーニングモデルには、より高い精度が求められます。以前は、FP32が一般的に使用されており、モデルは比較的大きかったです。現在、混合精度が徐々に使用され、元のソリューションに取って代わられ、パフォーマンスが大幅に向上しました。 実際の使用において、Kuaishou SAT チームは、AMP (Automatic Mixed Precision) は使いやすいものの、すべてのビジネスに適しているわけではないことも発見しました。そのため、Kuaishou SAT チームとビジネス チームは、FP32、AMP、手動混合精度を組み合わせたさまざまな方法を一緒に試して、ビジネス側のトレーニングにコンピューティング パフォーマンスを提供する必要があります。

トレーニング モデルと比較すると、推論モデルは一般にバッチ サイズが小さく、メモリへの頻繁な読み取りと書き込みアクセスが必要になるという問題があります。同時に、推論に必要な精度はトレーニングほど高くありません。これらの問題を解決し、新しいアーキテクチャで Tensor Core のパフォーマンスをより有効に活用するために、Kuaishou SAT チームは TensorRT を導入し、企業が GPU 上で迅速に使用できるようにすることで、実行速度が大幅に向上し、コンパイルされたコードが占有するメモリのサイズが大幅に削減されました。

H264 のデコード: T4 / P4 = 約 2.6 倍、Hevc のデコード: T4/P4 = 約 4 倍。 T4 の 2 つの nvdec エンジンにより、Hevc での高パフォーマンスが実現します。Hevc のデコード時には H264 よりも多くの計算ユニットが使用されます。

T4 の高速プリセットは、品質と同時使用の点で P4 の低速プリセットとほぼ同等です。

TensorRT-Inference-Serverを使用すると、テキスト分類と比較してパフォーマンスが約2倍向上します。

上記の比較チャートから、現在の GPU コンピューティング アーキテクチャの最適化により、ビジネスのパフォーマンスが平均 2 倍向上し、コストが以前に比べて 30% 以上節約されていることがわかります。

ソフトウェアとハ​​ードウェアを組み合わせて実装を最適化する

新製品の機能が Kuaishou のビジネスをより良くサポートできるように、Kuaishou の SAT チームは完全なプロセス ソリューション セットを提供します。ビジネス利用要件を理解した上で、現在のボトルネックや高頻度利用リソースを分析し、ハードウェア製品を合理的に選択し、これらの製品を迅速にパッケージに統合します。新しいハードウェアには、多くの場合、いくつかの新しいフレームワークと命令セットのサポートが伴います。たとえば、TESLA T4 の FP16 サポートにより、T4 のパフォーマンスが大幅に向上します。ビジネス部門は、これらの新機能を参考にしてコードを最適化し、オンラインで展開しました。 Vtune/Nsight などのツールでコードを分析し、非効率的な部分を最適化し、最終的に結果をグレースケールでオンラインで提示することで、Kuaishou は効率とスピードを追求し、常に最先端の技術を維持しています。

(図:Kuaishouの選定と発売のプロセス)

(図:プラットフォームモジュールに導入されたKuaishouの新しいハードウェア/テクノロジー)

障害が発生する前に防止するためのカスタマイズされた監視

使用が最初のステップであれば、運用と保守が 2 番目のステップになります。 Kuaishou SAT チームは、GPU 監視のために 3 つのことを行いました。1 つ目は自社開発の GPU 使用状況監視、2 つ目はカスタマイズされた GPU 障害監視、3 つ目は GPU 障害予測です。

GPU の使用状況を監視することで、企業は負荷状況をよりよく理解し、以前に選択した構成の合理性を検証できるようになります。一般的に、業界ではGPUの使用状況を判断するために、smiのGPU-Utilパラメータを主に使用しています。しかし、Kuaishouは実際の使用において、GPU使用率を判断することはより複雑な問題であることに気づきました。GPU-Utilは単位時間あたりのGPUの全体的な使用量のみを反映するもので、GPUの負荷を明確に反映することはできません。この状況に対処するため、Kuaishou SAT チームは、SM ユニット、コーデック ユニットのサンプリング値、帯域幅の負荷、読み取り書き込み時間比など、複数の側面から状況を分析し、最終的に総合的な GPU 使用率を導き出すための一連の使用状況監視スクリプトを手動で開発しました。

障害監視は、あらゆるハードウェア製品で発生する一般的な問題です。GPU の消費電力と温度が高く、ビジネスが GPU に大きく依存しているため、Kuaishou SAT チームは当初、多数の監視インジケーターを設定しました。これらの監視インジケーターは、GPU デバイスの API を通じて抽出されました。しかし、監視インスタンスの数が増えるにつれて、アラームの数も大幅に増加しました。これらのアラームには、連続アラーム、変動アラーム、関連アラームが含まれます。もちろん、これらのアラームの発生により、Kuaishou は問題を発見できましたが、Kuaishou の運用および保守担当者に大きな迷惑をかけました。過剰なアラームの問題を解決するために、Kuaishou SAT チームは監視パラメータを分析および統合し、GPU を使用する際のさまざまなビジネスのさまざまなニーズに基づいて、ビジネスの生存と死活の基準を策定しました。ビジネスの生存に影響を与える基準が最初に報告され、単位時間あたりに発生するアラームは 1 つだけが報告されます。

障害を予測する目的は、起こりうる障害がビジネスに損失をもたらすのを回避することであり、この予測の正確さが重要です。多くの場合、障害の予測はトリガーとなり、時間の経過とともにゆっくりと現象に変化するプロセスとなります。 Kuaishou SAT チームは、障害予測の観点から、GPU に 10 を超える監視パラメータを設定しました。蓄積されたデータを使用してトレーニングすることでしきい値を取得し、このしきい値を使用して障害予測を行います。この継続的なトレーニングと予測のサイクルを通じて、障害予測はますます正確になります。

その後の計画

Kuaishou の毎日のアクティブ ユーザーが増加し続け、ユーザー データがさらに豊富になるにつれて、モデルの数が増加して複雑になり、占有スペースが飛躍的に拡大しています。現在、Kuaishou SAT チームは、大容量で低コストの NVM と GPU を導入して異種コンピューティング + 異種ストレージ サーバーを形成すること、100G/200G/400G RDMA を組み合わせて CPU オフロード アーキテクチャを作成し、分散コンピューティングの効率を向上させること、ストレージ リソースとコンピューティング リソースを分離することなど、いくつかのことを行っています。

快手は、NVIDIAのエンタープライズレベルの技術サポートチームと、選択と発売のプロセスで1年以上の協力経験を持っています。TESLA GPUの導入を機に、快手のSATチームはGPUサーバーの導入とアプリケーションの最適化のための完全な科学システムを組織し、標準化し、実際に良好なビジネス上の利益を達成し、会社に多くの時間とコストを節約しました。同時に、より優れたコンピューティングパワーを備えたGPUコンピューティングアーキテクチャは、今後、快手の主要ビジネスラインでより複雑なモデルを発売するための強固な基盤も築きました。快手システム運営部のハードウェア研究開発チームでは、新技術ハードウェア研究開発エンジニアを募集しています。技術に情熱を持つ技術者を歓迎します。

<<:  Nature 誌に「なぜディープラーニング システムは騙されやすいのか?」という記事が掲載されました。

>>:  ディープラーニングをすぐに始められる、やりがいのあるプロジェクト18選

ブログ    

推薦する

機械学習と古典的なアルゴリズムの概念をわかりやすい言葉で説明しました。初心者必読

データ分野では、多くの人が機械学習について語っていますが、それが何であるかを明確に説明できる人はごく...

アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から...

パフォーマンスを犠牲にすることなく、メモリ使用量を90%削減。FacebookがQuant-Noiseモデル圧縮方式を提案

数百メガバイトのサイズのニューラル ネットワークの場合、モデル圧縮によりメモリ使用量、通信帯域幅、計...

LiDARとTexas Instrumentsチップを搭載した最新のL3自動運転アーキテクチャの分析

画像出典: インターネット来年発売されるヒュンダイG90とGV80は、ヒュンダイのL3自動運転モデル...

1 つのニューロンには 5 ~ 8 層のニューラル ネットワークがあります。ディープラーニングの計算の複雑さは生物学によって克服されています。

人工知能の開発にはまだまだ長い道のりが残っているようです。エルサレムのヘブライ大学の研究者らは、単一...

LangChain と DeepInfra を使用してカスタマー サポート チャットボットを構築するためのガイド

翻訳者 |ブガッティレビュー | Chonglou日常のオンラインのやり取りの中でチャットボットを目...

最大速度アップは20億倍! AIが物理シミュレーションエンジンに革命を起こす

[[422090]]オックスフォード大学の研究によると、機械学習モデルは従来の物理ソルバーに比べて物...

超大型モデルの登場でAIはゲームオーバーになるのか?ゲイリー・マーカス:道は狭くなっている

最近、人工知能技術は大規模モデルにおいて飛躍的な進歩を遂げています。昨日、Google が提案した ...

...

髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

多くのディープラーニング手法は優れたマッティング結果を実現しますが、高解像度の画像を適切に処理するこ...

斉燕傑:Sina Weibo のパーソナライズされたプッシュにおける機械学習の応用

[51CTO.comより引用] Sina Weiboは情報交換プラットフォームであるだけでなく、メデ...

ディープラーニングデータセットを管理するための新しいアプローチ

ハブの紹介 Activeloop の Hub は、Numpy のような配列にデータを配置するオープン...

言語学からディープラーニングNLPまで、自然言語処理の概要

この記事は、2 つの論文から始まり、自然言語処理の基本的な分類と基本概念を簡単に紹介し、次にディープ...

高所から物が投げ出される悲劇が多発。AI監視システム「私があなたを守ります」

近年、高所から物が投げられたり落下したりして負傷する事故が多発しています。水のボトル、スイカの皮、缶...