Facebook AI が、強力なフルスタック ビデオ ライブラリである PyTorchVideo をオープンソース化し、モバイル フォンで SOTA モデルを 8 倍高速に実行できるようにしました。

Facebook AI が、強力なフルスタック ビデオ ライブラリである PyTorchVideo をオープンソース化し、モバイル フォンで SOTA モデルを 8 倍高速に実行できるようにしました。

[[409522]]

動画は徐々にテキストや画像を超え、最も広く利用されているメディア形式になったと言えます。また、ユーザーの閲覧時間の大部分を占めるため、動画の理解は特に重要です。

大手インターネット企業やトップクラスの大学が、SOTA ビデオ理解モデルとアルゴリズムの研究に知恵を絞って競い合っています。

Google、Facebook、Open-MM Labなどが独自のキラー兵器を発売した後、Facebook AIはPySlowFastを発売してから1年後にPyTorchVideoで戦場に復帰しました。

[[409524]]

公式サイト: https://pytorchvideo.org/

今日は、PyTorchVideo がどのようなコード ベースであるか、また、オープン ソースの日に GitHub トレンド リストでどのようにランク付けされたかを見ていきます。

PyTorchVideoはどこでも使える

ここにいる他の人たちとは異なり、ビデオ コード理解フレームワークは独自のフレームワークにのみ執着しており、他のコード ベースに移行することはできません。

PyTorchVideo は、torchvision などの基本コード ライブラリと同様に、「どこでも使用できます」。 PyTorchVideo は、ビデオ理解タスクで使用できるだけでなく、他のタスクのコード ライブラリとしても使用できます。

Facebook の AI ラボの重役たちは、独自の PySlowFast コード ベースで PyTorchVideo をシームレスに使用しただけでなく、Classy Vision や PyTorch Lightening などのフレームワークにもシームレスに挿入しました。

PyTorchVideo は、恵まれた環境で誕生しました。PyTorch Lightning-Flash のビデオ理解ライブラリとして直接使用され、デフォルトで基本ライブラリとして使用されました。

FiftyOne プロジェクトでは、オープンソース コミュニティの人々が Lightning-Flash を使用して、ビデオのアクション カテゴリを直接表示できるビデオ閲覧ツールボックスを作成しました。

51: https://medium.com/pytorch/ushering-in-the-new-age-of-video-understanding-with-pytorch-1d85078e8015

PyTorchVideoは何でもできる

さらに驚くべきことは、PyTorchVideo は「何でもできる」ということです。ビデオ分類やアクション検出などのタスクで SOTA 結果を達成しただけではありません。

このAIは、LeCun氏のお気に入りの自己教師あり学習や、オーディオイベント検出などのさまざまな奇妙なタスクを「少しだけ理解」しています。

PyTorchVideo の SlowFast モデルに基づくアクション監視

PyTorchVideoは携帯電話でも再生可能

さらに驚くべきことは、PyTorchVideo がモバイル アクセラレーションの最適化もオープンソース化しており、ステップ バイ ステップのチュートリアルを提供しているだけでなく、ビデオ モデルのコア カーネルを段階的に最適化し、アクセラレーションを量子化していることです。

数倍の高速化を経て、モバイルデバイス上でリアルタイムに動作します。公式はAndroidとiOSモバイル端末向けのオープンソースコードも直接リリースしており、SOTAビデオモデルを携帯電話に直接インストールして楽しむことができます。

PyTorchVideo は、Samsung Galaxy S10 スマートフォンで実行される X3D モデルを高速化し、8 倍の速度で実行し、1 秒間のビデオを約 130 ミリ秒で処理します。

PyTorchVideoとは

PyTorchVideo の正体は、さまざまなコード ベース、さまざまな SOTA ビデオ モデル、オープン ソース ビデオ モデルに対応できるビデオ理解用の機械学習ライブラリです。

さらに、さまざまな基本的なビデオ アルゴリズム、ビデオ データ操作、さまざまな一般的なビデオ データ セット、ビデオ拡張、ビデオ モデルの高速化と量子化、およびその他のフルスタックのビデオ関連コンテンツも含まれます。

PyTorchVideoの遊び方

まずそれを潰します。

  1. pip pytorchビデオをインストールする

その後、公式チュートリアルを閲覧して実験してみたところ、PyTorchVideo でビデオ モデルをトレーニングするには、わずか数行しかかからないことがわかりました。

  1. Pytorchvideoからデータ、モデル、アクセラレータをインポートする
  2. # 視覚モデルと音響モデルを作成します。
  3. visual_model = models.slowfast.create_slowfast(
  4. モデル番号クラス = 400
  5. 音響モデル = models.resnet.create_acoustic_resnet(
  6. モデル番号クラス = 400
  7. # Kinetics データローダーを作成します。
  8. kinetics_loader = torch.utils.data.DataLoader(
  9. データ.キネティクス(
  10. データパス=データパス、
  11. clip_sampler = data.make_clip_sampler(
  12. 「ユニフォーム」
  13. クリップ時間、
  14. )、
  15. バッチサイズ=BATCH_SIZE、
  16. # モデルをデプロイします。
  17. visual_net_inst_deploy = アクセラレータ.deployment.\
  18. デプロイ可能な形式に変換します(net_inst、入力テンソル)

では、オープンソースのトレーニング モデル ライブラリから直接モデルを使用するとどのような効果があるのでしょうか?

  1. モデル = torch.hub.load( "facebookresearch/pytorchvideo" 、 model=model_name、 pretrained=True)

公式モデルライブラリは非常に豊富で、ただただ驚嘆するばかりです。

キネティクス-400

アーチ

深さ

フレーム長 x サンプルレート

トップ1

フロップ数 (G) x 視聴回数

パラメータ(M)

C2D

R50

8x8

71.46

25.89 x 3 x 10

24.33

3D

R50

8x8

73.27

37.53 x 3 x 10

28.04

遅い

R50

4x16

72.40

27.55 x 3 x 10

32.45

遅い

R50

8x8

74.58

54.52 x 3 x 10

32.45

スローファスト

R50

4x16

75.34

36.69 x 3 x 10

34.48

スローファスト

R50

8x8

76.94

65.71 x 3 x 10

34.57

スローファスト

R101

8x8

77.90

127.20 x 3 x 10

62.83

スローファスト

R101

16x8

78.70

215.61 x 3 x 10

53.77

CSN

R101

32x2

77.00

75.62 x 3 x 10

22.21

R(2+1)D

R50

16x4

76.01

76.45 x 3 x 10

28.11

3D

サイズ

4x12

69.12

0.91×3×10

3.79

3D

13x6

73.33

2.96 x 3 x 10

3.79

3D

16x5

75.94

6.72×3×10

3.79

3D

16x5

77.44

26.64 x 3 x 10

6.15

サムシングサムシングV2

アーチ

深さ

事前トレーニング

フレーム長 x サンプルレート

トップ1

フロップ数 (G) x 視聴回数

パラメータ(M)

遅い

R50

キネティクス400

8x8

60.04

55.10 x 3 x 1

31.96

スローファスト

R50

キネティクス400

8x8

61.68

66.60 x 3 x 1

34.04

ジェスチャーゲーム

アーチ

深さ

事前トレーニング

フレーム長 x サンプルレート

地図

フロップ数 (G) x 視聴回数

パラメータ(M)

遅い

R50

キネティクス400

8x8

34.72

55.10 x 3 x 10

31.96

スローファスト

R50

キネティクス400

8x8

37.24

66.60 x 3 x 10

34.00

アヴァ(V2.2)

アーチ

深さ

事前トレーニング

フレーム長 x サンプルレート

地図

パラメータ(M)

遅い

R50

キネティクス400

4x16

19.5

31.78

スローファスト

R50

キネティクス400

8x8

24.67

33.82

PyTorchVideo を搭載した Lightning Flash でも、ビデオの分類には 3 行しかかかりません。

  1. フラッシュからインポートVideoClassifier
  2. モデル = VideoClassifier.load_from_checkpoint( "checkpoint_uri" )
  3. model.predict( "ビデオフォルダへのパス" )

公式ブログによると、PyTorchVideo は、ICCV、ICML などに最近登場した Facebook の人工知能研究所の成果を含む、多数のビデオ モデルをオープンソース化している。

  • マルチスケールビジョントランスフォーマー https://arxiv.org/abs/2104.11227
  • 教師なし時空間表現学習に関する大規模研究 https://arxiv.org/abs/2104.14558
  • ビデオからの半教師あり学習のためのマルチビュー疑似ラベリング https://arxiv.org/abs/2104.00682
  • ビデオ理解に必要なのは時空間注意だけでしょうか?https://arxiv.org/abs/2102.05095
  • ボールから目を離さない: ビデオトランスフォーマーにおける軌道注意https://arxiv.org/abs/2106.05392
  • ビデオ認識のための SlowFast ネットワーク https://arxiv.org/abs/1812.03982
  • X3D: 効率的なビデオ認識のためのアーキテクチャの拡張 https://arxiv.org/abs/2004.04730
  • ビデオ認識のためのオーディオビジュアル SlowFast ネットワーク https://arxiv.org/abs/2001.08740
  • 非局所ニューラルネットワーク https://arxiv.org/abs/1711.07971
  • 動作認識のための時空間畳み込みの詳細 https://arxiv.org/abs/1711.11248
  • チャネル分離畳み込みネットワークによるビデオ分類 https://arxiv.org/abs/1904.02811

MultiScale Vision Transform もその中にあるようです。興味のある友人は調べてみてください。

<<:  スタンフォード大学の中国人博士、フェイフェイ・リー氏は、スライドモデルを提案し、NVIDIAと共同で汎用人工知能を研究した。

>>:  2021 年の人工知能の 4 つのビジネス アプリケーション

ブログ    
ブログ    
ブログ    

推薦する

AIを使用するための実践的な方法論:次の5つのステップに従ってください

Gartner の調査によると、約 37% の組織が何らかの形で AI を実装しています。しかし、E...

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

テスラと「レース」を敢行する四輪ロボットを見たことがありますか?以下に示すように、かなり高速であるよ...

10万ドル+26日、低コスト1000億パラメータLLMが誕生

大規模言語モデル (LLM) には、デコーダーのみの構造 (GPT や LLAMA シリーズ モデル...

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

コンピューティング能力の需要が高まり続けるにつれて、さまざまな環境への影響が生じ、人工知能 (AI)...

顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に!

[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術...

...

OpenAIはGPT-3.5 Turbo、DALL-E、Whisper APIを完全に公開しました

OpenAIは7月10日、開発者のモデル処理効率向上を支援するため、GPT-3.5 Turbo、DA...

機械学習に基づくユーザーエンティティ行動分析技術のアカウント異常検知への応用

企業ビジネスの継続的な拡大と電子化の発展に伴い、企業独自のデータや負荷データが急増し始めています。し...

80億人民元を超える資金で医療AIは「V字カーブ」を描いている

[[373863]] 「人工知能は将来の生産性の中核である」という見解に疑問を抱く人はほとんどいませ...

AIはオミクロン変異体の構造を1時間で予測、誤差は原子直径の半分のみ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI革命をリードする:企業がAIアプリケーションを推進するためのベストプラクティス

AI がより高度化し、普及するにつれて、多くの企業が最高 AI 責任者 (CAIO) を任命するかど...

防衛とセキュリティの再定義に貢献するAIスタートアップ

人工知能の誕生は第二次世界大戦中に連合国が暗号解読機を開発し、それがナチスドイツのエニグマ暗号を解読...

マイクロソフト、AIツール「コパイロット」があなたの仕事を奪うことはないと改めて主張

Responsible AI チームを発表した際、Microsoft の幹部は、Copilot は仕...

シテチがスマートシティ建設に新たな活力を注入

[51CTO.comからのオリジナル記事] モノのインターネットの台頭により、スマートハードウェアと...

開発に重点を置き、革新を追求します。 LeaTech Global CTO Leadership Summit が始まりました!

[51CTO.comより]デジタル経済時代の到来が加速し、「第14次5カ年計画」が発表されるにつれ...