Facebook AI が、強力なフルスタックビデオライブラリである PyTorchVideo をオープンソース化し、モバイルフォンで SOTA モデルを 8 倍高速に実行できるようにしました。

[[409522]]

動画は徐々にテキストや画像を超え、最も広く利用されているメディア形式になったと言えます。また、ユーザーの閲覧時間の大部分を占めるため、動画の理解は特に重要です。

大手インターネット企業やトップクラスの大学が、SOTA ビデオ理解モデルとアルゴリズムの研究に知恵を絞って競い合っています。

Google、Facebook、Open-MM Labなどが独自のキラー兵器を発売した後、Facebook AIはPySlowFastを発売してから1年後にPyTorchVideoで戦場に復帰しました。

公式サイト: https://pytorchvideo.org/

今日は、PyTorchVideo がどのようなコードベースであるか、また、オープンソースの日に GitHub トレンドリストでどのようにランク付けされたかを見ていきます。

PyTorchVideoはどこでも使える

ここにいる他の人たちとは異なり、ビデオコード理解フレームワークは独自のフレームワークにのみ執着しており、他のコードベースに移行することはできません。

PyTorchVideo は、torchvision などの基本コードライブラリと同様に、「どこでも使用できます」。 PyTorchVideo は、ビデオ理解タスクで使用できるだけでなく、他のタスクのコードライブラリとしても使用できます。

Facebook の AI ラボの重役たちは、独自の PySlowFast コードベースで PyTorchVideo をシームレスに使用しただけでなく、Classy Vision や PyTorch Lightening などのフレームワークにもシームレスに挿入しました。

PyTorchVideo は、恵まれた環境で誕生しました。PyTorch Lightning-Flash のビデオ理解ライブラリとして直接使用され、デフォルトで基本ライブラリとして使用されました。

FiftyOne プロジェクトでは、オープンソースコミュニティの人々が Lightning-Flash を使用して、ビデオのアクションカテゴリを直接表示できるビデオ閲覧ツールボックスを作成しました。

51: https://medium.com/pytorch/ushering-in-the-new-age-of-video-understanding-with-pytorch-1d85078e8015

PyTorchVideoは何でもできる

さらに驚くべきことは、PyTorchVideo は「何でもできる」ということです。ビデオ分類やアクション検出などのタスクで SOTA 結果を達成しただけではありません。

このAIは、LeCun氏のお気に入りの自己教師あり学習や、オーディオイベント検出などのさまざまな奇妙なタスクを「少しだけ理解」しています。

PyTorchVideo の SlowFast モデルに基づくアクション監視

PyTorchVideoは携帯電話でも再生可能

さらに驚くべきことは、PyTorchVideo がモバイルアクセラレーションの最適化もオープンソース化しており、ステップバイステップのチュートリアルを提供しているだけでなく、ビデオモデルのコアカーネルを段階的に最適化し、アクセラレーションを量子化していることです。

数倍の高速化を経て、モバイルデバイス上でリアルタイムに動作します。公式はAndroidとiOSモバイル端末向けのオープンソースコードも直接リリースしており、SOTAビデオモデルを携帯電話に直接インストールして楽しむことができます。

PyTorchVideo は、Samsung Galaxy S10 スマートフォンで実行される X3D モデルを高速化し、8 倍の速度で実行し、1 秒間のビデオを約 130 ミリ秒で処理します。

PyTorchVideoとは

PyTorchVideo の正体は、さまざまなコードベース、さまざまな SOTA ビデオモデル、オープンソースビデオモデルに対応できるビデオ理解用の機械学習ライブラリです。

さらに、さまざまな基本的なビデオアルゴリズム、ビデオデータ操作、さまざまな一般的なビデオデータセット、ビデオ拡張、ビデオモデルの高速化と量子化、およびその他のフルスタックのビデオ関連コンテンツも含まれます。

PyTorchVideoの遊び方

まずそれを潰します。

 pip pytorchビデオをインストールする

その後、公式チュートリアルを閲覧して実験してみたところ、PyTorchVideo でビデオモデルをトレーニングするには、わずか数行しかかからないことがわかりました。

 Pytorchvideoからデータ、モデル、アクセラレータをインポートする
# 視覚モデルと音響モデルを作成します。
 visual_model = models.slowfast.create_slowfast(
    モデル番号クラス = 400 、
 ）
音響モデル = models.resnet.create_acoustic_resnet(
    モデル番号クラス = 400 、
 ）
 # Kinetics データローダーを作成します。
 kinetics_loader = torch.utils.data.DataLoader(
    データ.キネティクス(
        データパス=データパス、
        clip_sampler = data.make_clip_sampler(
 「ユニフォーム」 、
            クリップ時間、
        ）、
    ）
    バッチサイズ=BATCH_SIZE、
 ）
 # モデルをデプロイします。
 visual_net_inst_deploy = アクセラレータ.deployment.\
    デプロイ可能な形式に変換します(net_inst、入力テンソル)

では、オープンソースのトレーニングモデルライブラリから直接モデルを使用するとどのような効果があるのでしょうか?

モデル = torch.hub.load( "facebookresearch/pytorchvideo" 、 model=model_name、 pretrained=True)

公式モデルライブラリは非常に豊富で、ただただ驚嘆するばかりです。

キネティクス-400

アーチ	深さ	フレーム長 x サンプルレート	トップ1	フロップ数 (G) x 視聴回数	パラメータ（M）
C2D	R50	8x8	71.46	25.89 x 3 x 10	24.33
3D	R50	8x8	73.27	37.53 x 3 x 10	28.04
遅い	R50	4x16	72.40	27.55 x 3 x 10	32.45
遅い	R50	8x8	74.58	54.52 x 3 x 10	32.45
スローファスト	R50	4x16	75.34	36.69 x 3 x 10	34.48
スローファスト	R50	8x8	76.94	65.71 x 3 x 10	34.57
スローファスト	R101	8x8	77.90	127.20 x 3 x 10	62.83
スローファスト	R101	16x8	78.70	215.61 x 3 x 10	53.77
CSN	R101	32x2	77.00	75.62 x 3 x 10	22.21
R(2+1)D	R50	16x4	76.01	76.45 x 3 x 10	28.11
3D	サイズ	4x12	69.12	0.91×3×10	3.79
3D	ス	13x6	73.33	2.96 x 3 x 10	3.79
3D	ま	16x5	75.94	6.72×3×10	3.79
3D	ら	16x5	77.44	26.64 x 3 x 10	6.15

サムシングサムシングV2

アーチ	深さ	事前トレーニング	フレーム長 x サンプルレート	トップ1	フロップ数 (G) x 視聴回数	パラメータ（M）
遅い	R50	キネティクス400	8x8	60.04	55.10 x 3 x 1	31.96
スローファスト	R50	キネティクス400	8x8	61.68	66.60 x 3 x 1	34.04

ジェスチャーゲーム

アーチ	深さ	事前トレーニング	フレーム長 x サンプルレート	地図	フロップ数 (G) x 視聴回数	パラメータ（M）
遅い	R50	キネティクス400	8x8	34.72	55.10 x 3 x 10	31.96
スローファスト	R50	キネティクス400	8x8	37.24	66.60 x 3 x 10	34.00

アヴァ（V2.2）

アーチ	深さ	事前トレーニング	フレーム長 x サンプルレート	地図	パラメータ（M）
遅い	R50	キネティクス400	4x16	19.5	31.78
スローファスト	R50	キネティクス400	8x8	24.67	33.82

PyTorchVideo を搭載した Lightning Flash でも、ビデオの分類には 3 行しかかかりません。

フラッシュからインポートVideoClassifier
モデル = VideoClassifier.load_from_checkpoint( "checkpoint_uri" )
 model.predict( "ビデオフォルダへのパス" )

公式ブログによると、PyTorchVideo は、ICCV、ICML などに最近登場した Facebook の人工知能研究所の成果を含む、多数のビデオモデルをオープンソース化している。

マルチスケールビジョントランスフォーマー https://arxiv.org/abs/2104.11227
教師なし時空間表現学習に関する大規模研究 https://arxiv.org/abs/2104.14558
ビデオからの半教師あり学習のためのマルチビュー疑似ラベリング https://arxiv.org/abs/2104.00682
ビデオ理解に必要なのは時空間注意だけでしょうか?https://arxiv.org/abs/2102.05095
ボールから目を離さない: ビデオトランスフォーマーにおける軌道注意https://arxiv.org/abs/2106.05392
ビデオ認識のための SlowFast ネットワーク https://arxiv.org/abs/1812.03982
X3D: 効率的なビデオ認識のためのアーキテクチャの拡張 https://arxiv.org/abs/2004.04730
ビデオ認識のためのオーディオビジュアル SlowFast ネットワーク https://arxiv.org/abs/2001.08740
非局所ニューラルネットワーク https://arxiv.org/abs/1711.07971
動作認識のための時空間畳み込みの詳細 https://arxiv.org/abs/1711.11248
チャネル分離畳み込みネットワークによるビデオ分類 https://arxiv.org/abs/1904.02811

MultiScale Vision Transform もその中にあるようです。興味のある友人は調べてみてください。

<<: スタンフォード大学の中国人博士、フェイフェイ・リー氏は、スライドモデルを提案し、NVIDIAと共同で汎用人工知能を研究した。

>>: 2021 年の人工知能の 4 つのビジネスアプリケーション

モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

ブログ

ロボットはどのようにして経路を計画するのでしょうか?アニメーションを見てみましょう

Facebook AI が、強力なフルスタックビデオライブラリである PyTorchVideo をオープンソース化し、モバイルフォンで SOTA モデルを 8 倍高速に実行できるようにしました。

PyTorchVideoはどこでも使える

PyTorchVideoは何でもできる

PyTorchVideoは携帯電話でも再生可能

PyTorchVideoとは

PyTorchVideoの遊び方

キネティクス-400

モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

人工知能はどのように農業の発展を促進できるのでしょうか?

CPU、GPU、NPU、FPGA はディープラーニングでどのように優位性を発揮するのでしょうか?

ロボットはどのようにして経路を計画するのでしょうか?アニメーションを見てみましょう

マルチエージェントコラボレーションフレームワーク：人工知能の次の方向性と課題

GNMT - Google のニューラルネットワーク翻訳システム

AI と新しい小売業が出会ったとき、両者は力を合わせて無敵になれるのでしょうか?

推薦する

AIを使用するための実践的な方法論：次の5つのステップに従ってください

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

10万ドル＋26日、低コスト1000億パラメータLLMが誕生

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に！

OpenAIはGPT-3.5 Turbo、DALL-E、Whisper APIを完全に公開しました

機械学習に基づくユーザーエンティティ行動分析技術のアカウント異常検知への応用

80億人民元を超える資金で医療AIは「V字カーブ」を描いている

AIはオミクロン変異体の構造を1時間で予測、誤差は原子直径の半分のみ

AI革命をリードする：企業がAIアプリケーションを推進するためのベストプラクティス

防衛とセキュリティの再定義に貢献するAIスタートアップ

マイクロソフト、AIツール「コパイロット」があなたの仕事を奪うことはないと改めて主張

シテチがスマートシティ建設に新たな活力を注入

開発に重点を置き、革新を追求します。 LeaTech Global CTO Leadership Summit が始まりました!