この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 長い間、3D 姿勢推定は精度向上に向けて競争してきました。 ただし、精度の向上は計算コストの増加ももたらします。 しかし、CPVR 2021 で採択されたばかりの論文MobileHumanPoseで提案されたモデルは、小型でありながら優れたものになる可能性があります。 携帯電話でも持てるタイプです。この感覚を感じてみましょう: 次のような動きのエアロビクスでも大丈夫です。 このモデルのサイズはResNet-50をベースにしたモデルのわずか1/7であり、その計算能力は3.92GFLOPSに達することがわかります。 さらに、関節あたりの平均位置誤差(MPJPE)はわずか約5 cmです。 では、このモデルはどのようにして限られた計算能力でこのような優れたパフォーマンスを実現するのでしょうか? エンコーダー・デコーダー構造に基づく改善これは基本的なエンコーダー-デコーダー構造を改良したモデルです。 研究チームは、エンコーダーをグローバル特徴抽出に使用し、デコーダーを姿勢推定に使用する基本アーキテクチャに基づいて、バックボーン ネットワーク、アクティベーション関数、および Skip 連結関数を変更しました。 まず、研究チームが選択したバックボーン ネットワーク、MobileNetV2 を見てみましょう。 彼らは、MobileNetV2 の最初の 4 つの反転残差ブロックでチャネル サイズを変更し、パフォーマンスの向上を実現しました。 次に、 PReLU関数を使用して活性化関数を実装します。ここで、ai は学習パラメータ、yi は入力信号です。 この関数の学習可能なパラメータにより、ネットワークの各層で追加情報を取得できるようになり、人間の姿勢推定タスクでパラメータ化された PReLU を使用する際のパフォーマンスが向上します。 △活性化関数を変更した後のベースライン 現在、モデルの効率は低くありませんが、推論速度を考慮して、チームは Skip 連結構造を使用しています。この構造により、パフォーマンスを低下させることなく、エンコーダからデコーダへの低レベルの特徴信号を導出できます。 パラメータ数は5分の1に削減され、計算コストは1/3に削減されます。研究チームは、3D 人間のポーズ データセットとして Human3.6M と MuCo-3DHP を使用し、MobileNetV2 の大規模モデルと小規模モデルという 2 つのモデルを提案しました。 Human3.6M では、MobileNetV2 大規模モデルは、関節あたりの平均位置誤差 51.44 mm を達成します。 パラメータサイズは4.07Mで、類似モデルの20.4M(chen)の5分の1であり、計算コストは5.49GFLOPSで、類似モデル(14.1G)の1/3以下です。 複数人物の 3D ポーズ推定タスクでは、研究者は RootNet を使用して各人物の絶対座標を推定し、MuPoTS の 20 シーンで実験を実施しました。 実験結果によると、ECCV 2020 で優勝した Zerui Chen などの研究者が提案した 3D 人間姿勢推定法と比較して、MobileNetV2 は一般的なシナリオで優れたパフォーマンスを発揮し、いくつかのシナリオで最高のパフォーマンスを発揮します。 モデル効率の面では、MobileNetV2 の大規模モデル効率は 2.24M/3.92GFLOPS であり、同様のモデルの 13.0M/10.7GFLOPS を大幅に上回っています (Zerui Chen)。 小型モデルでは、関節あたりの平均位置誤差が 56.94 mm で、パラメータ数は 224 万、計算コストは 3.92 GFLOPS です。 著者について論文の著者3人は全員韓国技術院の卒業生であり、筆頭著者のチェ・サンボム氏は同校の電気電子工学修士である。 紙: オープンソースアドレス: |
<<: 合成データのみでリアルな顔解析が可能!マイクロソフトの新しい研究は、手動ラベル付けに別れを告げる
>>: バブルアルゴリズムよりも単純なソートアルゴリズム:バグだらけに見えるプログラムが実は正しい
脳信号から対応する視覚刺激を再構築することは、意義深く困難な作業です。これまでの研究では、一部の自然...
[[249742]]人工知能システム用の新しいコンピュータチップが利用可能になりました。プリンストン...
産業情報ウェブサイトReportlinkerが2020年11月に発表したレポートによると、産業用ロボ...
大規模モデルの開発動向はオープンソースへと移行し始めています。周知のとおり、ChatGPT、GPT-...
自動運転車は徐々に現実のものとなりつつありますが、まだ多くの疑問が残っています。消費者は本当に運転の...
1. 現在の状況:ディープラーニングは現在非常に注目されており、あらゆる種類のカンファレンスがそれと...
1分で新しいGPTが誕生!わずか1週間で、さまざまなカスタマイズされたGPTが世界中で爆発的に増加し...
選択の余地はありません。2022年は近年で最も激動の年の一つになるでしょう。 テクノロジーもこの混乱...
[[333418]] PyTorch 1.6 ナイトリーでは、自動混合精度トレーニングをサポートす...
人工知能は、機械を通じて人間の思考と意思決定をシミュレートすることに重点を置いたコンピューターサイエ...
最近の大物モデルの多くは数学が得意だと主張していますが、本当に才能があるのは誰でしょうか?テスト問題...