Face-api.jsフレームワークに基づいて、顔認識はフロントエンドで完了します

Face-api.jsフレームワークに基づいて、顔認識はフロントエンドで完了します

[[271667]]

この記事では、ブラウザ上で動作する顔認識フレームワーク、Face-api.js を紹介します。これはTensorFlow.jsに基づいており、顔検出、特徴点抽出、記述子計算、顔マッチングまでの一連のステップを完了します。

識別効果図

このフレームワークは使いやすいため、数行の JavaScript コードでエンドツーエンドの認識を完了できます。顔認識の一般的な手順は次のとおりです。

顔検出

まず、画像またはビデオフレームから顔を特定します。このフレームワークは、顔検出用の 3 つのモデルを提供します。

小さな顔検出装置

Tiny Face Detector は、SSD Mobilenet V1 顔検出器よりも高速で、小型で、リソース消費が少ない、非常に高性能なリアルタイム顔検出器です。ただし、その代わりに、小さな顔を検出するパフォーマンスは若干劣ります。このモデルは、モバイル性とネットワーク性が非常に優れているため、モバイル デバイスやリソースが限られたクライアントでの顔検出に最も適しています。量子化されたモデルのサイズはわずか 190 KB (tiny_face_detector_model) です。

SSD モバイルネット V1

顔検出のために、このプロジェクトでは MobileNetV1 に基づく SSD (Single Shot Multibox Detector) を実装します。ニューラル ネットワークは、画像内の各顔の位置を計算し、各顔の確率とともに境界ボックスを返します。この顔検出器は、推論時間を短縮することよりも、顔の境界ボックスを高精度に検出することを目的としています。量子化モデルのサイズは約 5.4 MB (ssd_mobilenetv1_model) です。

MTCNNN について

MTCNN (マルチタスク カスケード畳み込みニューラル ネットワーク) は、より多くの構成スペースを提供する SSD Mobilenet v1 および Tiny Yolo v2 の代替顔検出器です。入力パラメータを調整することで、MTCNN はさまざまな顔の境界ボックスのサイズを検出できるようになります。 MTCNN は 3 段階のカスケード CNN であり、5 つの顔のランドマークと、各顔の境界ボックスとスコアを同時に返します。さらに、モデルのサイズはわずか 2MB です。

68個の特徴点を抽出

このキットは、非常に軽量で高速かつ正確な 68 ポイントの顔ランドマーク検出器を実装します。デフォルト モデルのサイズはわずか 350kb (face_landmark_68_model) で、小型モデルのサイズはわずか 80kb (face_landmark_68_tiny_model) です。どちらのモデルも、深さ方向に分離可能な畳み込みと密に接続されたブロックという考え方を採用しています。さらに、このモデルは、68 個の顔の特徴がラベル付けされた約 35,000 枚の顔画像のデータセットでトレーニングされています。

顔の特徴点パターン

記述子を計算する

顔認識の場合、ResNet-34 のようなアーキテクチャが実装され、任意の顔画像から顔記述子 (128 個の値を持つ特徴ベクトル) を計算します。顔記述子は、人間の顔の特徴を記述するために使用されます。このモデルは、トレーニングに使用された顔のセットに限定されないため、自分自身のような誰の顔認識にも使用できます。ユークリッド距離を計算したり、任意の他の分類器を使用したりして、顔の記述子を比較することで、任意の 2 つの顔の類似性を判断できます。

完全な顔認識

記述子に基づいて、顔認識マッチャーを構築できます。ビデオフレーム内の顔記述子と比較し、存在する場合は名前と類似度を出力します。

補充する

さらに、このプロジェクトには独自の表情検出機能と年齢検出機能があります。具体的なコードの使用方法は、github オープンソース プロジェクトで確認できます。

https://github.com/justadudewhohacks/face-api.js

以下は追加の機能効果図です。

表現検出チャート

年齢検出チャート

<<:  サーバーが過負荷状態です! GANで生成された肖像油絵は人気があり、一瞬でルネッサンス時代に戻ることができます

>>:  強力な視覚 AI でもこれらの写真を正確に識別できないのはなぜでしょうか?

ブログ    
ブログ    

推薦する

ついに、私は物語を作るのをやめました! AIが「グーグル」を学習、Q&Aの精度は90%

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2024 年のビッグデータ業界予測 (パート 3)

ディープラーニングディープフェイクの危険性: 2024 年には、特に仮想顧客サービス環境において、消...

...

機械学習研究開発プラットフォームの選択

機械学習は現在隆盛を極めていますが、機械学習を学習・研究し、実稼働環境で活用したい場合には、プラット...

...

2024年のAIトレンド、このグラフをご覧ください、LeCun: オープンソースのビッグモデルがクローズドソースを上回る

2023年ももうすぐ終わりです。過去1年間で、さまざまな大型モデルがリリースされました。 OpenA...

...

AI STUDIO - AI機能を実現するためのハードルゼロ

AI技術の発展により、人類社会は熱い知能革命の真っ只中にあります。技術革命の波に素早く適応できる者が...

未来のスマートホームにAIがどのように統合されるか

人工知能(AI)については多くの誇大宣伝がなされていますが、それは人類のこれまでの発明と同じくらい画...

2024年はテクノロジー企業の終焉となるでしょうか?報告書:3年後には技術の80%が素人によって提供される

[[405703]]最近、アメリカの有名なテクノロジー調査・コンサルティング会社であるガートナーは、...

冬季オリンピックで使用されたロボット配送車両を振り返ると、自律走行機能が核となる

本稿では、冬季オリンピックで使用されたロボット配送車両を概観し、より多くの消費者層に便利で高品質なサ...

人工知能は政治的安全保障と密接に関係している

習総書記は「人工知能の発展における潜在的リスクの評価と予防を強化し、国民の利益と国家の安全を守り、人...

...

階段を登るための最小コストを使用するデータ構造とアルゴリズム

[[443068]]最小限のコストで階段を登るLeetCode の問題へのリンク: https://...

2022 年の 5 つの主要な AI と機械学習のトレンド

[[414740]]人工知能と機械学習の分野では、企業が今から準備しておくべき大きなトレンドがいくつ...