あなたはまだ顔認識精度指標に騙されていませんか?

あなたはまだ顔認識精度指標に騙されていませんか?

導入

ハードウェアの性能向上と顔データ量の増加に伴い、顔認識はますます成熟し、商業的な用途もますます増えています。顔認識アルゴリズムが一定の改善を遂げ、LFW での認識精度が 99.6% 以上に達したという記事をよく見かけます。

[[346897]]

実際、精度だけではモデルの性能を測ることはできません。精度は、顔認識における最も重要な指標である合格率と不合格率を反映できません。合格率には、同じ人物が合格する確率と、異なる人物が合格する確率が含まれます。不合格率には、異なる人物が不合格になる確率と、同じ人物が不合格になる確率が含まれます。通常、異なる人物の合格率が低い場合、モデルの同じ人物の合格率が高くなることを期待します。次の評価指標は、主にこの 2 つに基づいて開発されています。

顔認識

現在、顔認識は、顔出勤、実名認証、本人確認、顔決済、Skynetシステムなど、さまざまな用途に使用されています。実際、基礎となる実装技術は主に顔認証と顔検索に依存しています。顔認証は 1:1 顔マッチングとも呼ばれ、顔検索は 1:N 顔マッチングとも呼ばれます。

まず、顔検出により顔が含まれる画像から顔の位置情報と顔のキーポイントを抽出し、次にアフィン変換により顔のキーポイントと組み合わせて顔の位置合わせを行い、位置合わせされた顔画像を取得します。次に、顔画像は顔認識モデルを通じて顔の特徴を抽出します。抽出された特徴は高次元ベクトルであり、このベクトルの次元は通常 128、256、512、1024 またはそれ以上です。

2 つの顔画像が類似しているかどうかを判断するための主な指標は、ユークリッド距離とコサイン類似度です。まず、顔認識モデルを通じて顔画像を特徴ベクトルに変換します。名前が示すように、ユークリッド距離は 2 つのベクトル間のユークリッド距離を計算するため、2 つのベクトル間のユークリッド距離が小さいほど、それらの類似性が高くなります。コサイン類似度は、2つのベクトル間の角度のコサイン値を計算するものです。cosθの値の範囲は[−1, 1]です。0.5+0.5∗cosθで[0, 1]に正規化できます。コサイン類似度が大き​​いほど、同一人物である可能性が高くなります。

1:1 顔マッチングでも 1:N 顔マッチングでも、まずしきい値 (ユークリッド距離または類似度) を決定する必要があります。通常、顔の類似性の測定指標は類似度です。後で説明するしきい値は、実際には類似度しきい値です。しきい値は、指定された合格率または拒否率に応じて顔データセットによって決定されます。率がしきい値より大きい場合は、その人物は同一人物であることを意味し、そうでない場合は同一人物ではないことを意味します。

顔認証

1:1 顔認証では、2 枚の写真を比較して同一人物かどうかを確認します。一般的な用途としては、駅での顔ゲート実名認証や携帯電話の顔認証ロック解除などがあります。比較画像の類似性が閾値より大きいかどうかを判断することで、一般的に使用される性能評価指標は以下のとおりです。

  • 遠い

FAR(False Accept Rate)とは、FPR(False Positive Rate)と同等の、他人受入率のことです。異なる人物を誤って同一人物とみなす回数を指し、異なる人物同士の比較全体の比率です。計算式は以下のとおりです。

混同行列(TP、TN、FP、FN)の詳細な説明については、私の他の記事「分類アルゴリズムでよく使用される評価指標」を参照してください。

  • タール

TAR(True Accept Rate)は正しい承認率を表し、TPR(True Positive Rate)に相当します。これは、同一人物のすべての比較の中で、同一人物であると正しく判断された回数を指します。計算式は次のとおりです。

  • 連邦準備制度理事会

FRR(False Reject Rate)とFNR(False Negative Rate)は、同一人物を比較したが同一人物ではないと判断された数を指し、計算式は以下のとおりです。

1:1 顔認識コンテストの中には、FMR (誤一致率) や FNMR (誤不一致率) などの評価指標が設定されているものもあります。 FMR は FAR に相当する誤一致率を指し、FNMR は FRR に相当する誤不一致率を指します。

FNMR @ FMR = 0.000001 のような表現を目にすることがあります。この表現は、データセット上で FMR = 0.000001 のときのしきい値が計算され、このしきい値に基づいて FNMR が計算されることを意味します。これと同様に、TAR=0.998@FAR=1e-6 は、異なる人の合格率が 1e-6 の場合、同じ人の合格率は 99.8% であることを意味します。 1:1 顔認証の場合、FAR が低いほど、TAR が高いほど優れています。

顔検索

1:N 顔認識評価は、オープンセット識別とクローズドセット識別の 2 つのケースに分けられます。

1:N 顔認識を評価する場合、ギャラリー G (ベースライブラリ、登録済みの顔ライブラリ)、プローブ (プローブ、認識する顔画像) の 3 セットの画像が必要です。プローブは Pn と Pg​ に分かれており、Pn​ の顔写真はギャラリーにないため偽者と呼ばれ、Pg​ の顔写真はギャラリーにあるため天才と呼ばれます。

オープンセット認識

オープンセット識別: オープンセット識別が解決する必要がある問題は、プローブPj​がギャラリー内に存在するかどうか、存在する場合はその人物が誰であるかを判断することです。 Pj​はギャラリーにいてもいなくてもかまいません。

ギャラリーG={g1​,g2​.....gn​} と仮定すると、gi​ はギャラリー内の人物を表し、テスト対象の顔 Pj​ と各 gi​ 間の類似度が計算され、Sji​ で表されます。これは、2 つの顔画像が同一人物である確率を表します。 G と Pj​ の各人物間の類似度を計算し、集合 S{sj1​,sj2​.....sjn​} を取得し、集合 S を大きい順に並べ替えます (小さい順に並べ替えるにはユークリッド距離が使用されます)。ギャラリー内のPj​に対応する人物がg∗であると仮定し、Pj​とg∗の類似度がn番目であることを示すためにrank(Pj​)=nを定義します。rank1はトップマッチとも呼ばれます。

顔決済の場合はTOP1オープンセット識別、顔本人確認の場合はtopkオープンセット識別となります。

クローズドセット認識

閉集合識別: 閉集合識別が解決する必要がある問題は、ギャラリー内のプローブPj​ を見つけることであり、Pj​ はギャラリーに属しています。オープンセット認識と同様に、クローズドセット認識も、正しい認識結果が topk に含まれているかどうかに関係します。

評価指標

以下の評価指標は、オープンセット認識とクローズドセット認識の両方に適用されます。

  • ディレクター

DIR (検出および識別率): Pj​∈Pg​ と G の実際の結果 s∗ との類似度が τ より大きく、Pg​ 内の同一人物ではない Pj​ とのその他のすべての類似度の割合より大きいことを指します。DIR は、データベース内の人物の合格パフォーマンスを測定します。計算式は以下のとおりです

これを説明するために例を挙げてみましょう

G に 3 人の人物 A、B、C の顔情報が含まれており、それぞれに写真があり、Pj は C の別の顔写真であるとします。Pj と A、B、C の類似度がそれぞれ 0.5、0.6、0.9 で、τ が 0.7 の場合、一致は正しいとみなされます。 PjとCの類似度が0.68<τの場合、データベース外の人物とみなされ、一致しないことになります。 Pj と A、B、C との類似度がそれぞれ 0.6、0.8、0.78 の場合、Pj の TOP1 マッチは B になります。これは、C と Pj の類似度が rank(Pj)=2 で 2 位であり、Pj が間違った人物とマッチしているためです。

  • 遠い

FAR (誤報率): G 内の最も類似した人物との類似度が Pn​ 内の τ より大きい Pj​∈Pn​ の割合を指します。FAR は、データベース外の顔の拒否パフォーマンスを測定し、顔認識システムのセキュリティの保証でもあります。計算式は以下のとおりです

1:N 顔検索の場合、FAR が低く DIR が高いほど、モデルのパフォーマンスは向上します。例を使用して、これら 2 つの評価指標の計算方法を説明します。

上記の表は、ギャラリー(G)のPg​(Gにある写真)とPn​(Gにない写真)のテスト結果を示しています。Gのa、b、cはそれぞれA、B、Cに対応し、d、e、fはGにありません。閾値τが0.7のとき、DIRとFIRを計算してみましょう。

  1. aはAと最も類似しており、SaA​>τなので、一致は成功です。
  2. bとBの類似性はSbB​>τであるが、SbB​
  3. cはCと最も類似しているが、ScC​<τなので、一致は間違っている。

つまり、DIR = 1/3≈33.33%

  1. dはAとの類似度が最も高く、SdA​<τです。dはライブラリに存在しないため、一致は正しいです。
  2. e は C との類似度が最も高く、SeC​>τ です。c はライブラリにないため、一致は間違っています。
  3. fはCと最も類似しており、fはライブラリにないためSfC​<τであり、一致は正しい。

つまり、FAR=1/3≈33.33%

<<:  Google が地図「タイムマシン」を公開: 100 年前のあなたの街はどんな様子だったでしょうか?

>>:  時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマー サービス業界にもたらす変化

ブログ    

推薦する

自律飛行ロボットが浙江大学から集団で飛び立ち、サイエンス誌の表紙に登場

最近、浙江省安吉市の竹林で、一群の超小型知能ドローンが集団で派遣され、ジャングルの中を楽々と移動した...

ChatGPT を使用して HR を強化するにはどうすればよいでしょうか?

------01------人事担当者としては、日々さまざまな採用情報を発信する必要があります。以...

...

病院が救急科で人工知能を使用する場合、何を考慮すべきでしょうか?

RapidAI の Mary Hardcastle がヘルスケア技術の進歩を検討し、病院が救急治療...

人工知能はどうすれば大衆に届くのでしょうか?最も価値のある AI テクノロジーは何ですか?

顔認識、音声認識、自動運転などが注目されるようになり、人工知能(AI)と社会や人間の生活の融合が急速...

シェア | 人工知能の典型的な12の事例

今日では AI の例が非常に多く存在するため、代表的な AI の事例をいくつか選択することは困難です...

...

ロボットが家庭に入り、人工知能の夢はもはや高価ではない

[[221538]]人工知能とは何ですか? 「第一次産業革命における蒸気機関、第二次産業革命における...

PCの顔認証ログイン、驚くほど簡単

以前、オープンソース プロジェクトをやったことがあります。GitHub ログインが完成した後、もっと...

LLaMA、BERT などの導入課題を解決: 初の 4 ビット浮動小数点量子化 LLM が登場

大規模言語モデル (LLM) 圧縮は常に大きな注目を集めています。トレーニング後の量子化は、一般的に...

サイエンス誌の表紙を飾ったCMUの偉人ノアムは博士号を取得し、その論文が公開された。

2 人用ノーリミット ポーカーとマルチプレイヤー ノーリミット ポーカーでトップの人間プレイヤーに...

...

感染症の流行に直面して、AIがいかに有用であるかを実感した

インターネット時代では、テクノロジーの発展により、私たちの生活で利用できる手段が大幅に強化されました...

...

スタンフォードNLPコースXCS224Uのビデオが公開されました。実用的な情報が満載です。ぜひ聞いてください。

会話エージェントから検索クエリまで、自然言語理解 (NLP) は今日の最もエキサイティングなテクノロ...