ひどい、顔認識の練習のための40行のコード

最近、恐れることなく赤信号を無視していた人々が交通警察署に電話し、交通警察のおじさんに自分の写真を削除するように頼むようになったブラックテクノロジーについて聞きました...

[[197832]]

赤信号を無視することは、交通問題において常に大きな頭痛の種となってきました。交通法で赤信号を無視した自動車に6点の減点措置が導入されて以来、多くのドライバーはもう過失を犯すことはできないと言っている。

[[197833]]

自動車は問題ないが、自動車以外の車両や歩行者の信号無視の問題をどう解決するのか？中国式の道路横断方法が人々の心に深く根付いているところに、ブラックテクノロジーが登場。一見すると、本当に警察が容疑者を捜索しているように見える。

[[197834]]

[[197835]]

最近、山東省、江蘇省、深セン市などの一部の都市では、交差点で顔認識システムを使い、歩行者や信号無視の非自動車などの違反者を捕捉し、その場で摘発し始めている。

赤信号を無視した歩行者や非動力車両に対しては、交通管理部門が20～50元の罰金を科す。

[[197836]]

罰金は大した額ではないが、人々が最も恐れているのは、自分の非道な行為や個人情報が映し出されたビデオが一日中大画面で放映されることだ。交通警察のおじさんは、写真を撮られた住民たちは二度と赤信号を無視することはないと言ったと話した。

[[197837]]

[[197838]]

顔キャプチャシステムの動作原理は、赤信号が点灯し、歩行者や非自動車が停止線を越えると、システムが自動的に4枚の写真をキャプチャし、15秒間のビデオを保存して違反者の顔写真をキャプチャし、夜間でも鮮明な画像を生成するというものです。現場での再生に加え、交通管理部門では接続された世帯登録情報も公開します。

顔認識技術はどのように機能するのでしょうか?

多くの人は、顔認識は非常に難しいタスクだと考えています。名前を見ると怖くなり、恐る恐るオンラインで検索します。しかし、オンラインで何ページものチュートリアルを見るとすぐに諦めてしまいます。

これらの人々の中には、かつての私自身も含まれています。実際、背後にある原理を深く理解する必要がなく、ただ実現したいだけであれば、顔認識はそれほど難しくありません。

今日は、40 行未満のコードで顔認識を簡単に実装する方法を見ていきます。

ちょっとした違い

ほとんどの人にとって、顔検出と顔認識を区別することはまったく問題ではありません。しかし、オンラインのチュートリアルには、意図的か否かにかかわらず顔検出を顔認識と呼んでいるものが多くあり、一般の人々を誤解させ、この 2 つが同じものだと思わせる原因となっています。

実際、顔検出が解決する問題は写真に顔があるかどうかを判断することであり、顔認識が解決する問題はそれが誰の顔であるかを判断することです。顔検出は人間認識の前段階の作業であると言えます。

今日やるのは顔認識です。

使用されるツール

アナコンダ 2 - Python 2

ドリブ

scikit-イメージ

ドリブ

今日使用する主なツールについてもう少し説明する必要があります。 Dlib は、最新の C++ に基づくクロスプラットフォームのユニバーサルフレームワークです。作者は非常に熱心に取り組んでおり、継続的に更新しています。

Dlib は、機械学習、画像処理、数値アルゴリズム、データ圧縮など、幅広いコンテンツをカバーしています。さらに重要なのは、Dlib のドキュメントが非常に充実しており、例が非常に豊富であることです。多くのライブラリと同様に、Dlib も Python インターフェイスを提供します。インストールは非常に簡単で、pip を使用する場合は 1 つの文だけが必要です。

 pip で dlib をインストール

上記で必要な scikit-image にも、次の文だけが必要です。

 pip で scikit-image をインストールします

注意: pip install dlib を使用してインストールに失敗した場合、インストールはさらに面倒になります。エラープロンプトは非常に詳細なので、エラープロンプトに従って手順を追って対処してください。

顔認識

顔認識を実装するために Dlib を使用する理由は、ほとんどの作業が Dlib によって実行されており、呼び出すだけで済むためです。 Dlib には、顔検出器、トレーニング済みの顔キーポイント検出器、およびトレーニング済みの顔認識モデルが含まれています。

私たちの今日の主な目標は、原則を掘り下げることではなく、実装することです。サンプルコードは40行を超えないので、実際には難しくありません。

まず、ファイルツリーを通じて今日使用する必要があるコードを確認します。

候補画像を 6 つ用意して candidate-faces フォルダに配置し、認識する必要がある顔画像 test.jpg を配置します。私たちの仕事は、test.jpg 内の顔を検出し、候補の中から誰であるかを判断することです。

もう 1 つの girl-face-rec.py は Python スクリプトです。

shape_predictor_68_face_landmarks.dat は、トレーニング済みの顔ランドマーク検出器です。

dlib_face_recognition_resnet_model_v1.dat は、トレーニング済みの ResNet 顔認識モデルです。

ResNet は、He Kaiming 氏が Microsoft に在籍していたときに提案した深層残差ネットワークです。ImageNet 2015 で優勝しました。ネットワークに残差を学習させることで、深度と精度の点で CNN よりも強力です。

事前準備

shape_predictor_68_face_landmarks.dat と dlib_face_recognition_resnet_model_v1.dat は両方ともここにあります。

ハイパーリンクをクリックできない場合は、次の URL を直接入力できます: http://dlib.net/files/。

次に、候補となる顔として、正面からの顔写真が最も適した、数人の顔写真を用意します。それを candidate-faces フォルダに配置します。

この記事のために用意した写真は以下の6枚です。

[[197839]]

彼らです：

次に、認識する必要のある顔画像を 4 つ用意します。実際には 1 つで十分です。ここでは、さまざまな状況を見てみましょう。

[[197840]]

最初の 2 枚の写真が、候補ファイル内の人物とはかなり異なっていることがわかります。3 枚目の写真は、候補の中の元の写真です。4 枚目の写真では、人物の顔が少し横を向いており、右側に影があります。

識別プロセス

データは準備完了です。次のステップはコードです。一般的な識別プロセスは次のとおりです。

まず、候補に対して顔検出、キーポイント抽出、記述子生成を実行し、候補記述子を保存します。

次に、テスト顔に対して顔検出、キーポイント抽出、記述子生成が実行されます。

*** テスト画像の顔記述子と候補の顔記述子間のユークリッド距離を求め、距離が最小のものを同一人物と判断する。

コード

すでに十分にコメントされているため、コードの詳細については説明しません。 girl-face-rec.py は次のとおりです:

 # -*- コーディング: UTF-8 -*-
 sys、os、dlib、glob、numpy をインポートします。
 skimageからio をインポート
 len(sys.argv) != 5の場合:
     「パラメータが正しいかどうか確認してください」と印刷します 
     出口（）
 # 1. 顔キーポイント検出器
予測子パス = sys.argv[1]
 # 2. 顔認識モデル
face_rec_model_path = sys.argv[2]
 # 3. 候補者の顔フォルダー
faces_folder_path = sys.argv[3]
 # 4. 認識される顔
img_path = sys.argv[4]
 # 1. 正面顔検出器をロードする
検出器 = dlib.get_frontal_face_detector()
 # 2. 顔のキーポイント検出器をロードする
sp = dlib.shape_predictor(予測子パス)
 # 3. 顔認識モデルをロードする
facerec = dlib.face_recognition_model_v1(face_rec_model_path)
 # win = dlib.image_window()
 # 候補顔記述子リスト
記述子 = []
 # フォルダー内の各顔について:
 # 1. 顔検出
# 2. キーポイント検出
# 3. 記述子の抽出
glob.glob(os.path.join (faces_folder_path, " *.jpg" ))内のfについて:
    print( "処理ファイル: {}" .format(f))
    img = io.imread(f)
    #win.clear_overlay()
    #win.set_image(画像)
    # 1. 顔検出
    dets = detector(画像、1)
    print( "検出された顔の数: {}" .format(len(dets)))
 enumerate (dets)のk、dについて:
    # 2. キーポイント検出
    形状 = sp(画像, d)
    # 顔の部分とキーポイントを描く
    # win.clear_overlay()
    # win.add_overlay(d)
    # win.add_overlay(シェイプ)
    # 3. 記述子抽出、128Dベクトル
    顔記述子 = facerec.compute_face_descriptor(画像、形状)
    # numpy配列に変換する
    v = numpy.array(顔記述子)
    記述子.append(v)
 # 認識する顔に対して同じプロセスを実行します
# 記述子を抽出し、コメントをなくす
img = io.imread(img_path)
 dets = detector(画像、1)
 距離 = []
 enumerate (dets)のk、dについて:
    形状 = sp(画像, d)
    顔記述子 = facerec.compute_face_descriptor(画像、形状)
    d_test = numpy.array(顔記述子)
    # ユークリッド距離を計算する
記述子のiの場合:
    dist_ = numpy.linalg.norm(i-d_test)
    dist.append(dist_)
 # 候補者一覧
候補 = [ 'Unknown1' 、 'Unknown2' 、 'Shishi' 、 'Unknown4' 、 'Bingbing' 、 'Feifei' ]
 # 候補と距離が辞書を形成する
c_d = dict(zip(候補,dist))
 cd_sorted = sorted(c_d.iteritems(),キー=lambda d:d[1])
 print "\n 人物は: " ,cd_sorted[0][0]
 dlib.hit_enter_to_continue()