5 分間の技術講演 | 顔認識についてどれくらい知っていますか?

5 分間の技術講演 | 顔認識についてどれくらい知っていますか?

パート01 顔認識技術の概要

顔認識技術は生体認証技術の一種で、人物の顔の特定の特徴(目、鼻、口、眉毛など)に基づいて人物を自動的に識別する技術です。顔認識、肖像認識、容姿認識、顔認識などとも呼ばれます。主にカメラやビデオカメラを使用して顔を含む画像やビデオストリームを収集し、顔検出技術を使用して顔があるかどうかを分析します。顔がある場合は、顔の位置、サイズ、主要な顔器官の位置に関する情報を提供します。次に、この情報に含まれる識別特徴を抽出し、既知の顔の特徴と比較して、各顔の識別を行います。


写真

パート02 顔検出

顔検出は、顔認識および顔分析システムの最初の重要なステップです。主に「顔はどこにあるのか」という問題を解決し、画像内の顔の位置とサイズを正確に調整し、その後の顔の特徴分析と認識に提供します。初期の顔検出作業は、主に手動で設計されたローカル記述子に基づく特徴抽出に基づいており、知識ベースの顔検出方法、モデルベースの顔検出方法、特徴ベースの顔検出方法、外観ベースの顔検出方法の 4 つのカテゴリに分けられます。その中でも、より古典的な作業には、Haar カスケード分類器と HOG (Histogram of Oriented Gridients) 特徴検出アルゴリズムがあります。しかし、従来の検出では、複数の変動要因がある難しい画像に対する顔検出の精度が限られています。


写真

図 WIDER FACE: 顔検出ベンチマーク

ディープラーニングの活発な発展に伴い、主にカスケード CNN モデル、R-CNN モデル、シングルショット検出器モデル、特徴ピラミッドネットワークモデル、Transformers モデルなどに基づく、さまざまなディープラーニングアーキテクチャに基づく多くの顔検出方法が徐々に進化し、特徴抽出、精度、スケーラビリティの面で従来の顔検出と認識が大幅に向上しました。 MTCNN は、優れた顔検出モデルの 1 つです。このモデルは、3 段階の深層畳み込みネットワークを通じて、顔とランドマークの位置を大まかから細かく予測します。具体的な手順は次のとおりです。ステージ 1: 浅い CNN を通じて候補ウィンドウをすばやく生成します。ステージ 2: より複雑な CNN を通じて多数の顔以外のウィンドウを拒否することでウィンドウを絞り込みます。ステージ 3: より強力な CNN を使用して結果を再度絞り込み、5 つの顔のランドマークの位置を出力します。

パート03 顔の特徴

顔の特徴は、顔の表現とも呼ばれ、顔の長さ、顔の幅、唇の幅、鼻の長さなど、顔の特定の特徴です。顔の特徴抽出は、顔の特徴をモデル化してベクトル化された顔の特徴を取得するプロセスです。顔の特徴抽出は、その技術的特徴によって、大域情報に基づく全体論的手法、局所情報に基づく局所的特徴手法、ディープラーニングに基づく手法の 3 つに大別できます。ディープラーニングに基づく顔の特徴は、データセットから特徴を自動的に学習できます。データセットが十分に堅牢なデータ(照明、姿勢、表情など)をカバーできる場合、アルゴリズムはさまざまな課題に適応できます。これは、現在主流の顔の特徴抽出方法でもあります。


写真

パート04 顔認識

顔認識は顔を比較するプロセスです。2 つの顔の類似性は、抽出された顔の特徴を比較することによって得られます。判断方法は、2 つの特徴間のユークリッド距離 (L2 距離) またはコサイン距離 (コサイン距離) を比較することです。L2 距離が小さいほど類似性が高くなります。コサイン距離の角度が小さいほど、コサイン距離が大きいほど類似性が高くなります。アライメント数に応じて、1:1 と 1:N に分けられます。最も一般的な 1:1 シナリオは、高速鉄道に乗るときに遭遇する機器などの人物と文書のマッチングです。 1:N は、1 つの顔をデータベース内の N 個の顔と比較することを意味します。たとえば、出勤管理マシンの場合、顔データベースには会社全体の顔写真がすべて含まれています。

<<:  5分間の技術講演 | GPU仮想化に関する簡単な講演

>>:  2時間で人間を超えることができます! DeepMind の最新 AI が 26 の Atari ゲームをスピードラン

ブログ    
ブログ    
ブログ    

推薦する

TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

お伝えする 5 つの理由: セキュリティ監視はなぜ人工知能なしでは実現できないのか?

人工知能は、特にセキュリティ分野において業界に大きな影響を与え始めています。成熟したセキュリティ サ...

...

GPU を通じて Pandas のパフォーマンスを高速化するもう 1 つのデータ処理ツールです。

NVIDIA の RAPIDS cuDF は、データの読み込み、結合、集約、フィルタリング、その他...

...

コンピュータービジョンを例に、AIを仕事に導入する方法を説明します。

[[210306]]以下は、AI ビジネスを始める方法の紹介です。これは比較的人気のある科学講演で...

新しいプログラミングパラダイム: Spring Boot と OpenAI の出会い

2023年にはAI技術が話題となり、プログラミングを中心に多くの分野に影響を及ぼします。 Sprin...

...

あなたのデータ戦略は GenAI に対応していますか?

AI、特に GenAI の急速な発展により、分析および IT リーダーには、データ戦略とデータ管理...

エッジコンピューティングは産業界でどのような用途に使われていますか?

エッジ コンピューティングは、モバイル コンピューティングとモノのインターネット (IoT) テクノ...

人間のフィードバックなしで調整します。田元東チームの新しい研究RLCD:無害で有益なアウトラインライティングはベースラインモデルを全面的に上回る

大規模モデルがより強力になるにつれて、低コストでモデルの出力を人間の嗜好や社会の公共価値により沿った...

感じてください:XiaoIce、XiaoAi、Xiaodu、LingyuanがAIサミットのテーマソングを共同で歌いました

7月9日、 2020年世界人工知能大会クラウドサミットのテーマソング「スマートコネクテッドホーム」が...

企業がAI対応データベースを使用してAI導入を加速する方法

企業は、AI を搭載し、AI 向けに構築されたデータベースを検討する必要があります。最適化と使いやす...

...

独自のデータを使ってシンプルな畳み込みニューラルネットワークを構築する

この記事では、花、車、猫、馬、人、自転車、犬の 7 種類の何千もの画像でトレーニングされ、特定の画像...