顔認識の3つの主要技術と4つの主要機能

顔認識の3つの主要技術と4つの主要機能

2016年百度世界大会が開幕し、百度創始者の李承燁氏は大会で「人工知能」をテーマに講演し、最新製品「百度脳」を発表して出展者に感銘を与えた。その画像認識能力は非常に優れており、顔認識の確率は97%に達した。現在、業界全体では顔認識に関連する触媒的出来事に注目が集まっています。

以前、小米科技は、小米の顔検出チームが開発した新しいアルゴリズムがFDDB顔検出精度で世界一になったと発表しました。その後すぐに、百度、テンセント、360などの国内インターネット大手も顔検出アルゴリズムチームを設立し、プラットフォーム評価に積極的に参加しました。さらに、Apple、Samsung、Huawei、Facebook、Googleなどの端末大手も顔認識の分野への参入を競っています。過去にIDカード認識が人気を博したように、今後も応用シナリオが増え続けるにつれて、顔認識機能が消費者向け端末の次の大きな方向性となる可能性が高い。

顔認識は、顔の特徴に基づいて人物を識別する生体認証技術です。カメラまたはビデオカメラを使用して顔を含む画像またはビデオをキャプチャし、画像情報を自動的に検出して顔を追跡し、検出された顔に対して一連の顔分析手法を実行します。

顔検出とは、複雑な背景から対象の顔画像を抽出することを指します。顔の毛、化粧品、照明、ノイズ、顔の傾きやサイズの変化、さまざまな遮蔽などの要因により、顔検出の問題がさらに複雑になる可能性があります。顔認識技術の主な目的は、入力画像全体から特定の顔領域を見つけ、それによってその後の顔認識を準備することです。

[[185749]]

顔認識の3つの主要技術

1. 特徴ベースの顔検出技術: 色、輪郭、テクスチャ、構造、またはヒストグラムの特徴を使用して顔検出が実行されます。

2. テンプレートマッチングに基づく顔検出技術:データベースから顔テンプレートを抽出し、特定のテンプレートマッチング戦略を採用して、キャプチャされた顔画像とテンプレートライブラリから抽出された画像をマッチングします。顔のサイズと位置情報は、相関度とマッチングされたテンプレートのサイズによって決定されます。

3. 統計的顔検出技術:「顔」と「非顔」の画像を大量に収集して顔の正と負のサンプルライブラリを形成し、統計的手法を使用してシステムを強化およびトレーニングし、顔と非顔のパターンの検出と分類を実現します。

顔認識の4つの主な特徴

1. 幾何学的特徴:顔の点間の距離と比率を特徴として使用します。認識速度が速く、メモリ要件が比較的小さく、光に対する感度が低くなります。

2. モデルの特徴に基づいて、さまざまな特徴状態のさまざまな確率に基づいて顔画像の特徴を抽出します。

3. 統計的特徴に基づく: 顔画像はランダムベクトルとみなされ、統計的手法を使用してさまざまな顔の特徴パターンが識別されます。代表的な手法には、固有顔、独立成分分析、特異値分解などがあります。

4. ニューラルネットワークの特徴に基づく:多数のニューラルユニットを使用して顔画像の特徴を連想的に保存および記憶し、さまざまなニューラルユニットの状態の確率に基づいて顔画像を正確に認識します。

顔認識とは、関連する認識アルゴリズムを使用して抽出された顔画像の特徴に基づいて顔を確認または区別するプロセスです。つまり、識別対象として検出された顔をデータベース内の既知の顔と比較・照合して関連情報を取得します。このプロセスの鍵となるのは、適切な顔表現方法と照合戦略を選択することです。システムの構造は顔表現方法と密接に関係しています。一般的に、提案された特徴に基づいて、測定用にさまざまな認識アルゴリズムが選択されます。一般的に使用されるものには、距離測定、サポートベクターマシン、ニューラルネットワーク、k-means クラスタリングなどがあります。

<<:  顔認識における克服すべき困難

>>:  JavaScript 面接でよくあるアルゴリズムの質問の詳細な説明

ブログ    
ブログ    
ブログ    

推薦する

Pythonでゲームボーイエミュレーターを作成し、AIモデルをトレーニングする:デンマーク人の大学のプロジェクトが大ヒット

Atari ゲームを使って人工知能を研究するのは、ちょっと現実的ではないと感じますか?これでゲームボ...

人工知能はデータ活用効率を向上させ、他産業とのAI統合を加速させる

コンピューティング能力は、デジタル技術の継続的な発展とデジタル経済時代の中核的な生産性にとって重要な...

ドバイが無人「空飛ぶ車」を試験:世界初のドローン旅客サービスとなる見込み

[[204952]]ボロコプター、ドバイで無人空飛ぶ車のテストを開始ロイター通信は北京時間9月26日...

AIが写真を見て場所を推測、その精度は90%以上!スタンフォードの最新のPIGEONモデル:予測誤差の40%は25キロメートル未満

インターネット上に何気なく投稿された写真から、どれほどの情報が漏れてしまうのでしょうか?外国人ブロガ...

3D MRI および CT スキャンのディープラーニング モデルの概要

医療画像データと他の日常的な画像との最大の違いの 1 つは、DICOM シリーズ データを扱う場合、...

...

ロボットが2000万の仕事に取って代わる:最大の懸念は30代なのに何も知らないこと

[[269741]] 01 数日前、あるニュースが私の周りの多くの人々に反省と心配を抱かせました。 ...

LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

[[423163]]近年、マルチエージェント強化学習は飛躍的な進歩を遂げています。例えば、Deep...

C# データ構造とアルゴリズムにおける線形テーブルの簡単な分析

C# データ構造とアルゴリズムの線形リストとは何ですか?まず、C# のデータ構造とアルゴリズムにおけ...

手書きを模倣するAIが独自のフォントを作成

手書き模倣AIの研究背景諺にあるように、人の筆跡はその人の性格を表す。硬い印刷フォントと比較すると、...

レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

オランダのラドバウド大学は8月2日、MetaやOpenAIなどの企業が「オープンソース」という用語を...

何か効率的な「錬金術」アーティファクトをお勧めいただけますか? Fudan fastNLPチームが内部パラメータ調整ツールfitlogをリリース

このパラメータ調整ツールは、実験結果の表形式表示、カスタムメモ、フロントエンド操作の記録の削除/非表...

資金調達は引き続き好調:6月の自動運転分野における資金調達活動の概要

近年、自動運転の開発が本格化し、多くの企業や資本が参入しています。こうした背景から、もうすぐ終わる6...

Redis に基づく分散ロックと Redlock アルゴリズム

[[414221]]この記事はWeChatの公開アカウント「UP Technology Contro...

自然言語処理 (NLP) 開発で注目に値するオープン ソース ツールにはどのようなものがありますか?

インテリジェント音声アシスタントとチャットボットは、現在人工知能のホットスポットであり、画期的な進歩...