この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。 この記事では、画像処理におけるいくつかの重要な概念を紹介します。各ステップを詳しく説明するだけでなく、Cv2 および DLib ライブラリを使用して Python で簡単に顔認識を実行するプロジェクトも提供します。 関心分野 顔分析のために画像を扱う際の最も重要な概念の 1 つは、関心領域 (ROI) を定義することです。画像内で、フィルタリングしたり、何らかの操作を実行したりする特定の部分を定義する必要があります。 たとえば、車のナンバープレートをフィルタリングする必要がある場合、関心領域はナンバープレートだけであり、道路、車体、および画像に表示されるその他のものはすべて補助的な部分になります。この例では、画像の分割をサポートし、関心領域を決定するのに役立つ OpenCV ライブラリを使用します。 ハール図書館 このプロジェクトでは、既製の分類器であるカスケード Haar 分類器を使用します。この特定の分類器は常にグレースケール画像で機能します。 アルゴリズムは、分析対象との類似性を識別するジオメトリを生成します。したがって、この場合は、目、鼻、口などの顔のパターンを見つけようとします。この分析方法の最大の問題は、錯覚を生み出すことです。 あなたが見ているのは人間の目ですか、それとも窓ですか? ギリシャ語の語源を持つパレイドリアは、人間の特徴です。私たちの脳は子供の頃から、画像内の物体や顔を認識するようにプログラムされています。私たち自身の脳は、以前に獲得した経験を利用して、「人間」として認識した特徴に基づいてパターンを検索し、そこに新しい人間の顔を追加します。 Haar顔特徴分類器の使用 次の画像を例に挙げます。 この写真の顔を認識するコードを見てみましょう。
アルゴリズムは画像をグレースケール画像に変換します。これは、前述のように、分類器の動作における基本的なステップです。次に、 dectedMultiScale 関数を使用して画像内の顔を検索し、四角形を描画して画像の位置を表示します。顔が見つかると、結果は次のようになります。 写り込んだ顔のうち 2 つを正確に分析することができました (顔を長方形で囲みます)。そのうち 2 つは顔が完全に正面から写っており、顔が完全に露出していたため、顔がはっきりと見えました。もう 1 つは顔の一部しか写っていなかったため、完全な顔であると確認できる正確な情報は得られませんでした。 顔の特徴検出 Dlib は、目、眉毛、鼻、人形の領域など、顔の特定の部分を検出するのに役立つ分類器を備えたライブラリです。次の図を例に挙げます。 次に、アルゴリズムを使用して画像内の顔のランドマークを識別します。
私たちは、点と顔をより正確に理解しようとする顔 68 特徴分類器を使用しており、これにより結果を分析するためのオプションが増えます。欠点は、少し遅いことです。したがって、顔がどこにあるかを判断するために長方形を描く必要があります。特徴とは、顔、口、目、眉毛など、私たちが認識できる顔の特徴のことです。 顔を長方形で囲んだら、関数によって返された特徴を使用して、最終的に顔のポイントを含む画像を視覚化して生成できるようになります。消す: これらのポイントは、顔の表情を認識するのに役立ちます。たとえば、男の子が目を開いて口を閉じていることを認識できます。これを感情の表れとして見ると、少年は不安を抱いていると言えます。人が笑うとき、その感情は幸福を表している可能性があると理解すると役立ちます。 上記の例は、Python が関心領域(この場合は顔認識)を識別できることを示しています。このプロジェクトは、機械学習を使用して、画像内の人物が幸せか、悲しいか、心配しているかを検出するように拡張することもできます。 すべてのコンテンツを含むプロジェクトは、https://github.com/LimaGuilherme/facial-recognize から入手できます。 |
<<: 新型コロナウイルスに対して、最高のAI定量モデルでさえあまり信頼できない
>>: AI の将来とそれがビジネスに与える意味は何でしょうか?
人工知能(AI)革命は半世紀以上前に始まりました。過去 10 年間で、人工知能は学術科学の領域から私...
2021年以降、企業内部者によるデータ侵害、損失、盗難は月平均28%増加しており、回答者の85%は今...
2020年12月2日午前9時、知恵とリソースを集めることを目的とした2日間のOpenI/O 2020...
Google は最近、検索ページの新しい機能である Google ナレッジグラフをリリースしました。...
企業のデジタル ツインを作成し、ロボティック プロセス オートメーション (RPA) などの自動化テ...
高品質のデータ セットを使用して命令のチューニングを実行すると、大規模なモデルのパフォーマンスを迅速...
ChatGPT によって開始された AI の波は私たちを人工知能の時代へと導き、言語モデルは日常生活...
レノボ・エンタープライズ・テクノロジー・グループは12月8日、「レノボ・インテリジェント・トランスフ...
半期会議がもうすぐ開かれますが、上司はみんなでしっかり計画を立てるように言いました。私たちの将来の方...
6月16日、MetaのCEOマーク・ザッカーバーグ氏とその代理人は、Metaが開発中の新しい人工知...
[[332916]]ニーダーザクセン州オスナブリュック、2020年6月19日:メラニー・プロッパ先生...
機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年...
現在、データはデジタル環境に残っており、共有する動機はほとんどありません。これにより、Google、...
[[253605]] [やや活発な***四半期] 2018.3.04——OpenAIはオープンソース...