運試しに自撮りしてみませんか?これはすべて顔認識技術のおかげです

運試しに自撮りしてみませんか?これはすべて顔認識技術のおかげです

新年の初めに、酉年の運勢を計算することは、多くの若者が夕食後に好んで行うことです。 「占い」はどちらかと言うと娯楽的な行為ですが、人々に自信を与えたり警告を与えたり、心理学的な観点から真に「運命を変える」こともできます。

[[185755]]

興味深いことに、今年の春節期間中、百度画像検索は「自撮り運勢テスト」ツールを開始しました。携帯電話で百度を開き、カメラを向けて自撮り写真を撮ったり、写真をアップロードしたりすると、画像検索で新年の運勢がわかります。多くのネットユーザーが写真をアップロードして自分の運勢を試しています。この新機能は、かなり面白いように見えます。なぜなら、多くの人が、携帯電話で実際に占いができると冗談を言っているからです。実際には、それはまったく面白くありません。なぜなら、「自撮り占い」は画像認識のブラックテクノロジーを使用しており、このブラックテクノロジーは実際のスキルに依存しているからです。

「運勢鑑定」の裏に隠された秘密とは?

「Selfie Fortune Test」ツールは、主にBaiduの画像検索機能を活用し、Baiduの画像認識技術に依存し、顔認識技術に基づいて、眉毛、目、唇、顔の形を含む4つの主要な検出ポイントを評価し、スコア付けします。包括的な顔の特徴と伝統的な中国の人相学研究を組み合わせることで、ユーザーに新年の運勢分析を提供します。

正直に言えば、「運勢診断」機能は科学的根拠があまりありませんが、本物の「ブラックテクノロジー」です。人の顔の情報は非常に豊富で、一人一人が全く異なるため、顔の形、眉毛、目、鼻などの輪郭情報をキーポイントと呼びます。

百度の顔認識技術は、主に各人の顔画像を、輪郭の位置補正、全体粗位置補正、局所微位置補正、顔の72のキーポイントの特徴の追跡など、複数のラウンドで処理し、顔の表情ネットワークに組み合わせて各人の表情や外見の特徴を認識し、いわゆる「運勢」を推測して春節の期間中に人々を楽しませ、皆に喜びをもたらします。

「占い」のほか、百度脳を搭載した小度ロボットは最近、「***脳」の舞台で、失敗しない「水兄さん」王宇恒に勝利したが、その競技内容は顔認識だった。番組収録前に、王宇恒は自らビデオの明るさを20%下げるよう要求し、チャレンジの難易度を数倍に上げ、小都ロボットを倒そうとした。

王宇恒氏は難易度が増したことについて語った。彼が考えていたのは、暗くなればなるほど、コンピューターのノイズが増えるのではないかということだ。明るさを下げると、(コンピューターが処理しているときに)(明るさを)戻せなくなるかもしれない。しかし、画像認識の精度は人間よりもはるかに高いです。機械認識も主に画像の輪郭に依存しており、明るさの低下を恐れることはありません。

画像認識は簡単そうに見えますが、実は非常に難しいです

占いを見たり、小都が水歌を倒したりすると、ほとんどの場合、それはほんの数秒で起こります。前述の顔の72個のキーポイントを追跡する機能は、ほんの一瞬で実行されるようです。

しかし、顔を認識することは簡単そうに見えますが、実は非常に困難です。人間の顔には類似点があり、個人差はあまりありません。人間の顔の構造はすべて似ており、顔の器官の構造や外観も非常に似ています。このような特徴は、顔を使って位置決めをするのには有利ですが、顔を使って人間同士を区別するのには不利です。

第二に、個々の顔は変化します。顔の外観は非常に不安定です。人は顔の変化を通じて多くの表情を作り出すことができ、顔の視覚的なイメージは観察角度によって大きく異なります。さらに、顔認識は、照明条件(昼と夜、屋内と屋外など)、さまざまな顔の覆い(マスク、サングラス、髪、ひげなど)、年齢など、多くの要因によっても影響を受けます。

これが、画像認識がアルゴリズムとデータの豊富さをテストする理由です。海外にLabelMeという画像データベースがあります。上の写真は、非常に詳細に描かれた画像の 1 つです。家の形や輪郭、窓、車、草や道路がすべてはっきりと描かれています。このライブラリには約 100,000 枚の画像があり、そのうち明確にマークされている画像が約 10,000 枚あります。これらの画像は少しずつ手動で入力されます。

*** Brain プログラムにおける Xiaodu ロボットと Shui Ge Wang Yuheng の競争を例に挙げてみましょう。 Xiaodu のアルゴリズムは、さまざまな周囲光源のテスト、さらには顔の姿勢やアクセサリのテスト、さらにはカメラ画像の問題や動的監視におけるフレーム損失の影響にも対処する必要があります。ロボットが顔を認識する場合、顔検出、顔の前処理、顔画像の特徴抽出、顔画像のマッチング、認識などの一連のプロセスを実行する必要があります。

これらの困難は、実際にはマシンビジョンの精度をテストするものです。しかし、百度がこの分野での研究を深めるにつれて、画像認識技術はますます正確になるでしょう。

顔認識の実際的な応用は何ですか?

もちろん、占いやバラエティ番組は、私たちの生活からはまだ少し遠い存在です。では、画像検索は日常生活でどのような応用が可能なのでしょうか? これが私たちに本当に影響を与える問題なのかもしれません。

画像検索や顔認識などの技術が真に応用できる領域は、この4つの領域のように数多くあります。

1. 写真を撮って翻訳したり、写真を撮って答えを探したり、薬を調べたり、料理のレシピを特定したりするなど、一連のサービスを提供し、言葉では説明できず画像でしか説明できない人々の生活の多くの問題を解決します。外出中に気に入った商品を見つけたら、ショッピング アプリを開いて商品を特定し、直接購入することができます。例えば、Baidu モバイルアプリは豚の角煮の写真を認識すると、その作り方を直接表示します。

2. 画像認識技術は人間よりもはるかに信頼性が高いため、インターネット金融の信用付与にも利用されており、中間リンクを短縮し、信用付与のセキュリティを向上させ、さらには顔認識による支払いも実現できます。百度ファイナンスは実際にすでに金融信用に顔認識を適用しています。この方法により、即時承認が実現し、個人情報の不正使用を防ぐことができます。これにより、財務上の安全性が大幅に向上します。

3. わが国における第2世代IDカードの普及により、中国国内の12億人以上の人々の身分証明書にデジタル写真データが提供されました。セーフシティネットワークに接続された数百万台の監視カメラも毎日膨大な量のデータ情報を生み出しています。公安はビッグデータ応用の時代に入りました。膨大なデータ情報に支えられた顔認識技術は、公安部門が行方不明の子供を探したり事件を解決したりするための技術サポートを提供する重要な基盤となっている。

4. 自動運転車などの将来の技術に備えて、百度の自動運転車は、リアルタイムの道路状況を継続的に収集するレーダーと、これらの画像やビデオを分析および処理する車内のコンピューターを搭載しているため、運転中に他の車両や歩行者を自動的に回避できます。画像認識技術は、将来の自動運転車にとって重要な基礎サポートとなると言えるでしょう。

[編集者:seeker TEL: (010) 68476606]

<<:  NASA、狭い場所でも移動できる折り紙ロボットを開発

>>:  「顔認証」は大人気だけど、知らないことも多い

ブログ    
ブログ    

推薦する

NVIDIA はフーリエ モデルを使用して前例のない天気予報精度を実現

現代の数値天気予報 (NWP) は 1920 年代にまで遡ります。今日では、数値天気予報はいたるとこ...

プレミアリーグファンに朗報:AIはチームの勝率とゴール時間を予測できるのか?

[[423663]] 2021-22シーズンのイングランド・プレミアリーグが開幕し、初日にアーセナ...

写真を3Dに変換する品質が急上昇! GitHub がショートポジションをオープンしたところ、300 人以上がスターを付けました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

清華大学は、2D拡散モデルを使用して不完全な3Dオブジェクトを補完する3D再構築の新しい方法、O²-Reconを提案しました。

コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に...

これはホログラムではありません!多角度から視聴できる真の3D画像

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

少数ショット学習における SetFit によるテキスト分類

翻訳者 |陳俊レビュー | Chonglouこの記事では、「少量学習」の概念を紹介し、テキスト分類で...

強く連結されたコンポーネントを解決するための Tarjan アルゴリズムを実装する 20 行のコード

今日紹介するアルゴリズムは Tarjan と呼ばれていますが、これも非常に奇妙な名前です。奇妙なのは...

...

韓国の通信事業者SKT、通信業界向け大規模AIモデルの開発のためOpenAIの競合企業に1億ドルを投資

大規模な AI モデルのトレンドは通信業界にも浸透しています。米国のAIスタートアップ企業Anthr...

北京大学と智遠は、大規模モデルが自律的にオープンワールドを探索できるようにするトレーニングフレームワークLLaMA-Riderを提案した。

大規模言語モデルは、強力で普遍的な言語生成および理解機能を備えているため、汎用的なインテリジェントエ...

OpenAIがついにオープン:DALL-E 3の論文が発表され、ChatGPTが開始、著者の半数が中国人

最後に、「OpenAI は再びオープンになりました。」 OpenAIが発表したばかりのDALL・E ...

...

Photoshop 2020が登場、人工知能でデザインが簡単に

Photoshop Elements 2020エディション数日前、Adobe は最新バージョンの ...

ガートナー: 人工知能に関するよくある誤解5つ

[[259329]] 2018年上半期現在、中国には922社の人工知能企業があり、そのうち97%は今...