CV退化!心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

CV退化!心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

世界中の人々は笑ったり悲しんだりするときに同じ表情をしますか?

[[402741]]

人々の表情が一貫しているのは当然のことです。たとえば、ブラジル、インド、カナダのいずれの出身であっても、親しい友人に会ったときの笑顔や花火大会を見たときの興奮は基本的に同じです。

しかし、これは本当に合理的なのでしょうか?顔の表情と関連する文脈との関連性は、地理的地域を超えて本当に普遍的なものなのでしょうか?笑顔やしかめっ面は文化によってどのように違うのでしょうか。また、それらは人々の相互関係について何を物語っているのでしょうか。

これらの疑問に答え、人々が文化や地理を超えてどの程度つながっているかを明らかにしようとする科学者は、現地の言語、道徳規範、価値観に大きく依存する調査に基づく研究をよく利用します。そして、そのような研究は拡張性がなく、多くの場合、サンプル数が少なく、結果に一貫性がなくなります。

顔の動きのパターンを研究することで、調査に基づく研究よりも、表情豊かな人間の行動をより直接的に理解することができます。

しかし、日常生活で実際に使用するために顔の表情を分析するには、研究者が何百万時間もの現実世界の映像を精査する必要があり、これは非常に退屈で、多くの手作業を必要とする作業です。

さらに、顔の表情とそれが表される状況は複雑であり、統計的に信頼できる結論を導き出すには大規模なサンプルが必要になります。

既存の研究では、特定の状況における表情の普及に関する質問に対してさまざまな答えが得られていますが、機械学習技術を使用して研究を拡大すると、異なる、より明確な答えが得られるかもしれません。

2019年にネイチャー誌に掲載された論文「世界中で16の表情が類似した状況で発生」は、ディープニューラルネットワークを用いて表情分析を拡張し、日常生活における表情の実際の使用状況を初めて大規模かつ世界規模で分析した論文です。

この論文では、144か国から集められた600万本の公開ビデオのデータセットを使用して、人々がさまざまな表情を使用する状況を分析し、微妙な表情を含む顔の行動の豊かなニュアンスが世界中の同様の社会的状況で使用されていることを示しています。

顔の表情を測定するディープ ニューラル ネットワーク 顔の表情は静的なものではありません。ある人が別の人の表情を見ると、最初は怒りのように見えても、その人の表情の力学に応じてさまざまな解釈が生まれ、畏敬の念、驚き、または混乱に変わることがあります。

したがって、顔の表情を理解するニューラル ネットワークを構築する際の課題は、その表情を時間的なコンテキストで解釈する必要があることです。このようなシステムをトレーニングするには、表現の意味を完全に説明された大規模で多様な異文化ビデオ データセットが必要です。

データセットを構築するために、注釈者は公開されている幅広いビデオを手動で検索し、事前に選択したカテゴリをカバーする表現が含まれている可能性のあるビデオを特定しました。

ビデオが表す地域と一致するように、ビデオの選択では元の地理的位置を含むビデオが優先されます。

動画内の顔は、Google の Cloud Face Detection API に似た深層畳み込みニューラル ネットワーク認識システムを使用して検出されました。このシステムは、従来のオプティカル フロー ベースのアプローチを使用して動画クリップ内の顔を追跡します。

Google のクラウドソーシング プラットフォームに似たインターフェースを使用して、クリップ中の任意の時点で顔の表情が現れた場合、注釈者はそれを 28 の異なるカテゴリに分類しました。

平均的な人が表現をどのように解釈するかをサンプリングすることが目的であったため、注釈者は指導やトレーニングを受けず、注釈の例や定義も提供されませんでした。

これらの注釈からトレーニングされたモデルに偏りがあるかどうかを評価するための追加の実験について説明します。

顔検出アルゴリズムは、ビデオ全体の各顔の位置のシーケンスを構築します。次に、事前にトレーニングされた Inception ネットワークを使用して特徴を抽出し、顔の表情を表す最も顕著な部分を見つけます。

これらの特徴は、時間の経過とともに顔の表情がどのように変化するかをモデル化し、過去に顕著だった情報を記憶できる再帰型ニューラルネットワークである長短期記憶ネットワーク(LSTM)に入力されました。

モデルがさまざまな人口統計グループにわたって一貫した予測を行うことを保証するために、16 の表情の中で最もパフォーマンスの高い表情をターゲットにして、類似の表情ラベルを使用して構築された既存のデータセットでモデルの公平性を評価します。

モデルのパフォーマンスは、すべての人口統計グループを代表する評価データセット全体で一貫しており、モデルのトレーニング用に注釈が付けられた顔の表情には測定できないバイアスがあることを示唆しています。モデルは 16 種類の表情について 1500 枚の画像に注釈を付けます。

何百万ものビデオにおける表情の文脈を理解するために、実験ではビデオに記録された表情の前後の部分も測定しました。この論文では、きめ細かいコンテンツをキャプチャし、コンテキストを自動的に識別できるニューラル ネットワークを使用しています。

最初の DNN は、ビデオ関連のテキスト機能 (タイトルと説明) と実際のビジュアル コンテンツ (ビデオ トピック モデル) を組み合わせたものです。

2 番目の DNN は、視覚情報なしでテキスト機能のみに依存します (テキスト トピック モデル)。

モデルは、ビデオを説明する数万のカテゴリ ラベルを予測し、この実験では、数百の固有のコンテキスト (結婚式、スポーツ イベント、花火など) を認識して、分析対象のデータの多様性を実証できます。

論文で報告された最初の実験では、研究者らは、自然な表情が含まれている可能性が高い携帯電話で撮影された公開ビデオ300万本を分析した。

その後、ビデオに登場する顔の表情は、ビデオ トピック モデルからのコンテキスト注釈と関連付けられました。その結果、16 の顔の表情が日常の社会的コンテキストと異なる形で関連付けられていることが判明し、これらの関連付けは世界中で一貫していました。たとえば、楽しい表情はいたずらと一緒に現れる可能性が高く、興奮した表情は花火と一緒に現れる可能性が高く、勝利の表情はスポーツイベント中によく現れます。

これらの結果は、個人、文化、社会に特有の要因など、他の要因よりも、顔の表情が使用される心理的文脈の議論に大きな影響を与えます。

2 番目の実験では、テキスト トピック モデルを使用してコンテキストを注釈付けした 300 万本の個別のビデオを分析しました。結果は、最初の実験からの発見が、ビデオ トピック モデル注釈に対するビデオ内の顔の表情の微妙な影響によってもたらされたものではないことを確認しました。言い換えれば、この実験は、ビデオ トピック モデルがコンテンツ ラベルを計算するときに暗黙的に顔の表情を考慮する可能性があるという最初の実験から得られた結論を裏付けています。

どちらの実験でも、表現と文脈の相関関係は文化を超えて良好に保たれているようでした。研究対象となった12の世界の異なる地域間で表現と文脈の関連性がどの程度類似しているかを正確に定量化するために、研究者らは各地域のペア間の二次相関を計算した。これらの相関関係により、各地域のさまざまな表現とコンテキストの関係が識別され、他の地域と比較されます。

最終的に、各地域で見つかった文脈表現の関連性の 70% が世界中で共有されているという結論に達しました。

機械学習により、研究者は世界中の何百万ものビデオを分析し、文化を超えて同様の状況では顔の表情がある程度保存されるという仮説を裏付ける証拠を見つけることができました。

この結果には文化的な違いも残されており、顔の表情と状況の相関関係は世界中で 70 パーセント一貫していたのに対し、地域間では 30 パーセントしか一貫していませんでした。世界の隣接地域における表情と文脈の関連性は、一般的に遠い世界の地域における関連性よりも類似しており、人間の文化の地理的広がりも表情の意味に影響を与える可能性があることを示唆している。

この研究は、機械学習が自分自身をよりよく理解し、文化を超えたコミュニケーションの共通要素を識別できることを示唆しています。ニューラル ネットワークなどのツールにより、多種多様な大量のデータを科学的発見に取り入れることができるようになり、統計的な結論に対する信頼性が高まります。

<<:  Google、一般的な皮膚疾患を識別するための新しいAIツールを発表

>>:  自動運転車の分野での課題は何ですか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

柯潔はなぜ「負けてカッとなった」と言ったのか!人間対機械の第一ラウンドを説明する8つの質問

4時間以上の対局の末、柯潔はAlphaGoに0.25ポイント差で負けた。対局後、アルファ碁の指導に参...

AIの発展が遺伝子工学を推進している

CRISPRは遺伝子編集技術の専門用語です。簡単に言えば、ウイルスは細菌に自身の遺伝子を組み込み、細...

...

WeChat、サードパーティのエコシステムに統合するインテリジェント会話システム「Xiaowei」を発表

2019年WeChatオープンクラスPROで、WeChat AIチームが開発したインテリジェント対話...

北京の平昌冬季オリンピック閉会式にAIとモバイクの自転車シェアリングが8分間強制的に介入

「人工知能、ユニークだと思います」。2月24日、北京8分監督のチャン・イーモウ氏が公演のハイライトを...

Nougat: 科学文書の OCR 用トランスフォーマー モデル

人工知能の分野は継続的に進歩しており、自然言語処理、自然言語生成、コンピュータービジョンなどのサブフ...

クラウドコンピューティングの人工知能の開発は遅いものの、注目を集めています

IT プロフェッショナルが AI の適用を実験する際、その多くはパブリック クラウドでそれを実行する...

粒子ロボットの出現はロボットの自己認識覚醒の危機をもたらすかもしれない

11月3日、2019年テンセントサイエンスWEカンファレンスで、世界中の科学者が細胞治療、脳チップ、...

写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

...

医療機器における人工知能:これらは新たな産業アプリケーションです

人工知能により、研究者や製造業者は生活の質を向上させることができます。 [[419960]]人工知能...

AIが開発ツールを進化させる方法

[[410767]] GitHub Copilot、DeepDev、IntelliCode、その他の...

RPA がコロナウイルス危機を乗り越えるために組織をどのように支援しているか

世界中でコロナウイルスが流行しているため、多くの組織が優先順位を変更しました。その結果、組織がコスト...