CV退化！心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

世界中の人々は笑ったり悲しんだりするときに同じ表情をしますか？

人々の表情が一貫しているのは当然のことです。たとえば、ブラジル、インド、カナダのいずれの出身であっても、親しい友人に会ったときの笑顔や花火大会を見たときの興奮は基本的に同じです。

しかし、これは本当に合理的なのでしょうか?顔の表情と関連する文脈との関連性は、地理的地域を超えて本当に普遍的なものなのでしょうか?笑顔やしかめっ面は文化によってどのように違うのでしょうか。また、それらは人々の相互関係について何を物語っているのでしょうか。

これらの疑問に答え、人々が文化や地理を超えてどの程度つながっているかを明らかにしようとする科学者は、現地の言語、道徳規範、価値観に大きく依存する調査に基づく研究をよく利用します。そして、そのような研究は拡張性がなく、多くの場合、サンプル数が少なく、結果に一貫性がなくなります。

顔の動きのパターンを研究することで、調査に基づく研究よりも、表情豊かな人間の行動をより直接的に理解することができます。

しかし、日常生活で実際に使用するために顔の表情を分析するには、研究者が何百万時間もの現実世界の映像を精査する必要があり、これは非常に退屈で、多くの手作業を必要とする作業です。

さらに、顔の表情とそれが表される状況は複雑であり、統計的に信頼できる結論を導き出すには大規模なサンプルが必要になります。

既存の研究では、特定の状況における表情の普及に関する質問に対してさまざまな答えが得られていますが、機械学習技術を使用して研究を拡大すると、異なる、より明確な答えが得られるかもしれません。

2019年にネイチャー誌に掲載された論文「世界中で16の表情が類似した状況で発生」は、ディープニューラルネットワークを用いて表情分析を拡張し、日常生活における表情の実際の使用状況を初めて大規模かつ世界規模で分析した論文です。

この論文では、144か国から集められた600万本の公開ビデオのデータセットを使用して、人々がさまざまな表情を使用する状況を分析し、微妙な表情を含む顔の行動の豊かなニュアンスが世界中の同様の社会的状況で使用されていることを示しています。

顔の表情を測定するディープニューラルネットワーク顔の表情は静的なものではありません。ある人が別の人の表情を見ると、最初は怒りのように見えても、その人の表情の力学に応じてさまざまな解釈が生まれ、畏敬の念、驚き、または混乱に変わることがあります。

したがって、顔の表情を理解するニューラルネットワークを構築する際の課題は、その表情を時間的なコンテキストで解釈する必要があることです。このようなシステムをトレーニングするには、表現の意味を完全に説明された大規模で多様な異文化ビデオデータセットが必要です。

データセットを構築するために、注釈者は公開されている幅広いビデオを手動で検索し、事前に選択したカテゴリをカバーする表現が含まれている可能性のあるビデオを特定しました。

ビデオが表す地域と一致するように、ビデオの選択では元の地理的位置を含むビデオが優先されます。

動画内の顔は、Google の Cloud Face Detection API に似た深層畳み込みニューラルネットワーク認識システムを使用して検出されました。このシステムは、従来のオプティカルフローベースのアプローチを使用して動画クリップ内の顔を追跡します。

Google のクラウドソーシングプラットフォームに似たインターフェースを使用して、クリップ中の任意の時点で顔の表情が現れた場合、注釈者はそれを 28 の異なるカテゴリに分類しました。

平均的な人が表現をどのように解釈するかをサンプリングすることが目的であったため、注釈者は指導やトレーニングを受けず、注釈の例や定義も提供されませんでした。

これらの注釈からトレーニングされたモデルに偏りがあるかどうかを評価するための追加の実験について説明します。

顔検出アルゴリズムは、ビデオ全体の各顔の位置のシーケンスを構築します。次に、事前にトレーニングされた Inception ネットワークを使用して特徴を抽出し、顔の表情を表す最も顕著な部分を見つけます。

これらの特徴は、時間の経過とともに顔の表情がどのように変化するかをモデル化し、過去に顕著だった情報を記憶できる再帰型ニューラルネットワークである長短期記憶ネットワーク（LSTM）に入力されました。

モデルがさまざまな人口統計グループにわたって一貫した予測を行うことを保証するために、16 の表情の中で最もパフォーマンスの高い表情をターゲットにして、類似の表情ラベルを使用して構築された既存のデータセットでモデルの公平性を評価します。

モデルのパフォーマンスは、すべての人口統計グループを代表する評価データセット全体で一貫しており、モデルのトレーニング用に注釈が付けられた顔の表情には測定できないバイアスがあることを示唆しています。モデルは 16 種類の表情について 1500 枚の画像に注釈を付けます。

何百万ものビデオにおける表情の文脈を理解するために、実験ではビデオに記録された表情の前後の部分も測定しました。この論文では、きめ細かいコンテンツをキャプチャし、コンテキストを自動的に識別できるニューラルネットワークを使用しています。

最初の DNN は、ビデオ関連のテキスト機能 (タイトルと説明) と実際のビジュアルコンテンツ (ビデオトピックモデル) を組み合わせたものです。

2 番目の DNN は、視覚情報なしでテキスト機能のみに依存します (テキストトピックモデル)。

モデルは、ビデオを説明する数万のカテゴリラベルを予測し、この実験では、数百の固有のコンテキスト (結婚式、スポーツイベント、花火など) を認識して、分析対象のデータの多様性を実証できます。

論文で報告された最初の実験では、研究者らは、自然な表情が含まれている可能性が高い携帯電話で撮影された公開ビデオ300万本を分析した。

その後、ビデオに登場する顔の表情は、ビデオトピックモデルからのコンテキスト注釈と関連付けられました。その結果、16 の顔の表情が日常の社会的コンテキストと異なる形で関連付けられていることが判明し、これらの関連付けは世界中で一貫していました。たとえば、楽しい表情はいたずらと一緒に現れる可能性が高く、興奮した表情は花火と一緒に現れる可能性が高く、勝利の表情はスポーツイベント中によく現れます。

これらの結果は、個人、文化、社会に特有の要因など、他の要因よりも、顔の表情が使用される心理的文脈の議論に大きな影響を与えます。

2 番目の実験では、テキストトピックモデルを使用してコンテキストを注釈付けした 300 万本の個別のビデオを分析しました。結果は、最初の実験からの発見が、ビデオトピックモデル注釈に対するビデオ内の顔の表情の微妙な影響によってもたらされたものではないことを確認しました。言い換えれば、この実験は、ビデオトピックモデルがコンテンツラベルを計算するときに暗黙的に顔の表情を考慮する可能性があるという最初の実験から得られた結論を裏付けています。

どちらの実験でも、表現と文脈の相関関係は文化を超えて良好に保たれているようでした。研究対象となった12の世界の異なる地域間で表現と文脈の関連性がどの程度類似しているかを正確に定量化するために、研究者らは各地域のペア間の二次相関を計算した。これらの相関関係により、各地域のさまざまな表現とコンテキストの関係が識別され、他の地域と比較されます。

最終的に、各地域で見つかった文脈表現の関連性の 70% が世界中で共有されているという結論に達しました。

機械学習により、研究者は世界中の何百万ものビデオを分析し、文化を超えて同様の状況では顔の表情がある程度保存されるという仮説を裏付ける証拠を見つけることができました。

この結果には文化的な違いも残されており、顔の表情と状況の相関関係は世界中で 70 パーセント一貫していたのに対し、地域間では 30 パーセントしか一貫していませんでした。世界の隣接地域における表情と文脈の関連性は、一般的に遠い世界の地域における関連性よりも類似しており、人間の文化の地理的広がりも表情の意味に影響を与える可能性があることを示唆している。

この研究は、機械学習が自分自身をよりよく理解し、文化を超えたコミュニケーションの共通要素を識別できることを示唆しています。ニューラルネットワークなどのツールにより、多種多様な大量のデータを科学的発見に取り入れることができるようになり、統計的な結論に対する信頼性が高まります。

<<: Google、一般的な皮膚疾患を識別するための新しいAIツールを発表

>>: 自動運転車の分野での課題は何ですか?