世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

[[387945]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

顔認識の分野では、中国チームが再び好成績を達成した。

世界最大の顔データセットが公開されました。

初めて、数百万のID数億枚の画像が含まれています。

これは、 Xinyi Technology清華大学オートメーション学部のインテリジェントビジョン研究室と協力して発表したWebFace 260Mです。関連研究はCVPR 2021に採択されています。

さらに、クリーンアップされたデータセットWebFace42Mに基づいて、最も困難な IJBC テスト セットで SOTA レベルに到達しました。

そして、それがもたらす「世界最高」はそれ以上のものです。

このデータセットに基づき、Xinyi Technology は最新の NIST-FRVT リストにおけるマスク顔認識評価で世界第 1 位を獲得しました。

世界最大の顔データセットはどのようなものなのでしょうか?

WebFace260M データセットは、世界中のインターネット上の公開顔データに完全に基づいています。

その登場により、これまでの顔データセットの規模が一気に破られました。

規模が過去最大なだけでなく、顔IDと写真の数がそれぞれ400万件、2億6000万件に達したのも初めてです。

さらに、研究者らは、自己トレーニングの完全自動反復に基づくクリーニングプロセス(Cleaning Automatically by Self-Training、CAST) も提案しました。このアプローチは、インターネットの顔データの観察と分析からヒントを得ています。

WebFace260M データは大まかな分類を提供し、クリーニング アルゴリズムの初期構造として使用できます。さらに研究者らは、埋め込まれた特徴が大規模なノイズの多い顔データをクリーンアップする上で非常に重要であり、データとモデルを同時に反復処理することでこの機能を強化できることを発見しました。したがって、クリーニングプロセス全体を下の図に示します。

  • まず、MS1M と呼ばれる公開データセットを使用して「教師モデル」をトレーニングし、元の WebFace260M をクリーンアップします。
  • 次に、「学生モデル」を使用して、前のステップでクリーンアップされた画像をトレーニングします。
  • 最後に、「生徒モデル」を「教師モデル」に切り替えて、高品質の WebFace42M が得られるまで繰り返します。

このようにして、WebFace260M をクリーニングした後、 WebFace42Mが得られました。

これは、トレーニングに直接使用できる世界最大のクリーンフェイスデータセットであると報告されています。

200 万の ID と 4,200 万の画像が含まれています。

世界中の WebFace260M と WebFace42M のデータ比較は一目瞭然です。

同時に、顔認識の現在の評価問題に対応するため、研究者らは、より実用に近い「時間制約付き顔認識評価基準」FRUITS(Face Recognition Under Inference Time conStraint)と、より広い分布、より挑戦的でより詳細な分類を備えた顔テストセットを発表し、顔認識評価を実際のシナリオに近づけています。

同時に、研究者はテストセットと評価システムの維持、反復、アップグレードを継続し、業界の技術開発を継続的に推進していきます。

この種のデータセットは役に立ちますか?

この質問に対する答えは「はい」であり、それは非常に専門的に実践され、認められている種類のものです。

WebFace42M を例にとると、現在公開されている最も難易度の高い IJBC テスト セットで新しい SOTA を達成でき、相対エラー率が 40% 削減されます。

さらに、米国国立標準技術研究所が主催し、常に「顔認識の黄金コンペティション」として知られているNIST-FRVTというコンペティションがあります。

評価セットが非公開であること、提出頻度が厳しく制限されていること、計算時間も厳しく制限されていることなど、多くの厳しい要件があるため、世界で最も厳格で権威のある顔認識アルゴリズムの評価と言えます。

では、WebFace42M のデータがこのような困難な出来事に遭遇すると、どのような火花が散るのでしょうか?

昨年 10 月には、WebFace42M データのみを使用して、Xinyi Technology は NIST-FRVT リストで上位 3 位にランクされました。

最新のNIST-FRVTリストでは、WebFace42Mをベースに、「マスク着用での顔認識評価」で再び「世界記録」を樹立し、優勝を果たしました。

そして、データから、結果が 2 位の結果よりも 2 桁高いことが分かるのは難しくありません。

さらに、1:1顔認識評価においても世界トップ3に入る総合順位を獲得しました。

なぜこのようなデータセットを作成するのでしょうか?

顔認識、この技術は本当に人気があると言えます。

非常に普及し、人々の日常生活に入り込んでおり、出勤、ドアの開錠、携帯電話のロック解除など、あらゆる場面で使用できるようになっています。

このため、学界と産業界の研究者たちは、顔認識の精度と速度を向上させるために競い合っています。

調査によると、顔データセットは上記に最も大きな影響を与えます。特に、ディープラーニングを中核とする現在の人工知能研究開発モデルでは、ソフトウェア開発は、従来のソフトウェア 1.0 から「データはコード、モデルはソフトウェア」というデータ中心のソフトウェア 2.0 時代へと徐々に移行していきます。

ただし、データセットに関しては、現在の状況は次のとおりです。

公開データの規模と実際の顔認識システムに必要なデータの規模には大きなギャップがあります

なんと言えばいいでしょうか?

例えば、WebFace260M がリリースされる前は、公開データの規模は比較的小さく、それ以前の最大のものはMegaFace2MS1Mでした。

MegaFace2には672,000のIDと470万枚の画像があり、MS1Mには100,000のIDと1000万枚の画像があります。

科学研究者にとって、このような大量の公開データは、実際の顔認識システムのデータニーズを満たすにはほど遠いものです。

同時に、これは顔認識技術の発展を制限するボトルネックの 1 つにすぎません。評価基準テスト セットも重要な要素です。

現在、LFW、CFP、AgeDB、RFW、MegaFace、IJBシリーズなど、公開されている顔認識評価セットは、精度の面で基本的に飽和状態に達しています。

同時に、さまざまなシナリオで詳細が不十分であるという問題が依然として残っています。

そのため、WebFace260M、WebFace42Mおよび関連ベンチマークの発表は、公開データセットの規模と実際のアプリケーション業界との間のギャップをある程度縮め、ディープラーニングを中核とする顔認識関連技術の進歩をさらに促進し、インテリジェント産業の繁栄と発展を促進したと言えます。

規模のブレークスルーと比較して、より大きな意義は「善のためのテクノロジー」「データエコロジー」にあるはずです。

数年にわたる開発を経て、顔認識技術や人工知能技術は大きな進歩を遂げ、大きな社会経済的価値を生み出しましたが、技術の発展に伴って多くの社会問題も発生しています。

チームは、このデータセットと関連作業の確立を通じて、業界や社会のあらゆる分野と協力して、顔認識のテストとアプリケーションの標準を構築し、顔認識アプリケーション市場を規制し、顔認識アプリケーションの混乱をコントロールし、テクノロジーを善のために使用し、人工知能テクノロジーの価値と温かさを強調できることを期待しています。

[[387946]]

さらに、デジタル経済とインテリジェンスが急速に発展している今日の時代では、デジタルリソースは水や電気のような必需品となっています。同時に、デジタルリソースは石油と同じくらい価値があり、計画的に生産、使用、共有、取引される必要があります。

しかし現状は、国内外でこの点に対する関心が全体的に不十分であり、具体的には業界規範が標準化されておらず、共有が不十分で、長期的な計画がなく、それがデジタル経済とインテリジェンスの発展を阻害している。

現在、国家レベルではデータセットの革新と標準化を強く奨励し、重視しています。清華大学と信義科技の研究者も国の呼びかけと政策要件に積極的に応え、国、政府機関、学界、産業界と協力して、インテリジェント時代のオープンで共有された安全なデータエコシステムを構築したいと考えています。

ウェブサイトアドレス:

https://www.face-benchmark.org

論文の宛先:

https://arxiv.org/abs/2103.04098

<<:  誰が私たちの個人情報をスパイしているのでしょうか?顔認識の悪用

>>:  畳み込みなしでTransformerのみをベースにした初のビデオ理解アーキテクチャがリリースされました

ブログ    
ブログ    

推薦する

マイクロソフトは、ほぼ100年前の量子理論の新たな証明を示した。

量子コンピューティングは、人類が直面している最も困難な課題のいくつかを解決するのに役立つと期待されて...

...

5分間の技術講演 | AI技術と「サイバー暴力」のガバナンス

パート01 「ネットいじめ」とは何ですか? 「サイバー暴力」とは、インターネット上で文章、画像、動画...

ChatGPT-4 に基づく IDEA スマート アシスタントの使い方を教えます

遅れて気づいて申し訳ありません。この記事を読んでいる友人の中には、すでにこのプラグインをインストール...

トークン化ガイド: バイトペアエンコーディング、WordPiece およびその他の方法 Python コードの詳細な説明

2022年11月にOpenAIのChatGPTがリリースされて以来、大規模言語モデル(LLM)が非常...

PyTorchの基本操作の詳細な説明

[[406246]] PyTorch とは何ですか? PyTorch は、最大限の柔軟性と速度を備え...

ReAct: 言語モデルにおける推論とアクションを組み合わせてよりスマートな AI を実現

本日は、Google Research とプリンストン大学の研究者グループが言語モデルにおける推論と...

AI は「彼ら」による盗聴を防ぐことができますか?

次のような状況に遭遇したことがあるかもしれません:携帯電話でアプリを開くと、最初に表示されるのは数分...

国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開!合計30件の口頭発表と60件のスポットライト記事

今年5月に発表され、国内の有力者である馬怡氏と沈向陽氏が主導する、まったく新しい初のAI学術会議CP...

2020年第1四半期の人工知能の最新進歩

かつてはSFの世界であり、コンピューティングの世界の非現実的な夢であった人工知能が、今や現実のものと...

...

少し手を加えるだけで、GPT-3 の精度が 61% 向上します。グーグルと東京大学の研究は皆を驚かせた

私たちが目を覚ましたとき、機械学習コミュニティは大騒ぎしていました。最新の研究により、GPT-3 に...

目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるでしょうか?

人工知能の登場以来、研究者たちはロボットに人間とゲームをさせることで機械システムの知能をテストしよう...