合成データのみでリアルな顔解析が可能！マイクロソフトの新しい研究は、手動ラベル付けに別れを告げる

[[427464]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

さらに、顔分析タスクでは、その精度は実際のデータに劣りません。

これは Microsoft チームによる最新の研究であり、論文のタイトルがすべてを物語っています。

成功するまで偽り続けなさい。

この記事では、プログラムで生成された 3D 顔モデルと合成データベースを組み合わせて画像をトレーニングする方法を紹介します。顔の解析などのタスクの結果は、実際のデータと比較できます。

研究者らは、これにより手作業によるラベル付けが不可能な分野に新たな方法が開かれたと述べた。

将来、本当に手作業によるラベル付けはなくなるのでしょうか? ！

どうやってそれを達成するのでしょうか?

顔データセットをより多様で豊かにしたい場合、収集とラベル付けによってそれを実現することはますます困難になっています。

言うまでもなく、Web スクレイピングなどの収集は、重大なプライバシーおよび著作権の問題を引き起こす可能性があります。手動でラベルを付ける場合、エラーが発生したり、ラベルに一貫性がなくなったりする可能性があります。

そのため、研究チームは、実際のデータの補強または置き換えに合成データを使用することを検討しました。しかし、顔モデル自体が複雑なため、実装が困難でした。

それで、今回はどのように達成されたのでしょうか?

最初のステップは、プログラムを使用して、アイデンティティ、表情、顔の質感、髪型、服装、さまざまな照明環境下での効果を含む合成顔を生成することです。

これらのデータはすべて個別にサンプリングされ、より多様な個体が作成されるように事前に「手動で」ノイズが除去されました。

例えば顔モデルではこんな感じです〜

例えば衣服はファッションデザイナーやシミュレーションソフトウェアデザイナーによって手作りされており、合計30セットのさまざまな衣服がありました。

ヘッドドレス（36個）、マスク（7個）、メガネ（11個）も含まれています。

これに加えてタグが合成されます。

トレーニング段階に移り、研究者らは解像度 512 × 512 の 10 万枚の画像のデータセットを作成し、データ拡張を実行し、150 個の NVIDIA M60 GPU を使用して 48 時間レンダリングしました。

さらに、チームは顔解析ネットワーク（合成データのみを使用）とラベル適応ネットワークをトレーニングし、合成ラベルと人間が注釈を付けたラベル間の体系的な違いを考慮しました。

最終的に、顔分析やランドマークの位置特定などのタスクの結果は、実際のデータを使用する他のモデルに匹敵します。

しかし、研究者たちはこの技術にはまだ一定の限界があることを認めている。

たとえば、顔のモデルには頭と首しかなく、実際のしわをシミュレートできず、顔をランダムにマッチングすると、ひげを生やした女性など、不合理な顔が生成されます。

今後の研究では、これらの制限に対処する予定です。

興味のある方は下の論文リンクをクリックしてください〜

論文リンク:
https://www.arxiv-vanity.com/papers/2109.15102/

<<: 「未来ロボット」が1億元の資金調達を完了。自動物流が次の「阿修羅場」となるか？

>>: 携帯電話に搭載された3D姿勢推定は、モデルサイズが類似モデルの1/7しかないが、誤差はわずか5cmである。

顔認識が「トレンド」になったら、少なくとも私たちには選択する権利があるはずです。

ブログ

室温超伝導の続編はあるのでしょうか？中国チームはLK-99がマイスナー効果を持つ可能性があることを再び証明し、論文がアップロードされたばかりである。

合成データのみでリアルな顔解析が可能！マイクロソフトの新しい研究は、手動ラベル付けに別れを告げる

どうやってそれを達成するのでしょうか?

顔認識が「トレンド」になったら、少なくとも私たちには選択する権利があるはずです。

ZTouch、AIを活用して広告効果を高めるデジタル広告プラットフォーム「Darwin」をリリース

0 コーパスで「ラベル付け」してより良い多言語翻訳結果を得る方法

今日のアルゴリズム: 文字列内の単語を反転する

室温超伝導の続編はあるのでしょうか？中国チームはLK-99がマイスナー効果を持つ可能性があることを再び証明し、論文がアップロードされたばかりである。

機械学習クラウドプラットフォームにはどのような機能が必要ですか?

ヤン・ルカンの最新インタビュー: エネルギーモデルは自律型人工知能システムの出発点

推薦する

ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

Microsoft と OpenAI が分裂/Stability AI が終了、新しいアーキテクチャにより Transformer は終了するのか?フォーブス誌の2024年AI予測トップ10

具現化された知能の新時代！ VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

人工知能の第三の冬が来るのか？

フォーブス：人工知能が解決できる15の社会的課題

開発速度が20倍にアップしました！ GPT Pilot スタープロジェクトが Github のホットリストに掲載され、AI をゼロから構築

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

ワン・ガン：人工知能は伝統的な産業の雇用の26％を置き換え、38％の新規雇用を創出する

ハルビン工科大学の修士課程の学生が11の古典的なデータ次元削減アルゴリズムをPythonで実装し、ソースコードライブラリが公開されました。

Deep Policy Gradient Algorithm は真の Policy Gradient Algorithm ですか?